PUMA
Istituto di Scienza e Tecnologie dell'Informazione     
Lucchese C., Orlando S., Perego R., Silvestri F., Tolomei G. Identifying task-based sessions in search engine query logs. In: WSDM 2011 - Fourth ACM International Conference on Web Search and Data Mining (Hong Kong, China, 10-12 Febbraio 2011). Proceedings, pp. 277 - 286. ACM, 2011.
 
 
Abstract
(English)
The research challenge addressed in this paper is to devise effective techniques for identifying task-based sessions, i.e. sets of possibly non contiguous queries issued by the user of a Web Search Engine for carrying out a given task. In order to evaluate and compare different approaches, we built, by means of a manual labeling process, a ground-truth where the queries of a given query log have been grouped in tasks. Our analysis of this ground-truth shows that users tend to perform more than one task at the same time, since about 75% of the submitted queries involve a multi-tasking activity. We formally define the Task-based Session Discovery Problem (TSDP) as the problem of best approximating the manually annotated tasks, and we propose several variants of well known clustering algorithms, as well as a novel efficient heuristic algorithm, specifically tuned for solving the TSDP. These algorithms also exploit the collaborative knowledge collected by Wiktionary and Wikipedia for detecting query pairs that are not similar from a lexical content point of view, but actually semantically related. The proposed algorithms have been evaluated on the above ground-truth, and are shown to perform better than state-of-the-art approaches, because they effectively take into account the multi-tasking behavior of users.
Abstract
(Italiano)
La sfida di ricerca affrontata in questo lavoro è quella di fornire tecniche efficaci per la scoperta di sessioni di ricerca "task-based", ovvero di insiemi di queries, eventualmente non contigue, sottomesse dagli utenti di un Web Search Engine al fine di eseguire una certa attività (task). Per poter valutare e confrontare approcci diversi, abbiamo costruito, attraverso un processo di annotazione manuale, una ground-truth in cui sono state raggruppate in tasks le queries di uno specifico query log. L'analisi di questa ground-truth ha mostrato che gli utenti hanno la tendenza ad eseguire più di un task "contemporaneamente", dato che circa il 75% delle queries fanno parte di sessioni di ricerca multi-tasking. Abbiamo definito formalmente Task-based Session Discovery Problem (TSDP) la cui soluzione consiste nel trovare la strategia di partizionamento che approssima in modo migliore i tasks identificati manualmente nella ground-truth. A questo proposito, abbiamo analizzato alcune varianti di noti algoritmi di clustering, così come un'innovativa euristica specificamente proposta per risolvere il TSDP. Inotre, questi algoritmi sfruttano la conoscenza collaborativa resa disponibile da Wiktionary e Wikipedia al fine di accomunare coppie di queries dissimili dal punto di vista del contenuto lessicale, ma "semanticamente" correlate. Gli algoritmi proposti sono stati valutati sulla base della ground-truth, mostrando comportamenti spesso migliori degli approcci disponibili allo stato dell'arte, poiché effettivamente in grado di gestire il comportamento multi-tasking degli utenti.
URL: http://portal.acm.org/citation.cfm?doid=1935826.1935875
DOI: 10.1145/1935826.1935875
Subject Query log analysis
Query log session detection
Task-based session
Query clustering
User search intent
H.2.8 Database Applications. Data mining
H.3.3 Information Search and Retrieval. Clustering
H.3.3 Information Search and Retrieval. Query formulation
H.3.3 Information Search and Retrieval. Search process


Icona documento 1) Download Document PDF


Icona documento Open access Icona documento Restricted Icona documento Private

 


Per ulteriori informazioni, contattare: Librarian http://puma.isti.cnr.it

Valid HTML 4.0 Transitional