Recupero ed espansione automatica delle interrogazioni in piattaforme di Blog e Microblog

Nei sistemi di recupero delle informazioni per le piattaforme di Blog e Microblog (Twitter), le interrogazioni effettuate sono scarsamente descrittive e pertanto il recupero risulta spesso impreciso o poco esaustivo. In generale per migliorare l’efficacia del recupero dei sistemi di recupero dell’informazione si adottano tecniche di espansione automatica delle interrogazioni, che arricchiscono l’interrogazione con termini aggiuntivi, consentendo così di selezionare fra le pagine candidate quelle il cui contenuto corrisponde meglio all’effettivo bisogno informativo dell’utente.

Quando i documenti sono molto variabili in lunghezza o contengono un vocabolario molto vasto o rumoroso (multilingue, con emoticon o neologismi, ecc.), quali quelli relativi alle piattaforme di Blog e Microblog, purtroppo nessuna tecnica di espansione automatica si è dimostrata funzionare affatto. A tal fine, FUB ha introdotto una tecnica di espansione automatica dell’interrogazione basata sul tempo, che dimostra che la componente temporale risulta essere una dimensione decisiva per l’applicazione efficace di tecniche di espansione automatica per le collezioni di Blog.

Il modello di recupero dell’informazione è stato applicato al contesto specifico di Twitter (messaggi corti multilinguismo, con parole relative agli hashtag ecc.). La prestazione è stata valutata come la seconda migliore tra tutti quelli presentati dai 59 gruppi di ricerca partecipanti alla Conferenza per la valutazione dei sistemi, TREC, organizzata da National Institute of Standards and Technology (NIST), Defense Advanced Research Projects Agency (DARPA) e Advanced Research and Development Activity (ARDA). Inoltre, è stato introdotto un modello di recupero che tiene conto dei possibili errori di battitura o di dizionari rumorosi (OCR o tipici delle piattaforme di Blog e Microblog) ottenuto spezzando opportunamente le parole in frammenti più piccoli (k-grammi).

La Fondazione ha organizzato la terza Conferenza Internazionale sulla Teoria dell’Information Retrieval a Bertinoro (Forlì) e ne ha curato gli atti.