TV++ II
Servizi avanzati di TV interattiva

 

Programma di finanziamento
(e relativo sottoprogramma)
Convenzione tra la Fondazione Ugo Bordoni e l’Istituto Superiore delle Comunicazioni e delle Tecnologie dell'Informazione (ISCOM) del Ministero dello Sviluppo economico - Dipartimento Comunicazioni  
Durata 1 marzo 2012 – 31 agosto 2013
Partecipanti

Fondazione Ugo Bordoni
Istituto Superiore delle Comunicazioni e delle Tecnologie dell'Informazione (ISCOM)

Il progetto TV++ nel biennio 2010-2011 ha realizzato un laboratorio per la sperimentazione di servizi televisivi avanzati e di algoritmi di sentiment analysis applicati a blog e microblog.
Per il progetto TV++II, la FUB e ISCOM hanno congiuntamente deciso di dar seguito alle attività relative alle sperimentazioni sulla sentiment analysis, cioè il tema di ricerca scientifica finalizzata alla valutazione di tecniche per il reperimento e l'analisi automatica delle opinioni sul Web.
In questa ottica il nuovo progetto TV++ II, intende applicare l'esperienza maturata in TV++ per sperimentare e ideare tecniche di sentiment analysis utili a sondare le opinioni che i telespettatori condividono su Twitter. Il sempre crescente numero di persone che pubblicano quotidianamente le loro opinioni su Twitter (ad oggi si stimano circa 140 milioni di utenti attivi su Twitter per una produzione di tweet superiore a 340 milioni di tweet al giorno) rende tale piattaforma una delle più importanti sorgenti on-line di opinione. Di conseguenza la sentiment analysis su Twitter risulta essere un rapido ed efficiente modo di sondare l'opinione pubblica per gli studi di mercato o di carattere sociale. Ad esempio una impresa può recuperare tempestivamente il feedback su un nuovo prodotto lanciato nel mercato valutando l'opinione delle persone su Twitter; analogamente una emittente televisiva può valutare in tempi brevi il successo di un programma televisivo e calibrare di conseguenza il proprio palinsesto.

FUB e ISCOM inoltre hanno deciso di procedere nella valutazione delle prospettive di uso della sentiment analysis nell’ecosistema italiano delle “Connected TV” (operatori televisivi, gestori di rete, aggregatori), conducendo un’analisi di scenario con l’obiettivo di individuare da un lato punti di forza e di debolezza della Connected TV in Italia nel panorama internazionale, dall’altro le potenzialità di utilizzo della sentiment analysis da parte di differenti classi di utenti/stakeholder.

Il principale obiettivo del progetto TV++ II è quello di realizzare un prototipo di una piattaforma software specializzata nel monitoraggio e nell'elaborazione delle opinioni relative ai programmi televisivi che i telespettatori diffondono via Twitter. Tale piattaforma sarà in grado di visualizzare, con grafici e rapporti, la conoscenza estratta da una raccolta di dati opportunamente filtrati e classificati da uno o più algoritmi di sentiment analysis e permetterà di rispondere a domande del tipo: “quanto e come si parla di un programma TV su Twitter?”.
La scelta di focalizzare l’attenzione sul canale Twitter è dettata dalla constatazione che ad oggi esso è il social network più utilizzato dagli utenti per condividere commenti via Web su fatti di cronaca e di attualità nell’immediatezza degli eventi di interesse.
La metodologia scientifica di indagine relativa alla sentiment analysis è basata su tecniche di machine learning e di information retrieval. Il prototipo è stato realizzato a fronte della valutazione sperimentale delle soluzioni inhouse e di quelle esistenti in letteratura riguardanti la sentiment analysis applicata ai messaggi di Twitter in lingua italiana. Considerato che la maggior parte delle tecniche esistenti sono di tipo data-driven, cioè tecniche la cui efficacia dipende da un processo di apprendimento basato su una grande mole di esempi forniti da operatori umani, il progetto ha previsto anche la realizzazione di una piattaforma per la raccolta e la valutazione manuale dei dati (applicazione di crowdsourcing) necessari all’apprendimento dei modelli da implementare.
Pertanto il progetto TV++ II, relativamente alla sentiment analysis, è stato sviluppato secondo tre direttrici principali:

  1. Costruzione di un’applicazione di crowdsourcing per la valutazione dei tweet.
  2. Sperimentazione ed ideazione di tecniche data-driven per individuare le opinioni sui programmi televisivi.
  3. Sviluppo di un'applicazione Web per il monitoraggio e l'analisi delle opinioni relative ai programmi televisivi.

Metodologie applicate

Il prototipo di ricerca di opinioni per le piattaforme di blog sviluppato in TV++ è descritto in [2]. Tale piattaforma è stata sviluppata utilizzando il motore di ricerca Terrier[24], implementata inizialmente da Amati durante la sua tesi di dottorato [20].
L'estrazione di informazione per le piattaforme di Microblogging richiede l'applicazione di diverse metodologie e tecniche di Information Retrieval [9], Data Mining e Information Extraction [16].
I tweet sono messaggi di testo molto rumorosi, ricchi di neologismi, errori di battitura, parole con caratteri speciali quali emoticon, hashtag, usernames, url. L'analisi di Twitter necessita quindi di trattamenti di indicizzazione e di pesatura statistica specifici [4]. Inoltre la freschezza dei risultati è un fattore estremamente importante per la qualità del recupero, per la quale occorre fornire modelli efficaci che sappiano selezionare il contenuto semantico nel tempo [1]. La pesatura delle parole nei messaggi corti spinge erroneamente a pensare che il recupero si possa ridurre a filtri praticamente di tipo booleano. Al contrario pesature di tipo frequentiste e non bayesiano [15], in particolare basate sulla teoria dell'informazione, si dimostrano essere più efficaci [5]. Sempre in [5] e a differenza dei risultati riportati da tutte le altre 58 organizzazioni partecipanti si è anche dimostrato che una particolare espansione automatica e pesata dell'interrogazione iniziale aumenta la precisione del sistema in modo statisticamente significativo [3].

Per quanto riguarda l'analisi di sentiment per le piattaforme di blog e microblogging, le tecnologie basate sulla costruzione automatica di dizionari pesati [12,14] risultano essere estremamente efficaci in comparazione alle tecniche di classificazione, come ad esempio quelle che utilizzano le Support Vector Machine, ed offrono al contempo una notevole semplicazione in termini di complessità computazionale.

Per rispondere a domande del tipo "Quanto e come se ne parla" in Twitter occorre mettere a punto tecniche automatiche o semi automatiche di valutazione delle performance dei sistemi su singole interrogazioni.
La valutazione automatica dell'efficacia dei sistemi di recupero e della qualità del motore di ricerca delle opinioni [7,8] è però anche questa complessa. Occorre infatti individuare le interrogazioni difficili e su queste intervenire in modo specifico [18,19].