Data mining di testi brevi

In molti algoritmi di text mining è necessario stabilire la similarità fra coppie di oggetti di input. Le misure tradizionali di similarità fra testi, basate sull’occorrenza di parole uguali in contesti simili, in generale funzionano bene, ma non quando i testi sono molto brevi, come accade sovente per i messaggi che popolano i media sociali. In questo caso, infatti, la ridondanza dei termini è moderata o nulla e l’informazione di contesto necessaria per cercare di disambiguare eventuali co-occorrenze spurie è molto limitata. Un approccio per superare questo problema consiste nell’espandere la descrizione di ciascun testo con parole logicamente associate, utilizzando tecniche di espansione automatica delle interrogazioni.

FUB ha sviluppato e ingegnerizzato un nuovo metodo basato sul paradigma dei reticoli concettuali.

Dati due termini, la loro associazione viene espressa in funzione del grado di connessione esistente fra i concetti corrispondenti ai due termini nel reticolo concettuale della collezione documentale di partenza. È quindi necessario costruire preliminarmente il reticolo concettuale e mappare poi ogni coppia di termini della collezione sui corrispondenti concetti termine. La connessione fra due concetti termine incorpora sia la loro distanza topologica, sia la somiglianza fra i concetti dislocati sul percorso minimo di connessione. Una volta calcolata la matrice di associazione fra coppie di termini, la rappresentazione di ciascun oggetto viene espansa con tutti i termini associati ai termini originari, secondo il loro grado di associazione. Questa rappresentazione espansa viene utilizzata per calcolare la similarità fra coppie di oggetti.

Il nuovo metodo per il calcolo della similarità fra oggetti è stato utilizzato all’interno di due algoritmi di data mining molto noti, k-nearest-neighbor e k-means (rispettivamente per classificazione e clustering), applicati a collezioni campione di testi brevi. Sono stati confrontati i risultati ottenuti dai due algoritmi utilizzando sia la rappresentazione originaria, sia quella espansa che incorpora la nuova misura concettuale fra coppie di termini. Per aumentare la robustezza della sperimentazione, sono stati implementati anche due metodi alternativi di espansione, basati su Wordnet e su feedback di pseudo-rilevanza. È stato registrato un sensibile miglioramento nell’accuratezza delle classi generate dagli algoritmi di data mining, a fronte di un aumento di complessità computazionale che è possibile tenere sotto controllo attraverso l’implementazione di tecniche di visita del reticolo concettuale efficienti.