Estensione dei metodi di ranking mediante i livelli di energia delle parole

Nell'ambito della fisica quantistica ci sono stati negli ultimi dieci anni alcuni lavori che hanno cercato di sfruttare la similitudine con i livelli di energia per estrarre parole chiave da testi lunghi (ad esempio la Bibbia). In sostanza si è visto che le parole significative tendono a raggrupparsi mentre le altre si distribuiscono uniformemente.

Questo tipo di analisi centrato sulla spaziatura delle parole all'interno di un testo si è sviluppato in modo ortogonale rispetto agli approcci basati sulle frequenze tradizionalmente usati in information retrieval e text mining. Avendo verificato sperimentalmente che i risultati dei due metodi sono scorrelati, abbiamo definito un nuovo modello di ranking basato sulla loro integrazione.

Il risultato principale dei nostri esperimenti è stato che il metodo quantistico da solo non funziona bene, mentre il metodo combinato consente di migliorare in modo significativo le prestazioni del metodo classico frequentistico, in particolar modo quando la lunghezza dei documenti recuperati aumenta.

Questo studio è probabilmente il primo tentativo di riconciliare due linee di ricerca apparentemente complementari che si sono sviluppate in comunità scientifiche distinte, e fornisce alcune indicazioni quantitative sulle potenzialità di un approccio combinato.