Analisi e pre-elaborazione del search log data set AOL 2006

Si tratta del benchmark più famoso e utilizzato per lo sviluppo e la sperimentazione dei metodi di anonimizzazione dei log dei motori di ricerca, ancorché ufficialmente indisponibile da quando è scoppiato lo scandalo dell’utente identificato mediante il contenuto delle sue interrogazioni. Consiste di circa venti milioni di interrogazioni inviate al motore di ricerca AOL da circa seicentomila utenti nel 2006.

Nel 2012, è stata implementata una serie di procedure per la normalizzazione delle interrogazioni, per la ricerca efficiente di parole o sequenze di parole all’interno della base dati, e per il calcolo di statistiche generali sul contenuto delle interrogazioni stesse. Queste attività sono state propedeutiche alla validazione delle metodologie di anonimizzazione.