Anonimizzazione dei search query logs

Negli ultimi anni sono state introdotte varie tecniche volte a limitare la possibilità di identificare gli utenti e di estrarre informazioni sensibili analizzando il contenuto delle interrogazioni presenti nei log dei motori di ricerca.

Questo tema di ricerca verte sulla definizione di tecniche di anonimizzazione innovative che, oltre a garantire un’elevata protezione dell’identità degli utenti, consentano una sostanziale riutilizzazione dei dati anonimizzati a fini applicativi e siano al contempo efficienti da implementare.

Tipicamente i modelli di privacy proposti prevedono l’eliminazione delle interrogazioni rare, le quali però costituiscono la maggior parte dei dati, con pesanti ripercussioni sull’utilità dei dati anonimizzati. Noi stiamo lavorando a un nuovo metodo di anonimizzazione basato sull’affinità semantica, nel quale le interrogazioni rare possono essere mantenute a condizione che esse rappresentino dei raffinamenti di interrogazioni canoniche frequenti. Il metodo prevede quattro fasi principali:

  1. Dapprima vengono estratti dalla collezione i concetti chiave presenti nelle interrogazioni, rappresentati come n-grammi ed estratti combinando tecniche probabilistiche e di elaborazione del linguaggio naturale.
  2. Successivamente, ciascuna interrogazione viene espansa utilizzando i concetti in essa contenuti calcolati al passo precedente.
  3. A questo punto, viene costruito il grafo delle interrogazioni espanse che hanno una similarità predefinita.
  4. Infine, estendendo una classica nozione di teoria dei grafi, vengono calcolati i k-cores generalizzati del grafo, i quali conterranno l’insieme completo delle interrogazioni il cui contenuto è riconducibile ad almeno altre k interrogazioni immesse da utenti distinti. In questo modo è possibile evitare di cancellare molte interrogazioni che sono sintatticamente rare ma semanticamente frequenti.

Rispetto al metodo che prevede la cancellazione di tutte le interrogazioni che non hanno k copie identiche da utenti distinti, una prima sperimentazione ha evidenziato un nettissimo aumento di interrogazioni rilasciate a fronte di un sostanziale mantenimento delle caratteristiche di riservatezza.

Su questo argomento è stato pubblicato a ECIR 2013 il seguente articolo, vincitore del Best Paper Award della Conferenza:  

  • Carpineto C., Romano G., "Semantic search log k-anonymization with generalized k-cores of query concept graph",
    35th European Conference on Information Retrieval (ECIR 2013), Moscow, March 24-27 2013, Springer, 2013, Vol. 7814, pp. 110-121.