BIG Data DOCS
Metodologie Big Data applicate a Dati Open di Cyber Security

Programma di finanziamento 
(e relativo sottoprogramma)
Convenzione con MiSE - ISCOM
Durata 15 ottobre 2017 - 15 marzo 2018
Partecipanti

Fondazione Ugo Bordoni
Istituto Superiore delle Comunicazioni e delle Tecnologie dell'Informazione (ISCTI)

 

Il Progetto prevede due attività principali. La prima è quella di individuare e indicizzare il flusso su Twitter relativo alla tematica della Cybersecurity, la seconda quella di raccolta, indicizzazione e classificazione del malware.
I fornitori di software anti-malware ricercano meccanismi di contrasto per l’individuazione e la disattivazione dei malware. Una delle principali sfide è l’analisi di enormi quantità di dati e di file che devono essere valutati per individuare le intenzioni dannose. Decine di milioni di dati giornalieri vengono analizzati come potenziali malware. Uno dei problemi principali è il fatto che, per eludere il rilevamento, gli autori di malware introducono il polimorfismo nelle componenti dannose. Ciò significa che i file dannosi appartenenti alla stessa famiglia "malware”, vengono costantemente modificati e/o offuscati usando varie tattiche, in modo che risultino file a tutti gli effetti diversi.
Per essere efficaci nell’analizzare e classificare tali grandi quantità di file, dobbiamo essere in grado di raggrupparli e identificarli con algoritmi lineari come LSH. In particolare il Progetto si è focalizzato sulla raccolta e l’analisi di collezioni di malware e di informazioni relative alla sicurezza informatica reperibili in rete in formato Open o mediante il monitoraggio delle piattaforme sociali. 
Per quanto riguarda il livello di sicurezza della rete, il primo passo è l’individuazione delle spam farm. L’analisi  delle interazioni ha dimostrato che gli account di spamming in Twitter tendono ad essere socialmente connessi, e formano una sotto-rete di piccole dimensioni. I centri di spamming, inoltre sono proprio al centro di questo sotto-grafo sociale, e sono quelli più inclini a seguire altri account di spam.  Questo fa pensare che algoritmi di visualizzazione massiva e opportuni algoritmi di pesatura dei nodi delle reti sociali possano evidenziare le zone grigie del grafo sociale, cioè quelle con una elevata densità di attività di spamming.

L’analisi e la classificazione di grandi quantità di dati, e in particolare, di malware devono essere svolte in modo tempestivo. Al momento, solo le tecnologie di tipo Big Data sono in grado di farlo. Inoltre, la segnalazione di eventi critici richiede il monitoraggio dell’intero ecosistema nel quale le minacce informatiche vengono diffuse. Strumenti di filtraggio e classificazione dei dati,  di individuazione e tracciamento di eventi sono importanti in un’ottica di prevenzione del crimine informatico.