Negli ultimi anni, la sicurezza informatica ha affrontato una sfida sempre più complessa: gli attacchi evolvono più velocemente delle difese. I sistemi tradizionali, basati su firme note, faticano a stare al passo con le minacce in costante evoluzione.
Per questo motivo, è diventato imperativo insegnare alle macchine a “vedere” gli attacchi. Attraverso la trasformazione dei dati in immagini, è possibile affidare il compito di individuare gli attacchi alle stesse architetture di intelligenza artificiale che riconoscono volti, oggetti e scenari fotografici.
| In sintesi: i sistemi tradizionali di cybersecurity, basati su firme di attacchi già noti, non riescono a rilevare le minacce zero-day e il malware polimorfico. Una nuova generazione di approcci basati sul Deep Learning trasforma il traffico di rete e il codice malevolo in immagini, applicando poi reti neurali convoluzionali (CNN) e Vision Transformer per rilevare pattern sospetti — compresi attacchi mai visti prima. I modelli più recenti aggiungono meccanismi di attenzione che spiegano le proprie decisioni, indicando agli analisti esattamente dove “guardare” nell’immagine per capire perché un’attività è stata segnalata come sospetta. |
Indice degli argomenti
Perché la cybersecurity tradizionale fatica contro le nuove minacce
Ogni volta che navighiamo in rete, inviamo un’e-mail o accediamo a un servizio online, generiamo un flusso di dati: pacchetti, connessioni, protocolli. Nella maggioranza dei casi questo traffico è innocuo. Ma in mezzo a questa massa di comunicazioni lecite si nascondono tentativi di intrusione, malware, attacchi di negazione del servizio (DoS) e numerose altre minacce il cui obiettivo è bloccare piattaforme e servizi, sottrarre dati sensibili o prendere il controllo dei dispositivi. Allo stesso modo, ogni volta che installiamo un’applicazione sul nostro smartphone o eseguiamo un programma sul computer, diamo fiducia a del codice che potrebbe, in alcuni casi, nascondere comportamenti malevoli: spyware che registrano le nostre attività, ransomware che cifrano i nostri file, trojan che inviano dati all’esterno.
Per molto tempo la sicurezza informatica è stata affidata ad approcci basati su firme note, riconoscendo la minaccia perché si è già vista in passato. I sistemi anti-intrusione confrontano il traffico di rete con un archivio di schemi di attacco già catalogati; i sistemi anti-malware confrontano i file sospetti con una libreria di firme di virus e di programmi pericolosi noti. In entrambi i casi, il principio è lo stesso: cercare una corrispondenza con qualcosa già identificato come pericoloso, seguendo regole scritte a mano dagli esperti. Questo metodo ha funzionato bene per anni e continua a essere ampiamente utilizzato. Ma ha un limite evidente: è efficace solo contro ciò che è già noto. Il problema è che gli attaccanti si adattano rapidamente e ogni nuovo tipo di minaccia richiede nuove regole.
Un malware può essere modificato per sfuggire al riconoscimento cambiando qualche istruzione nel codice o offuscandone la struttura proprio come un attacco di rete può cambiare leggermente forma per aggirare le regole del sistema di protezione. Quando la minaccia è completamente nuova, come nei cosiddetti attacchi zero-day, il sistema rischia di non riconoscerla affatto. Inoltre, questo tipo di sistema richiede un aggiornamento continuo delle firme e fatica a rilevare comportamenti anomali che non corrispondono esattamente agli schemi già catalogati. È come cercare un volto in una folla avendo solo una fotografia: funziona finché il volto non cambia.
L’intelligenza artificiale che impara dai dati
Con l’avvento del Deep Learning, ovvero la branca dell’intelligenza artificiale in cui modelli di reti neurali, ispirati al funzionamento del cervello umano, imparano autonomamente a partire da grandi quantità di esempi, le cose sono cambiate radicalmente. Invece di seguire regole scritte da esperti, questi sistemi scoprono da soli le strutture nascoste nei dati: imparano a distinguere il traffico innocuo da quello pericoloso, o un’applicazione legittima da una malevola, senza che nessuno glielo abbia esplicitamente spiegato.
Invece di limitarsi a cercare corrispondenze esatte con minacce già note, i nuovi approcci mirano a cogliere pattern, ovvero schemi ricorrenti, relazioni e regolarità nei dati. Nel traffico di rete, un pattern sospetto può consistere in una sequenza insolita di connessioni allo stesso server in brevissimo tempo. In un’applicazione, può consistere nella combinazione di determinate operazioni sul filesystem con l’accesso ai dati sensibili dell’utente. Sono comportamenti che, presi singolarmente, potrebbero sembrare innocui, ma che insieme potrebbero rivelare un’intenzione malevola. Non si tratta più soltanto di riconoscere qualcosa di noto, ma di individuare ciò che appare “fuori posto”.
Un cambio di prospettiva è stato descritto di recente in [1,2,3] in cui si è provato a trasformare i dati in immagini in modo da simulare il comportamento del cervello umano nel riconoscere una faccia familiare anche in condizioni di scarsa illuminazione o da un’angolazione insolita.
Dai numeri alle immagini nella sicurezza informatica
A prima vista può sembrare un’idea controintuitiva. Il traffico di rete è fatto di numeri, valori e sequenze di eventi; allo stesso modo, un file eseguibile è una sequenza di istruzioni e di codice binario, e il comportamento di un’applicazione è descrivibile come una lista di operazioni compiute sul sistema. Perché convertire tutto questo in immagini? La risposta sta nel fatto che le immagini sono una forma di rappresentazione estremamente potente.
Negli ultimi anni, l’intelligenza artificiale ha raggiunto risultati straordinari nella capacità di analizzare contenuti visivi: riconoscere oggetti, volti e scene, persino le emozioni, a partire da fotografie di volti. Trasformare il traffico di rete in immagini significa quindi poter sfruttare questo enorme patrimonio di conoscenze già sviluppate e collaudate.
Le caratteristiche del traffico di rete, ad esempio il numero di pacchetti, la durata di una connessione, la frequenza delle richieste, vengono mappate su punti specifici di una griglia di pixel. Analogamente, per analizzare un file potenzialmente malevolo si può trasformare in immagine la sequenza di istruzioni che lo compone: ogni byte del codice diventa un pixel, e la struttura visiva risultante riflette l’organizzazione interna del programma. Un’applicazione Android sospetta, invece, può essere rappresentata come immagine a partire dalle sue chiamate di sistema: quali operazioni compie, con quale frequenza, in quale ordine, quasi fosse una sorta di “impronta digitale visiva” del suo comportamento.
Il passaggio cruciale, in tutti questi casi, non è semplicemente “appiattire” i dati su una griglia in modo casuale, ma disporli in modo che caratteristiche simili, che tendono a variare insieme, vengano collocate vicine tra loro [1]. Quando la durata di una connessione aumenta, di solito aumenta anche il volume dei dati trasmessi: questi due valori finiranno in pixel contigui. Quando un malware accede a un file, spesso esegue anche operazioni di rete poco dopo: questi comportamenti correlati si traducono in zone visivamente coerenti nell’immagine. Il risultato è una rappresentazione in cui emergono strutture significative, con zone di continuità cromatica che riflettono pattern reali nei dati. Questo processo permette di ottenere immagini in cui emergono pattern, cioè schemi riconoscibili. Invece di chiedersi “questa sequenza è già stata vista?”, i nuovi sistemi si chiedono: “questo comportamento somiglia a qualcosa di sospetto?”. È qui che nasce una nuova generazione di strumenti di difesa: sistemi che non si limitano a riconoscere le minacce, ma imparano a vederle.
Imparare a riconoscere le minacce con CNN e Vision Transformer
Una volta trasformati in immagini, questi dati vengono analizzati con reti neurali convoluzionali (CNN): sistemi di intelligenza artificiale progettati proprio per elaborare immagini, che applicano una serie di filtri locali per individuare caratteristiche visive, ad esempio bordi, forme, variazioni di intensità, e le combinano per costruire una rappresentazione sempre più ricca e complessa. Il loro funzionamento si ispira, almeno in parte, al sistema visivo umano: analizzando l’immagine attraverso filtri che individuano caratteristiche locali, le combinano per costruire una rappresentazione complessa dei dati.
Applicate alla cybersecurity, queste reti imparano a distinguere il traffico normale da quello malevolo, così come i file innocui da quelli pericolosi. Non lo fanno seguendo regole esplicite definite da esperti del dominio, ma attraverso un processo di apprendimento: vengono addestrate su grandi quantità di dati etichettati e, nel tempo, imparano a riconoscere schemi tipici degli attacchi. Ad esempio, un blocco di pixel insolitamente brillante nella zona degli attributi legati alle connessioni SYN può indicare un attacco di tipo flood; una particolare distribuzione cromatica nella regione dei protocolli può segnalare traffico di ricognizione. La rete impara queste firme visive direttamente dai dati, senza che nessuno le abbia esplicitamente descritte. Uno degli aspetti più importanti è che questi modelli non si limitano a memorizzare esempi: riescono a generalizzare, cioè a riconoscere anche varianti di attacchi o di malware mai visti prima. Un nuovo ransomware, mai catalogato prima, produrrà comunque un’immagine del suo comportamento simile a quelle dei ransomware già noti e il sistema lo riconoscerà come sospetto, anche senza averlo mai incontrato.
Ancora più potenti sono i Vision Transformer [2], che non si limitano a riconoscere pattern locali ma analizzano le relazioni tra tutte le zone dell’immagine contemporaneamente, cogliendo dipendenze a lungo raggio che i filtri tradizionali non riuscirebbero a vedere.
Leggere le immagini per capire gli attacchi: l’intelligenza artificiale che spiega
Gli sviluppi degli ultimi anni hanno portato la tecnologia per la cybersecurity ancora un passo avanti. Non basta più che un sistema sia accurato: deve anche essere comprensibile [2,3]. Nella cybersecurity questo è particolarmente importante, perché gli esperti devono poter capire perché un’attività è stata segnalata come sospetta, per verificare l’allarme e prendere le decisioni appropriate.
Per rispondere a questa esigenza, i modelli più recenti sono dotati di meccanismi di attenzione: una capacità, ispirata al modo in cui anche noi umani concentriamo lo sguardo sulle parti più rilevanti di una scena, di pesare le diverse zone dell’immagine in base alla loro importanza per la decisione finale. Il sistema non guarda tutto allo stesso modo: si concentra su ciò che conta di più, e può mostrare all’analista esattamente dove ha “guardato”.
Questo permette di produrre mappe visive che mostrano su quali zone dell’immagine il modello ha focalizzato la propria attenzione. Un attacco DoS, visto come immagine del traffico di rete, produce una texture riconoscibile: zone di saturazione cromatica in cui i contatori di connessione verso lo stesso host salgono oltre ogni norma, e macchie scure in cui i pacchetti di risposta non arrivano mai [2,3]. L’attenzione si concentra sui pixel corrispondenti al numero di connessioni verso lo stesso host di destinazione e alla percentuale di connessioni con errori SYN, che sono i tipici comportamenti di un attacco DoS dove nel primo caso l’attaccante inonda lo stesso server con migliaia di connessioni simultanee mentre nel secondo i pacchetti SYN vengono inviati senza mai completare l’handshake, lasciando il server in attesa [3]. Nell’analisi del malware su Android, emergono invece come discriminanti i pattern legati alle operazioni di scrittura su file e all’accesso al filesystem: comportamenti tipici delle applicazioni malevole che cercano di agire in modo nascosto [2]. Il modello non solo classifica correttamente, ma indica al ricercatore dove guardare per capire il perché.
Ricerche recenti mostrano che questi approcci possono raggiungere elevati livelli di accuratezza fornendo al tempo stesso spiegazioni utili per interpretare i risultati, contribuendo ad aumentare la fiducia nei sistemi automatici e a facilitare la collaborazione tra intelligenza artificiale ed esperti umani.
Una nuova idea di sicurezza
Man mano che gli attacchi di rete diventano più sofisticati e il malware più evasivo, capace di camuffarsi, mutare e adattarsi, anche le difese devono evolversi. Sistemi capaci di apprendere, adattarsi e spiegare le proprie decisioni saranno sempre più centrali, sia nella protezione delle infrastrutture di rete sia nell’analisi del software malevolo su PC e dispositivi mobili. Quello che emerge è un cambiamento profondo nel modo di concepire la sicurezza informatica. Non si tratta più soltanto di riconoscere ciò che è noto, ma di interpretare ciò che accade. I sistemi diventano capaci di osservare, individuare anomalie e cogliere segnali deboli che potrebbero indicare una minaccia, indipendentemente dal fatto che tale minaccia sia già stata catalogata in passato. In questo nuovo scenario, l’intelligenza artificiale non sostituisce gli esseri umani, ma li affianca. Fornisce strumenti più potenti per analizzare grandi quantità di dati, evidenzia pattern nascosti e segnala possibili rischi. Gli esperti, a loro volta, interpretano queste informazioni e prendono decisioni strategiche.
Trasformare i dati in immagini non è solo un espediente tecnico. È un cambio di linguaggio: invece di descrivere una connessione di rete o un file sospetto con un elenco di numeri, lo si mostra come una figura. E le figure possono essere lette, tanto dai modelli di visione artificiale quanto dagli analisti umani, con una ricchezza e un’immediatezza che i numeri da soli non offrono.
In un campo in cui la differenza tra vedere e non vedere un attacco può costare milioni, avere nuovi occhi non è un lusso: è una necessità. In fondo, l’idea alla base di tutto questo è semplice e potente: per difendersi meglio, bisogna imparare a vedere. E oggi, grazie all’intelligenza artificiale, stiamo insegnando alle macchine a farlo.
Bibliografia
[1] G. Andresini, A. Appice, L. De Rose, D. Malerba, Gan augmentation to deal with imbalance in imaging-based intrusion detection, Future Generation Computer Systems, Elsevier 123 (2021) 108–127, doi:10.1016/j.future.2021.04.017.
[2] L. De Rose, G. Andresini, A. Appice, D. Malerba, Vincent: Cyber-threat detection through vision transformers and knowledge distillation, Computers & Security 144 (2024) 103926, doi:10.1016/j.cose.2024.103926.
[3] G. Andresini, A. Appice, F. Caforio, D. Malerba, G. Vessio, Roulette: A neural attention multi-output model for explainable network intrusion detection, Expert Systems with Applications 201 (2022) 117144,51, doi:10.1016/j.eswa.2022.117144.









