machine learning

Privacy, troppo traffico cifrato fa male alla rete: nel deep learning una soluzione

La necessità di tutelare la privacy degli utenti ha portato a un’importante crescita del traffico internet cifrato. Ciò tuttavia si ripercuote su molte attività fondamentali per il funzionamento del web, richiedendo l’utilizzo di altri metodi. Molti operatori hanno iniziato a valutare l’impiego del Deep Learning

Pubblicato il 20 Feb 2019

Antonio Pescapè

Dipartimento di Ingegneria Elettrica e delle Tecnologie dell’Informazione, Università degli Studi di Napoli Federico II.

testo decreto gdpr in gazzetta ufficiale

Negli ultimi anni si è registrata una significativa crescita del traffico internet cifrato, per la necessità di tutelare la privacy dell’utente e la sicurezza delle comunicazioni in rete.

Come conseguenza, però, questo fenomeno mette in difficoltà molte delle attività cruciali per il funzionamento di internet esercitate giornalmente da operatori di rete. In pratica, la transizione a cui si sta assistendo da flussi di traffico in chiaro ad enormi volumi di traffico cifrato impedisce l’ispezione del contenuto (payload) dei pacchetti che transitano sulla rete, depotenziando di fatto l’efficacia di alcuni approcci come la Deep Packet Inspection (DPI) e introducendo la necessità di metodologie e tecniche alternative.

Indice degli argomenti

Gli impatti dell’aumento del traffico cifrato

Il volume del traffico che non viaggia in chiaro sulla rete rappresenta oggi una percentuale significativa del traffico di rete complessivo. Gartner ha previsto che questo valore aumenterà fino all’80% nel corso del 2019, così come ha stimato che il 70% degli attacchi di rete nel medesimo anno sfrutterà traffico cifrato.

L’ingente crescita descritta è trainata, da un lato, dal traffico generato dai dispositivi mobili (già alla fine del 2017 il traffico cifrato sulle reti mobili si attestava intorno all’80% del traffico totale), dall’altro dall’aumentato utilizzo di protocolli per la navigazione web sicura (ad esempio, nel caso del browser Firefox, la percentuale di pagine caricate che usano HTTPS sono passate dal 27% registrato nel 2013 al 76% del 2018). Ad incidere su quest’ultimo fenomeno vi è anche la decisione presa da motori di ricerca di premiare, e mettere quindi in maggiore evidenza nei risultati delle ricerche, proprio i siti che supportano l’utilizzo di comunicazioni cifrate, come annunciato da Google già nel 2015.

Approcci come la Deep Packet Inspection vengono depotenziati da questa tendenza. La DPI è una forma di analisi del traffico dati che esamina il contenuto dei pacchetti (il cosiddetto payload) al fine di verificarne l’aderenza a determinati criteri prestabiliti come, ad esempio, la presenza di pattern o parole chiave (firme) utili ad identificare l’applicazione o il servizio benevolo o malevolo che li ha generati e la conseguente azione da intraprendere. L’elevata accuratezza e la relativa semplicità delle tecniche DPI hanno decretato il loro successo sia in scenari enterprise (grandi aziende e telecom-operator), che governativi, per il miglioramento della sicurezza, ma anche per azioni di filtraggio e censura.

Il significativo aumento della percentuale di traffico cifrato (associato, non dimentichiamolo, agli aspetti relativi alla privacy degli utenti) ha reso di fatto impossibile l’analisi del traffico tramite l’ispezione diretta del contenuto dei pacchetti alla ricerca di firme rilevanti ed ha aperto la strada allo studio e sviluppo di algoritmi di Machine Learning per l’analisi e la classificazione del traffico che basassero il proprio funzionamento non più sul contenuto dei pacchetti bensì sulle caratteristiche del traffico stesso (lunghezza dei pacchetti, numero dei flussi).

L’impiego del Machine Learning

La limitata efficacia delle tecniche DPI viene mitigata dall’impiego del Machine Learning (ML), il campo dell’intelligenza artificiale che utilizza tecniche statistiche per fornire alle macchine l’abilità di apprendere la capacità di risolvere dei task a partire dai dati forniti, senza essere necessariamente e specificamente programmate per tale scopo. Tuttavia l’impiego fruttuoso degli algoritmi classici di Machine Learning si basa sulla progettazione di elementi distintivi (quelle che vanno sotto il nome di feature) che rappresentano una preliminare compressione dei dati ed il principale input degli stessi algoritmi di Machine Learning.

Tale processo è tipicamente manuale ed effettuato da esperti del dominio (in questo caso esperti di traffico di rete), e nel caso dell’analisi del traffico cifrato, tipicamente corrisponde a delle statistiche estratte dagli aggregati (variamente definiti) di pacchetti che compongono il traffico in analisi. Per questo motivo, l’estrazione delle feature si rivela onerosa in termini di tempo, inadatta ad una facile automazione e soggetta a rapida obsolescenza se confrontata con l’evoluzione e la sfaccettata composizione del traffico generato da dispositivi fissi e mobili, precludendo la progettazione di analizzatori e classificatori del traffico basati su tali approcci. Caratteristiche che sono tutte tipiche di scenari legati al traffico di rete dove, tra l’altro, l’elevata quantità di dati rende tale operazione impraticabile.

Per far fronte a tali problematiche, la comunità scientifica che opera nel campo delle reti ha di recente iniziato a valutare l’adozione di approcci basati sul Deep Learning (DL), già usati con risultati entusiasmanti in scenari che comprendono le più consolidate applicazioni di riconoscimento di elementi e contesto nelle immagini e video o riconoscimento del parlato (si pensi all’assistente vocale Siri), la rivelazione delle fake news, i sistemi di raccomandazione, ad esempio suggerimento di contenuti di interesse su piattaforme come Netflix o, più in generale, i meccanismi alla base delle inserzioni pubblicitarie personalizzate.

Le risorse del Deep Learning

Diversi big-player sia negli Stati Uniti (Google, Apple, Facebook, Amazon) che in Cina (Baidu, Alibaba, Tencent) hanno negli ultimi anni collezionato ed analizzato volumi di dati senza precedenti: gli stessi volumi che per le tecniche di Machine Learning classiche sono state un ostacolo all’efficienza o all’applicabilità, per quelle di Deep Learning costituiscono una risorsa di capitale importanza. Ciò ha trasformato aziende con un serio problema tecnico-economico (la gestione di enormi flussi di dati legati alle attività degli utenti) nei principali utilizzatori delle tecniche DL per analizzare i dati ed estrarne informazioni tecnicamente e commercialmente utili.

Tale insieme di tecniche permette infatti di eludere il problema del progetto delle feature, attraverso l’uso di architetture a stadi multipli che fanno emergere in modo automatico gli elementi distintivi del problema in analisi anche se estremamente complessi e quindi non riconoscibili in maniera efficace ed efficiente dagli esperti di dominio. Gradualmente sono state realizzate tantissime applicazioni che sfruttano tecniche ed algoritmi innovativi che emulano la stessa abilità del cervello umano di apprendere attraverso l’esperienza a partire da dati grezzi e destrutturati, ma potenziata ai livelli superumani dalle moderne infrastrutture informatiche (cloud computing e dispositivi di calcolo massivamente parallelo).

Tali applicazioni saranno tanto più efficienti ed efficaci quanto maggiore sarà la raccolta di dati utili al funzionamento degli algoritmi alla loro base. Infatti, gli algoritmi di Deep Learning e di riflesso le loro capacità di apprendimento sono tanto più efficaci quanto maggiore è la quantità, diversità e purezza dei dati utilizzati (spingendo così anche ad una integrazione tra gli esperti di Big Data e quelli di Machine Learning).

Operatori e provider si adeguano

In questo scenario, recentemente gli operatori di rete ed i provider mobili quali Cisco, Ericsson, Huawei, etc. spesso in collaborazione con i ricercatori che operano nell’ambito della classificazione del traffico e della sicurezza di rete (ed è il caso di chi scrive e del gruppo di ricerca Traffic del Dipartimento di Ingegneria Elettrica e delle Tecnologia dell’Informazione dell’Università di Napoli Federico II) hanno mostrato enorme interesse all’applicazione del Deep Learning a problemi di fondamentale importanza nell’analisi delle reti e di Internet in generale e che garantiscono di poter continuare a gestire, controllare, analizzare, monitorare e rendere sicura una rete anche in presenza di traffico cifrato. Come per altri settori le peculiarità del Deep Learning hanno portato alla soluzione di problemi precedentemente inaffrontabili, o alla nascita di nuove possibilità, così anche nel campo del monitoraggio delle reti (che, ricordiamo, rendono possibili i servizi online) ci si aspettano nuove soluzioni.

È chiaro, quindi, come la cifratura del traffico e gli algoritmi di Deep Learning abbiano contribuito in modo fondamentale allo scenario attuale che vede anche in questo caso i big-player fornitori di servizi OTT (Over The Top) e gli operatori di rete occupare posizioni antitetiche. I primi supportano ed incentivano l’adozione di meccanismi per la trasmissione di traffico cifrato. I secondi, dall’altro, si trovano a dover far fronte alle depotenziate capacità degli strumenti di supporto alla gestione, al controllo, all’analisi, ed al monitoraggio a causa della perdita di visibilità causata dai meccanismi di cifratura. Per cui se la confidenzialità delle comunicazioni è un sacrosanto diritto di noi utenti, è altrettanto vero che il crescente aumento di traffico cifrato penalizza principalmente gli operatori di rete, e non gli OTT che non soffrono dei medesimi problemi ma che, al contrario, hanno la possibilità di accedere in maniera privilegiata alle informazioni degli utenti, agendo di fatto da fornitori di servizi e, quindi, end point delle comunicazioni in chiaro.

In questa situazione, al contrario, gli OTT vedono la loro posizione ulteriormente rafforzata, risultando di fatto gli unici ad avere accesso a tali informazioni e risultando i soli a riuscirne a capitalizzare le enormi potenzialità. Inoltre, gli operatori di rete si trovano a dover assicurare nel contempo requisiti di qualità ai propri utenti (che nel caso di disservizi attribuisco questi ultimi al network provider e non all’OTT o al content provider) sempre più stringenti in relazione ai contenuti trasportati (ad es, audio e video in tempo reale), pur avendo sempre meno visibilità su questi ultimi.

La capacità decisionale dell’utente

Se da un lato quindi il traffico cifrato protegge le comunicazioni (traffico benevolo) e la privacy in rete degli utenti, dall’altro nasconde anche minacce (traffico malware) e rende difficilmente distinguibili flussi di traffico con requisiti di qualità del servizio estremamente differenti, rendendo molto complicato il lavoro dei telecom operator nella gestione di rete. Nel contempo assistiamo ad una situazione nella quale gli OTT rafforzano ulteriormente la propria posizione di dominio sul prezioso insieme di dati prodotti dagli utenti finali e di fatto rendono molto complicata la fase di monitoraggio ad esempio alla ricerca di privacy leakage da parte degli OTT stessi e dei content provider di app mobili e/o i servizi di terzi parti che a nostra insaputa contattiamo quando usiamo una app o un servizio.

In questa interazione tra interessi contrastanti l’utente ha scarsa possibilità di decisione, sia per la natura tecnica della discussione, sia per la frequente presenza di quasi-monopoli nell’offerta di servizi e tecnologie. Si pensi ad esempio ai sistemi operativi per smartphone e relative piattaforme di sviluppo e vendita di app, con due soli player, similmente ai motori di ricerca sul web, o al limitato numero di operatori di rete mobile o fissa, il limitato numero di online social network, e così via. Anche se a livello europeo un significativo passo avanti è stato fatto con il GDPR nell’informare e dare controllo all’utente sull’uso dei suoi dati, la mancanza di alternative limita comunque la possibilità reale di decidere a chi concedere l’uso dei dati, ed a chi implicitamente negarlo.

Ne emerge un quadro che è difficile da interpretare a favore o contro la diffusione della crittografia, a favore o contro l’impiego di tecniche di Deep Learning. Quello che è chiaro è che le tecnologie hanno impatto sempre più rapido e potente su vaste categorie di attività umane, e la ricerca scientifica per la produzione e comprensione di tali tecnologie si conferma di fondamentale importanza strategica, come anche l’intervento del legislatore per riequilibrare rapporti di forza continuamente mutevoli a causa dell’evoluzione tecnologica.