sicurezza

AI, il problema sono i rischi imprevedibili: ecco perché



Indirizzo copiato

 I rischi legati alle tecnologie emergono spesso tardivamente. La sicurezza è stata trascurata per decenni, divenendo oggi una priorità. Le intelligenze artificiali richiedono attenzione immediata per evitare che la sicurezza diventi un mero esercizio intellettuale

Pubblicato il 12 feb 2025

Alessandro Curioni

Fondatore di DI.GI Academy, specializzato in Information Security & Cybersecurity – Data Protection



algoritmi big data

La questione della sicurezza di strumenti, oggetti, tecnologie che ci circondano e appartengono al mondo in cui viviamo ha la pessima tendenza a presentarsi tardi, talvolta “un po’ troppo” tardi. L’intelligenza artificiale non fa eccezione.

La tendenza tardiva nel riconoscere i rischi tecnologici

Nel tentativo di darne una spiegazione, altrove ho scritto che “l’uomo ha uno spiccato istinto di sopravvivenza come individuo e una malsana tendenza al suicidio come specie”.

Senza scomodare dal passato l’approccio al nucleare con gli esperimenti nell’atmosfera o, dal presente, le modalità con cui affrontiamo il cambiamento climatico, la storia stessa delle tecnologie dell’informazione dimostra chiaramente come il tema della sicurezza sia stato colpevolmente trascurato per decenni, salvo poi essere considerato oggi il rischio più rilevante nel breve periodo.

A parziale giustificazione dell’umana inconsapevolezza di questi specifici rischi ho sempre portato un certo grado di inadeguatezza biologica e una diversa velocità evolutiva che ci rende difficile comprendere come qualcosa che accade al di là uno schermo possa produrre conseguenze al di qua. Tuttavia, la diffusione delle intelligenze artificiali impone una presa d’atto immediata poiché l’impatto che avranno sulla tecnologia delle informazioni e in generale sulla società potrebbe porci molto rapidamente di fronte a quella che in futurologia si è sempre definito come singolarità tecnologica. A quel punto, avendo perso prima la comprensione e di conseguenza il controllo, porci il problema della sicurezza potrebbe essere al massimo un puro esercizio intellettuale tragicamente inutile.

Le vulnerabilità delle intelligenze artificiali e gli attacchi avversari

Il tema della possibilità di attaccare intelligenze artificiali è ormai noto. Si parla di adversarial attack per cui compromettendo l’integrità dell’algoritmo, dei dataset di addestramento o dei dati di input è possibile indurre comportamenti anomali nel sistema. Allo stesso modo da tempo migliaia di persone provano a turlupinare gli LLMs (Large Language Models) come ChatGPT attraverso il prompt engineering, inserendo richieste “equivoche”. Il fatto che si possa fare in linguaggio naturale rende questo tipo di attacco potenzialmente alla portata di chiunque.

Non di meno sono ormai dieci anni che si discute come sia possibile evitare che i bias cognitivi appartenenti a chi sviluppa e addestra gli algoritmi generino intelligenza artificiali afflitte da analoghi pregiudizi.

Detto tutto questo c’è un tema, che almeno da un certo punto di vista sembra essere il più complesso da gestire. Mi riferisco ai fenomeni allucinatori che affliggono in forme e modi del tutto imprevedibili questi sistemi. Il problema è tutt’altro che banale nelle sue implicazioni e ancora più difficile è lo studio delle possibili soluzioni. In questo senso ha un peso significativo quella che si definisce opacità dell’algoritmo e, per fare un esempio, si tratta di una delle questioni più spinose con cui si stanno confrontando le intelligence di tutto il mondo.

La complessità e l’opacità degli algoritmi

I termini del problema sono i seguenti. La complessità delle strutture fondamentali delle intelligenze artificiali (rete neurali con centinaia di miliardi di connessioni) e la grandezza delle basi dati di addestramento (terabyte di solo testo per esempio negli LLMs) creano delle condizioni per cui nessun essere umano sarebbe in grado di capire le motivazioni che hanno spinto il sistema a fare o suggerire una scelta piuttosto che un’altra.

Questo significa che gli analisti potrebbero avere serie difficoltà a effettuare una valutazione tecnica basata sull’attendibilità della fonte e la fondatezza della notizia. Questo implica che, se nell’ambito dell’intelligence sarà inevitabile l’introduzione di sistemi IA fortemente specializzati che facciano una prima raccolta e correlazione di dati, allora sarà ineluttabile che i decisori debbano sviluppare una maggiore tolleranza al rischio di sbagliare.

Il rischio intrinseco dei sistemi decisionali automatizzati

Altri rischi significativi interessano tutti quei settori in cui il processo decisionale è totalmente o in gran parte delegato agli algoritmi come il trading finanziario ad alta frequenza. Siamo in presenza di una vulnerabilità che potremmo definire intrinseca, cioè connessa alla natura stessa dell’oggetto, quindi estremamente difficile da trattare non fosse altro per la banale constatazione che siamo di fronte a macchine non semantiche. Si intende dire che questi sistemi pur essendo in grado di maneggiare la sintassi con straordinaria abilità non comprendono.

In questo senso esemplare l’esperimento mentale della “stanza cinese” del filosofo John Searle. Lo scenario è quello in cui lo studioso si immagina chiuso in una stanza in cui gli vengono comunicati in input degli ideogrammi. Purtroppo, non parla cinese e non ha idea di cosa dovrebbe rispondere. Tuttavia, ha il libro delle regole dove è scritto cosa deve rispondere a ogni ideogramma. Il risultato è che non sbaglia mai, ma non ha capito nulla.

Le difficoltà nell’addestramento e l’inganno persistente

Questo significa, tra l’altro, che in assenza di una capacità di astrazione, se il libro delle regole su cui l’intelligenza artificiale è costruita contiene un errore, magari un semplice refuso, alla fine fornirà l’output sbagliato senza rendersene conto e, per quanto scritto prima, sarebbe molto difficile capirlo anche ex-post.

Allo stato attuale si cerca di contenere il problema sottoponendo le IA ad addestramenti continui combinati con tecniche di apprendimento per rinforzo, “fine tuning” supervisionato e specifici training volti a rimuovere comportamenti insicuri e anomali. Tuttavia, uno studio particolarmente interessante è stato pubblicato a gennaio del 2024 (in merito alla possibilità di introdurre in un LLMs modalità di comportamento ingannevoli (AA. VV., Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training).

I ricercatori sono riusciti ad addestrare un modello a sviluppare codice sicuro quando nel prompt si affermava che l’anno era il 2023 e a scrivere codice vulnerabile quando invece veniva indicato che l’anno era il 2024. Questo comportamento è risultato persistente anche dopo che il modello è stato sottoposto ad ulteriore addestramento con tutte le tecniche di cui sopra.

La necessità di sospendere alcune applicazioni dell’intelligenza artificiale

L’implicazione più immediata di questa linea di pensiero potrebbe richiedere di sospendere fino a “tempi migliori” determinate applicazioni delle IA, soprattutto in contesti critici e laddove la decisione finirebbe per essere completamente delegata al “non umano”. Molti anni orsono Günther Anders nel suo libro “L’uomo antiquato” si poneva la questione se le ali senza Icaro volerebbero, oggi forse possiamo ragionevolmente dire che forse non dovrebbero proprio farlo.

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati