Il 21 febbraio 2024 ChatGPT ha sofferto di problemi indeterminati. Molti utenti hanno denunciato di aver ricevuto risposte incomprensibili in uno strano mix di lingue (Spanglish) e completamente senza senso. Non si conoscono le cause: sembra si tratti di un comportamento puramente casuale e indeterministico.
Incidenti simili sono accaduti anche a Gemini e ad Anthropic. I tre colossi dell’AI con modelli proprietari via cloud malgrado gli investimenti da capogiro non sono in grado di garantire le risposte.
I limiti dei Large Language Models
In realtà, al di là dei singoli episodi, il problema dei Large Language Models è che proprio la tecnologia non è in grado di garantire la qualità di risposta al 100%. Proviamo a vedere questi limiti anche esaminando il rapporto NIST “Adversial Machine Learning – A Taxonomy and Terminology of Attacks and Mitigations” del gennaio 2024.
Nei mesi scorsi abbiamo sentito e letto grandi proclami da parte di OpenAI, Microsoft, Anthropic, Google etc. sulle enormi potenzialità dell’AI e su come in futuro avremmo assistito ad un mondo fatto di disoccupati e “fannulloni” con l’intelligenza artificiale che avrebbe guidato ogni nostro aspetto di vita. Discorsi che hanno sicuramente alzato le aspettative agli azionisti che si sono precipitati ad investire su queste aziende ma che hanno scarsa possibilità, stante le attuali tecnologie, di essere vere.
Vediamo quali sono i limiti di queste tecnologie per comprenderne meglio le potenzialità e i possibili usi, facendo largo in quel “vaporware” che spesso le aziende che vendono tecnologie ci hanno propinato sin dalla nascita di Microsoft Windows con annunci continui e magnifici progressi che sarebbero per materializzarsi ma che non vengono mai.
Di cosa parliamo quando parliamo di LLM
Anzitutto per comprendere i limiti e le potenzialità degli LLM è bene ricordare cosa sono. Gli LLM sono delle reti neurali estese composte di vari moduli che consentono di essere addestrate con migliaia di documenti. Questo addestramento va a determinare i pesi di una rete neurale[1] in grado di rispondere ad un input di testo con una sequenza di parole probabili rispetto alla sequenza di ingresso.
Appena effettuato il training questi modelli rispondono con sequenze spesso senza senso. Hanno bisogno di completare il training con il cosiddetto fine-tuning che consiste nel dare, ad esempio nel caso dei modelli addestrati a rispondere a domande, una sequenza di domande e risposte in modo da rifinire l’addestramento precedente finché non rispondono correttamente. Rispondere correttamente non significa che imparino a memoria, anche perché una memoria dei testi non ce l’hanno, ma che riescono a rendere più probabile la risposta rispetto alla domanda. Le risposte che noi consideriamo corrette sono delle sequenze probabilistiche e in quanto tali sono soggette ad errori.
Il problema delle allucinazioni
Il principale limite di tutti i modelli LLM è la cosiddetta “allucinazione”. L’allucinazione è quando il modello restituisce una risposta che sembra esatta ma contiene delle parole o delle frasi che in realtà sono inventate.
Ogni modello ha anche dei parametri che devono essere bilanciati e che vincolano o meno il modello a seguire il loro apprendimento per intero o in parte. Maggiore è il grado di libertà che i modelli hanno di “inventare” maggiore sembrerà agli umani che stanno “mettendo del loro” e dunque di paragonarli ad un essere umano ma sarà anche più grande il rischio di allucinazione. Trovare il giusto balance tra questi parametri e il dataset di addestramento è molto complicato e più che una scienza è un lavoro di try and error.
Ci possiamo trovare di fronte a modelli che rispondono bene a molte domande ma ad un certo punto possono inserire piccole frasi o parole che non sono esatte, per questo è sempre necessario che chi li usa mantenga una controllo vigile per verificare i risultati.
Uno dei casi più eclatanti di allucinazione è quello di uno studio legale di Manhattan che ha presentato alla Corte Federale un documento ricco di citazioni di precedenti sentenze ricavate da ChatGPT ottenendo citazioni false e inventate dal modello. La Corte si è accorta di questo terribile errore per fortuna.
Il problema delle allucinazioni è un problema strutturale dell’Ai generativa, ne soffrono anche i modelli che producono immagini che possono produrre dei piccoli o grandi difetti in relazione al loro addestramento. Stable Diffusion, uno dei più importanti modelli di produzione di immagini, spesso non riproduce correttamente le mani che presentano dei difetti come il numero di dita. Con l’avanzamento della ricerca sulle tecniche di fine-tuning e con continui aggiustamenti questo problema si può ridurre ma non eliminare.
Informazioni personali a rischio
Esistono anche dei problemi che non sono nemmeno ipotizzabili e difficili da gestire. A fine novembre ChatGPT ha rivelato delle informazioni riservate e private di centinaia di persone.
Alcuni ricercatori hanno inserito una istruzione al modello chiedendogli di ripetere all’infinito parole casuali e come risultato hanno ottenuto che dopo un certo numero di ripetizioni il modello ha cominciato a rilevare i dati che erano stati utilizzati per il training tra cui molte informazioni personali di utenti ignari. Per addestrare questi modelli sono necessari molti dati che spesso vengono acquisiti con dei software che raccolgono tutto ciò che trovano su internet.
Nessuno dei colossi come OpenAI o Google ha mai pubblicato i dati del training e come questi siano stati raccolti. Non sappiamo se i dati raccolti siano stati raccolti anche nel dark web dove, oltre ad esserci una quantità di informazioni molto superiori, esistono dati di ogni tipo anche quelli pubblicati dagli hacker che ricattano le aziende dopo averle hackerate. Questo tipo di problema viene fronteggiato con dei filtri che verificano il tipo di informazioni fornite in uscita ma non è detto che a fronte di prompt particolari questi filtri non possano essere bypassati.
Tecniche di attacco ai modelli intelligenza artificiale
Il rapporto NIST riporta una lunga sequenza di tecniche di attacco ai modelli intelligenza artificiale e in generale all’Intelligenza artificiale e da un primo quadro delle problematiche connesse.
Anthropic, il concorrente fino a poco tempo fa più quotato di OpenAI che ha stretto un accordo con Amazon, ha subito un data breach legato ad uno dei suoi fornitori perdendo informazioni riservate sui suoi utenti. Spesso queste aziende si appoggiano a fornitori che hanno il compito di fare delle particolari attività come la ripulitura dei dati. In questo caso specifico le informazioni perse sono state di carattere economico non legate direttamente al modello tuttavia, come segnala venturebeat, questo pone questioni non banali agli utenti che utilizzano modelli proprietari in cloud.
Un altro problema non banale di chi utilizza i modelli proprietari in cloud è sui dati inseriti nelle domande. Ormai tutti questi modelli consentono di caricare documenti e nelle domande di inserire informazioni sulla propria situazione per ottenere risposte, poiché la fame di dati di training è infinita anche le sequenze di domande e risposte degli utenti vengono utilizzate per fine-tuning successivi. Benché queste aziende garantiscano talvolta anche contrattualmente che in alcuni casi le informazioni non verranno utilizzate, questo non è possibile verificarlo nemmeno con una indagine successiva poiché non è possibile ricavare dalla rete neurale il dataset di informazioni utilizzate per fare training.
Più garanzie dai modelli LLM open source
In questo senso danno molte più garanzie i modelli open source installati internamente perché si è sicuri che le informazioni fornite rimangono all’interno del proprio perimetro aziendale.
Ormai i modelli opensource hanno performance molto vicine ai modelli proprietari, utilizzano tecniche di addestramento affinate per poter utilizzare modelli più piccoli che non richiedono enormi costi di installazione all’interno delle aziende (on-premises) e rispondono molto bene alle esigenze degli utilizzatori. Smaug-72b con “solo” 72 miliardi di parametri è superiore nei test di ChatGPT 3.5 con 176 miliardi di parametri e anche modelli con 7 miliardi di parametri come il francese Mistral consente di raggiungere livelli di questo tipo.
Samsung come altre aziende ha proibito da tempo l’uso di ChatGPT al proprio personale dopo che informazioni sensibili sono state esposte all’esterno. Amazon anche ha seguito le stesse politiche di restrizione. Così come ha fatto JP Morgan, così come molte banche Usa come Bank of America, Citigroup, Deutsche Bank, Wells Fargo e Goldman Sachs
In un articolo del Telegraph si afferma: “Un portavoce di Behavox, una società tecnologica che collabora con le principali banche e istituti finanziari per monitorare i rischi per la sicurezza interna, ha affermato di aver osservato una tendenza al rialzo nell’ultimo mese per quanto riguarda le preoccupazioni sollevate dai suoi clienti sull’utilizzo di ChatGPT, in particolare per quanto comporta l’uso di dati privati o proprietari. Non è consigliabile utilizzare questo strumento in tali scenari poiché OpenAI sfrutterà tali dati per migliorare i suoi modelli di intelligenza artificiale… esiste la possibilità che i dati possano arrivare alla vista di un annotatore umano o, peggio, essere incorporati nelle risposte di ChatGPT in futuro”.
Le strategie delle aziende per proteggere i dati
Samsung ma anche altri grandi soggetti hanno fatto la scelta di costruirsi il proprio modello internamente o di installare un modello open source ed effettuare un fine-tuning specifico alle proprie esigenze, questo consente non solo di proteggere le proprie informazioni come nel caso dei modelli opensource ma anche di migliorarli adattandoli alla propria cultura aziendale e ai termini utilizzati al proprio interno dando un significato più pregnante rispetto al contesto. Ad esempio, parlare di “intervento” in un contesto sanitario è cosa ben distinta da utilizzare il termine intervento in un contesto di polizia giudiziaria. Un modello generico non conosce il significato diverso dei termini e potrebbe confonderli se non riesce a raccogliere in modo adeguato il contesto.
Una tecnica molto efficace ed economica di contestualizzare le risposte è quella del RAG (Retrival Augmented Generation) dove vengono caricati i documenti in locale e a fronte di una domanda viene fatta una ricerca semantica in modo da estrarre le informazioni più rilevanti dal punto di vista del significato, queste poi vengono trasferite ad un modello LLM per ottenere una sintesi o una riformulazione delle risposte in modo arricchito dal linguaggio. Ma anche questa tecnica presenta dei rischi di perdere informazioni se si utilizzano modelli in cloud. Realizzare un RAG è molto difficile, sono necessarie molti affinamenti in ogni componente della catena che produce risposte e indicizza documenti, il risultato può essere eccellente perfino aldilà delle aspettative ma non è un lavoro semplice. Si vedono in giro molti prototipi che si realizzano con facilità dal punto di vista informatico ma per costruire un prodotto pronto all’uso è molto complicato. Chi ha lavorato in questo ambito e ha costruito delle soluzioni sa bene quanto lavoro di affinamento è stato necessario e non è un compito da affidare a chiunque come invece appare leggendo in giro per la rete.
Tecniche di attacco che possono pregiudicare l’integrità dei modelli
Il documento del NIST sopra citato riporta anche molte tecniche di attacco che possono pregiudicare l’integrità dei modelli. Riassumendo quelle più significative nel contesto dell’AI generativa possiamo individuare:
- Controllo dei dati di addestramento: Gli aggressori potrebbero inserire o modificare i dati utilizzati per addestrare l’intelligenza artificiale, alterandone di conseguenza il comportamento. Questa tecnica è nota come “avvelenamento dei dati”.
- Accesso alle query: Molti modelli di intelligenza artificiale generativa sono accessibili tramite API. Inviando query appositamente create, gli hacker possono indurre il modello a generare output specifici, sottrarre informazioni o rubare altro.
- Controllo delle risorse: Gli aggressori potrebbero modificare i dati o le risorse che il modello di intelligenza artificiale utilizza durante il suo funzionamento. In questo modo, possono indirizzare il modello verso informazioni o attività dannose.
Esistono tecniche di attacco a livello di prompt che consentono di manipolare il modello LLM determinando informazioni errate o la forzatura di blocchi e filtri in modo che dai modelli possano fuoriuscire risultati errati o inattesi. Ho già scritto un articolo su questo argomento mesi fa a cui rimando il lettore interessato.
Limiti dell’IA: l’importanza di esserne consapevoli
In conclusione, è necessario che l’intelligenza artificiale generativa venga utilizzata con molta consapevolezza. Si possono inserire filtri e tecniche che limitino errori e allucinazioni ma non è possibile eliminare i problemi del tutto.
L’AI generativa è un valido compagno di lavoro in moltissimi contesti ed organizzazioni ma chi la utilizza deve anzitutto comprendere fino in fondo cosa sta utilizzando. Già oggi ma sempre più in futuro l’AI generativa è uno strumento potente che consente di facilitare molti compiti quotidiani come la ricerca intelligente nella conoscenza delle organizzazioni, la predisposizione di testi o documenti da rivedere con cura, creare sintesi di documenti complessi e perfino di poter creare documenti in una lingua a partire da altre lingue semplificando la traduzione. Tuttavia, non credo che queste tecniche di intelligenza artificiale come altre possano sostituire le competenze delle persone che nel loro “addestramento” hanno immagazzinato significato, senso, nozioni ed etica.
È necessario diffidare di chi propaganda risultati “magici” o modelli perfetti, spesso solo per incantare futuri clienti o per attirare investimenti in borsa, l’intelligenza artificiale (che sarebbe bene chiamarla “intelligenza aumentata”) consente di estendere le nostre capacità liberandoci da task elementari o aiutandoci a costruire compiti più complessi ma non ci consente di stare su un’amaca in riva al mare mentre lei fa tutto da sola. Anzi uno dei rischi che l’umanità corre di più è quello che man mano che ci saranno sempre più documenti prodotti da questi modelli e non verificati dalle persone su internet troveremo informazioni sempre più scadenti che verranno dati in pasto ai modelli per fare il training degradando il patrimonio di conoscenze umane sin qui costruito in millenni.
Conclusioni
I modelli open source più recenti ormai per il training hanno cominciato ad utilizzare dataset sempre più selezionati e verificati proprio per aumentare la qualità riducendo le dimensioni. Questa sarà probabilmente la strada da intraprendere, ormai esistono modelli che con parametri nell’ordine di 2 o 3 miliardi riescono a fare bene il proprio lavoro per le esigenze quotidiane e potrebbero stare in un telefono cellulare o in un computer portatile.
Questo significa che il business dei grandi modelli proprietari in cloud rischia di essere pregiudicato, le iniziative di regolamentazione che sono importanti devono muoversi con la massima cautela per proteggere i modelli open source e la sperimentazione delle aziende medie e piccole che hanno dimostrato in un anno di poter raggiungere enormi progressi in questo campo mantenendo una sana competizione e una ricerca innovativa anche con la partecipazione diretta dello stato dalla necessità di porre limiti ad un uso che vada contro i diritti fondamentali delle persone.
Note
[1] La descrizione è molto schematica e strumentale a questo articolo, per approfondimenti consiglio pubblicazioni specifiche su cosa sono le reti neurali e gli LLM