la rficerca

Domande senza senso, risposte convincenti: così il MIT mostra quanto è fragile l’IA



Indirizzo copiato

Un nuovo studio del MIT mostra come gli LLM possano rispondere correttamente a domande assurde solo perché riconoscono schemi sintattici noti. Un limite strutturale che apre scenari rischiosi in sanità, finanza, servizi al cliente e sicurezza dei sistemi di intelligenza artificiale

Pubblicato il 5 dic 2025

Luigi Mischitelli

Legal & Data Protection Specialist at Fondazione IRCCS Casa Sollievo della Sofferenza



Memoria AI AI e cultura del dato Responsabilità civile AI ecosistema canadese dell'IA accesso ai dati dsa governance ai globale cern dell'AI thermodynamic computing

Negli ultimi anni, i modelli linguistici di grandi dimensioni (“Large Language Models” o “LLM”) hanno conquistato l’immaginazione collettiva, promettendo di rivoluzionare il modo in cui lavoriamo, comunichiamo e come possiamo risolvere i nostri problemi. Questi sistemi sembrano capaci di comprendere il linguaggio naturale umano con una precisione sorprendente, generando risposte coerenti e articolate su praticamente qualsiasi argomento.

Tuttavia, dietro questa facciata di “apparente competenza” si cela un difetto che sta attirando l’attenzione della comunità scientifica internazionale. Un recente studio condotto dal Massachusetts Institute of Technology (universalmente conosciuto come “MIT”) ha rivelato che questi modelli, per quanto sofisticati, basano spesso le proprie risposte non su una reale comprensione del contenuto, bensì su schemi grammaticali e sintattici appresi durante l’addestramento. Questa scoperta solleva interrogativi importanti sull’affidabilità di questi strumenti in contesti critici, dalla medicina alla finanza, dalla gestione dei servizi clienti al loro utilizzo in sanità.

I limiti dei modelli linguistici svelati dallo studio del MIT

La ricerca, condotta dalla professoressa Marzyeh Ghassemi e dal suo team presso il MIT, in collaborazione con ricercatori della Northeastern University di Boston e con esperti di Meta, rappresenta un passo significativo nella comprensione dei meccanismi di funzionamento degli LLM. Gli scienziati hanno dimostrato che questi modelli non operano semplicemente analizzando il significato delle parole e delle frasi, ma imparano ad associare determinati pattern sintattici a specifici domini.

In altre parole, un LLM potrebbe rispondere correttamente a una domanda ricordandosi come una domanda simile era strutturata grammaticalmente nei dati di addestramento, piuttosto che comprendendo effettivamente ciò che gli viene chiesto. Questo fenomeno, sebbene possa sembrare tecnico e lontano dalla vita quotidiana, ha implicazioni profonde e preoccupanti per chiunque si affidi a questi strumenti per compiti importanti, soprattutto in maniera acritica, ossia senza pensarci.

Quando la sintassi inganna l’intelligenza artificiale

Per comprendere meglio il problema, è utile considerare un esempio concreto fornito dai ricercatori dello studio in esame. Un modello linguistico di grandi dimensioni potrebbe imparare che la domanda “Dove si trova Parigi?” (originale “Where is Paris located”) segue uno schema specifico (in italiano): pronome, verbo e nome.

Se nei dati di addestramento ci sono molti esempi di questo pattern associato a domande geografiche, il modello potrebbe collegare questa struttura sintattica al topic delle capitali e dei paesi. Ora, supponiamo che il modello riceva una domanda apparentemente assurda come “Siediti velocemente Parigi annuvolata?” (originale “Quickly sit Paris clouded?”); grazie al riconoscimento dello stesso schema sintattico, il modello potrebbe comunque rispondere “Francia”, nonostante la domanda sia completamente priva di senso. Questo non rappresenta vera comprensione, bensì il riconoscimento di un pattern grammaticale familiare.

Pattern sintattici, domini e limiti dei modelli linguistici

I ricercatori hanno denominato questo fenomeno “stuck on syntax”, letteralmente “bloccato sulla sintassi”. Durante il processo di addestramento, i modelli imparano dai vasti testi disponibili online non solo i significati delle parole, ma anche gli schemi ricorrenti di come le parole si combinano tra loro in specifici contesti. In ambito giornalistico, ad esempio, esiste uno stile di scrittura particolare; in medicina, un altro.

Gli LLM catturano questi template sintattici insieme ai contenuti semantici. Tuttavia, il problema emerge quando il modello inizia a fare affidamento quasi esclusivamente su questi pattern superficiali piuttosto che su una comprensione profonda del dominio. Chantal Shaib, PhD student della Northeastern University di Boston (nonché una delle ricercatrici a capo dello studio), ha spiegato come tutto ciò rappresenti un’associazione non considerata in precedenza, un tipo di correlazione che il modello apprende per rispondere correttamente alle domande ma che lo “tradisce” quando la struttura sintattica cambia.

Esperimenti controllati sui limiti dei modelli linguistici

Gli esperimenti condotti dal team del MIT sono stati rigorosi e illuminanti. I ricercatori hanno creato scenari sintetici controllati in cui solo un template sintattico era presente nei dati di addestramento per ciascun dominio. Quindi, hanno testato i modelli sostituendo le parole con sinonimi, contrari o persino parole casuali, mantenendo intatta la struttura sintattica sottostante.

In molti casi, gli LLM hanno fornito la risposta corretta nonostante le domande fossero completamente insensate. Tuttavia, quando la stessa domanda veniva ristrutturata utilizzando un pattern di parti del discorso diverso, i modelli fallivano frequentemente nel fornire la risposta corretta, sebbene il significato fondamentale della domanda rimanesse invariato. I ricercatori hanno esteso questo approccio sperimentale a modelli pre-addestrati di grande fama, come GPT-4 di OpenAI e Llama di Meta, scoprendo che il comportamento appreso riduceva significativamente le loro prestazioni.

I limiti dei modelli linguistici nei settori critici

Vi è anche da dire che le implicazioni di questa scoperta si estendono ben oltre il “laboratorio di ricerca accademica”. Nel campo della sanità, per esempio, un LLM utilizzato per riassumere cartelle cliniche potrebbe incorrere in errori gravi se si affidasse principalmente a frasi sintatticamente familiari anziché analizzare veramente i dati clinici.

Analogamente, nei servizi di gestione delle richieste dei clienti, errori sistematici legati alla sintassi potrebbero portare a risposte inadeguate o fuorvianti. Nella generazione di report finanziari, questa dipendenza da pattern superficiali potrebbe condurre a conclusioni errate con conseguenze economiche significative. Ancora più allarmante è il potenziale utilizzo malevolo di questa vulnerabilità. Gli stessi ricercatori hanno indagato se qualcuno potrebbe sfruttare questo fenomeno per costringere un LLM a produrre contenuti dannosi, anche quando il modello è stato specificamente addestrato per rifiutare tali richieste.

Attacchi sintattici e sicurezza dei modelli linguistici

Possiamo quindi affermare che i risultati di questa indagine sono inquietanti. Gli scienziati hanno scoperto che, formulando una richiesta dannosa utilizzando un template sintattico che il modello associa a un “dataset sicuro” (privo di informazioni dannose), è possibile ingannare il modello inducendolo a oltrepassare le sue policy di rifiuto e generare contenuti pericolosi.

Questo apre la porta a possibilità di attacco sofisticate, in cui malfattori potrebbero manipolare gli LLM per produrre istruzioni illegittime, disinformazione o altri contenuti nocivi semplicemente cambiando la veste linguistica delle loro richieste. Vinith Suriyakumar, PhD student del MIT e uno degli autori principali dello studio in esame, ha sottolineato che questa vulnerabilità emerge dal modo in cui gli LLM imparano e che sono necessarie difese più robuste, costruite sulla base di una comprensione linguistica profonda, non semplici soluzioni ad hoc applicate a singole vulnerabilità.

Benchmark automatici per misurare i limiti dei modelli linguistici

Di fronte a questi risultati preoccupanti, il team di ricerca non si è limitato a identificare il problema. Ha invece sviluppato una procedura di benchmarking automatizzata, specificamente progettata per valutare il grado di dipendenza di un modello da queste correlazioni errate tra sintassi e dominio. Questa procedura rappresenta uno strumento potenzialmente prezioso per gli sviluppatori che desiderano identificare e mitigare il problema prima di dispiegare i loro LLM in ambienti reali e critici.

La professoressa Marzyeh Ghassemi del MIT ha sottolineato come questo fenomeno sia un sottoprodotto del modo in cui attualmente addestriamo i modelli, ma come questi stessi modelli siano ormai utilizzati in pratica in settori sensibili dal punto di vista della sicurezza, ben al di là dei compiti che hanno generato questi problemi di “fallimento sintattico”. Per un utente finale non familiare con i dettagli dell’addestramento dei modelli, tali limiti possono risultare completamente inaspettati e preoccupanti.

Verso nuovi modelli linguistici meno dipendenti dalla sintassi

Guardando al futuro, i ricercatori hanno identificato diverse direzioni per ulteriori investigazioni e potenziali soluzioni. Sebbene nel presente studio non siano state esplorate strategie di mitigazione complete, il team statunitense intende proseguire la ricerca per identificare e implementare approcci che riducano la dipendenza dai pattern sintattici errati.

Una possibilità promettente riguarda l’aumento della varietà dei template sintattici nei dati di addestramento, esponendo i modelli a più modi diversi di formulare domande su uno stesso argomento. Inoltre, i ricercatori sono interessati a esplorare come questo fenomeno si manifesta nei cosiddetti modelli di reasoning, tipi di LLM progettati per affrontare compiti che richiedono più passaggi di ragionamento. Questi modelli potrebbero essere particolarmente vulnerabili a questo tipo di fallimento sintattico, con conseguenze potenzialmente più gravi in settori particolarmente sensibili, come sanità e banche.

I limiti dei modelli linguistici nel dibattito scientifico internazionale

La reazione della comunità scientifica internazionale è stata, nel complesso, positiva e costruttiva. Jessy Li, professoressa della University of Texas at Austin (non coinvolta nello studio), ha elogiato l’approccio adottato dai ricercatori del MIT.

Essa ha sottolineato come il lavoro evidenzi l’importanza cruciale della conoscenza linguistica e dell’analisi nel campo della ricerca sulla sicurezza degli LLM. Questa è un’area che, secondo la professoressa Li, non è stata al centro dell’attenzione fino ad ora, ma che dovrebbe chiaramente esserlo, dato l’impatto crescente di questi modelli sulla società contemporanea.

I limiti dei modelli linguistici e la necessità di una sana cautela

Il significato di questa ricerca estende il proprio peso ben al di là della comunità accademica “ristretta”. Negli ultimi anni, gli LLM sono diventati onnipresenti in numerosi settori: dalle grandi aziende tecnologiche che li integrano nei loro prodotti di consumo, alle istituzioni sanitarie che li esplorano per assistere il personale sanitario e i pazienti, ai dipartimenti governativi (soprattutto negli USA) che li valutano per l’elaborazione di documenti e la generazione di politiche.

Con questa adozione così diffusa, una comprensione approfondita dei loro limiti strutturali non è semplicemente una questione accademica, bensì una necessità pratica e urgente. La ricerca del MIT serve come campanello d’allarme, ricordando che, per quanto impressionanti e sofisticati questi strumenti possano apparire, essi rimangono fondamentalmente limitati da come sono stati costruiti e addestrati.

Per il grande pubblico, invece, le implicazioni di questa ricerca suggeriscono l’adozione di una “sana cautela”. Non significa che gli LLM siano inutili o che dovrebbero essere abbandonati; bensì che dovrebbero essere utilizzati con consapevolezza dei loro limiti. Affidare “alla cieca” decisioni importanti a questi sistemi, senza la supervisione di esperti umani, potrebbe rivelarsi rischioso nel breve-medio periodo.

Nel contesto della sanità, per esempio, un medico non dovrebbe mai basare una diagnosi esclusivamente su una sintesi fornita da un LLM, poiché il modello potrebbe essere stato ingannato da pattern sintattici anziché da una reale analisi dei dati clinici a sua disposizione. Similmente, un avvocato dovrebbe riesaminare criticamente le opinioni legali generate da questi strumenti, mentre un analista finanziario dovrebbe validare indipendentemente i report generati da un modello prima di presentarli agli investitori.

Guardando oltre questa ricerca specifica, emerge un quadro più ampio della sfida di sviluppare sistemi di intelligenza artificiale veramente affidabili e sicuri. Gli LLM rappresentano un grande passo in avanti nella nostra capacità di processare e generare linguaggio, ma non sono infallibili e non dovrebbero essere trattati come tali.

La ricerca continuativa, come quella condotta dal MIT, è essenziale per identificare e risolvere questi problemi prima che si manifestino nei sistemi di produzione con conseguenze potenzialmente dannose. Solo attraverso un’indagine rigorosa, una trasparenza sui limiti dei modelli e uno sviluppo intenzionale di contromisure è possibile costruire sistemi di intelligenza artificiale che siano veramente affidabili e benefici per la società nel suo complesso.

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati