Sono passati oltre 3 anni dal lancio di ChatGPT, il primo di una lunga serie di modelli che rispondono alle nostre domande, e questo tipo di Large Language Model è diventato per molti un assistente a cui è difficile rinunciare, un po’ come i motori di ricerca su internet a cavallo degli anni 2000.
L’innegabile successo però non ha per ora avuto gli enormi impatti tante volte annunciati: da un lato, non abbiamo avuto questi progressi in altri ambiti (medicina, ricerca) che erano stati preconizzati, dall’altro non abbiamo nemmeno avuto quegli impatti deleteri attesi nel mondo del lavoro perché “L’IA avrebbe preso il nostro lavoro”. Insomma, un tool utile, che semplifica e velocizza molte nostre attività quotidiane ma che stenta ad affermarsi come l’elemento così spesso annunciato come rivoluzionario.
Viviamo oggi un paradosso tecnologico: l’intelligenza artificiale è in grado di scrivere codice complesso per un’applicazione in pochi secondi, ma fatica a gestire con coerenza una lunga catena di email burocratiche o personali. Questa peculiare dissonanza cognitiva è rispecchiata dal dibattito pubblico, che continuamente oscilla tra il timore di una “sostituzione totale” dell’umano con la macchina e lo scetticismo verso una tecnologia che sembra inciampare su banalità.
In questo articolo ci occuperemo di alcune delle chiavi di lettura proposte per decifrare questo strano scenario, sintetizzando la visione di alcuni ricercatori nel settore, come Andrej Karpathy[1] o François Chollet[2] secondo i quali la differenza dei risultati non risiede nella “difficoltà” intrinseca del compito, ma nelle differenze strutturali che caratterizzano le varie differenti attività di cui l’uomo si occupa, come ad esempio l’asimmetria tra generazione e valutazione, o il rapporto tra rischio e beneficio dei risultati. Una prima constatazione è che non stiamo automatizzando ciò che è facile, stiamo automatizzando ciò che è (facilmente) verificabile.
Indice degli argomenti
Il principio dell’asimmetria tra generazione e valutazione
Automatizzare una attività significa porre un sistema automatico (IA o un sistema meno complesso) ad eseguire azioni che normalmente richiederebbero una o più persone per essere eseguite. Un elemento centrale per l’introduzione dell’automazione è avere un’idea abbastanza precisa di ciò che si vuole ottenere (ad esempio: chiudere un cancello oppure rispondere alle e-mail dei clienti), insieme alla possibilità di verificare che l’azione eseguita abbia effettivamente raggiunto l’obiettivo atteso. Ci sono quindi due elementi importanti nella possibilità/decisione di automatizzare: le modalità automatizzate di esecuzione dell’attività e la possibilità di una verifica del successo della stessa.
Nella identificazione dei processi più facilmente automatizzabili, il cuore della tesi di Karpathy è semplice: l’IA prospera nei settori dove generare una soluzione è costoso per l’uomo, ma verificarne la correttezza è economico e immediato.
Prendiamo ad esempio la programmazione. Scrivere un programma per gestire un database può richiedere anni di studio e ore di ragionamento logico. Tuttavia, una volta scritto, per verificare se quel programma funziona basta eseguirlo: se il compilatore non dà errori e i test funzionali passano (scusate la semplificazione), la soluzione è valida. In questo scenario, il costo della verifica è molto basso, prossimo allo zero.
Al contrario, scrivere un saggio di filosofia o una strategia aziendale richiede tempo sia per la stesura che per la valutazione. Non esiste un “valutatore di strategie”; la verifica richiede un altro essere umano esperto che dedichi ore alla lettura e all’analisi o, peggio, l’esecuzione della strategia e la successiva analisi dei risultati, che può richiedere tempi molto lunghi. In alcuni casi, come quello della filosofia, è presente un ulteriore elemento di complessità, ovvero l’assenza di un criterio oggettivo di successo, ad esempio, saremmo in difficoltà a definire i criteri di una “buona” filosofia (al netto della necessaria coerenza interna e l’assenza di errori materiali).
Loop chiusi e loop aperti: perché cambia la verificabilità
Questa differenza introduce il concetto ingegneristico di “Loop” (ciclo di controllo), dove si identificano cicli chiusi e aperti, concetto fondamentale per capire i limiti attuali dell’IA generativa.
I cicli chiusi (closed loops) sono quelle attività interamente deterministiche dove l’output dell’azione rientra nel sistema come input per correggere l’azione successiva. In questi cicli esiste una “Ground Truth” (verità di base) matematica. Esempi di sistemi a ciclo chiuso sono la matematica, la programmazione, gli scacchi, e molti tipi di videogiochi.
Per i sistemi a ciclo chiuso, l’IA può scrivere una riga di codice o fare una mossa a scacchi e ricevere un feedback immediato e inequivocabile (errore di sintassi / scacco matto), inoltre è facile determinare il “successo”: equazione risolta oppure partita vinta. In questo ambito è spesso possibile affinare ulteriormente le capacità della macchina usando il reinforcement learning (apprendimento per rinforzo): ad esempio, dopo aver appreso le regole di base, la macchina gioca milioni di partite contro sé stessa, imparando dai propri errori senza necessità di intervento umano.
Come descritto nel libro Superintelligence di Nick Bostrom, questi sono i domini dove l’IA può rapidamente superare l’uomo, proprio perché il criterio di successo è codificato rigidamente ed è facile da rilevare.
Nei sistemi a ciclo aperto (Open Loop) invece, le azioni sono eseguite in un ambiente dove il feedback è assente, ritardato o soggettivo. Non c’è un segnale di ritorno automatico che dica “corretto” o “sbagliato” in modo rapido e univoco. Esempi di questi settori sono costituiti dal diritto, la psicologia, l’arte, o il management. In questi casi il feedback è “rumoroso”. Se un’IA scrive una difesa legale o una poesia, chi decide se è valida, e soprattutto dopo quanto tempo? In questi settori l’uso del reinforcement learning è impossibile, e molto spesso i dati già presenti (altre poesie, altri giudizi legali, altre terapie psicologiche) sono estremamente “rumorose”, con relazioni inconsistenti tra azioni e risultati. Questi settori sono quelli che meglio resistono “all’assedio” dell’IA: la mancanza di criteri di valutazione oggettivi, rapidi e poco costosi rende impossibile l’applicazione dell’IA e specialmente del machine learning.
Abilità e intelligenza: la lettura di Chollet
È interessante notare come questa visione si integri con quella di François Chollet. Chollet distingue tra “abilità” (competenza in task specifici e noti) e “Intelligenza” (capacità di adattamento all’ignoto o generalizzazione).
Per Chollet, i modelli attuali (LLM) eccellono nei loop chiusi perché stanno essenzialmente operando una sofisticata “interpolazione” statistica di soluzioni già viste nel loro vasto training set, memorizzando milioni di partite di scacchi o esempi di programmi per calcolatore. Tuttavia, falliscono quando vengono posti di fronte a problemi inediti che richiedono ragionamento al di fuori dagli schemi appresi (intelligenza), tipici dei loop aperti della vita reale. Così, se da una parte Karpathy vede nel loop chiuso la strada per l’automazione perfetta (ottimizzando la verifica), Chollet sottolinea i limiti di questo approccio, che per sua natura non porterà necessariamente a un‘Intelligenza Generale Artificiale (AGI), ma solo a strumenti iperspecializzati molto efficaci, ma poco generalizzabili – insomma, delle IA che sapranno dirci tutto su come si stira una camicia, ma poi lasceranno comunque a noi il compito di farlo materialmente.
Questa riflessione ci permette anche di capire perché non stiamo assistendo alla tanto paventata sostituzione dei lavoratori umani: in molte aziende, anche quella apparentemente più strutturate e con processi ben rodati, in realtà l’abilità e l’esperienza del lavoratore consistono non, ovviamente, nel seguire pedissequamente i processi – che in tal caso sarebbero stati già automatizzati da tempo – ma nel gestire gli innumerevoli casi per i quali il processo non si applica, o si blocca, o va saltato per l’immancabile richiesta urgente e così via, ovvero tutti quei casi in cui un processo apparentemente “a ciclo chiuso” si trasforma in uno a “ciclo aperto”.
Queste considerazioni spiegano perché i settori che negli ultimi decenni hanno meglio digitalizzato il proprio lavoro, creando una “ground truth” (verità di base) inequivocabile, sono ora i primi a essere automatizzati. Il software rappresenta l’esempio principe: piattaforme come GitHub ospitano miliardi di righe di codice di applicazioni funzionanti e ben descritte, fornendo un dataset di addestramento pulito e validato. Chi ha provato le più moderne piattaforme per lo sviluppo automatico del codice, come Cursor o Google Antigravity, sarà sicuramente rimasto stupito dall’efficacia con cui questi sistemi sono oggi in grado di sviluppare applicazioni perfettamente funzionanti grazie a poche interazioni in linguaggio naturale.
Altri settori, come la diagnostica medica per immagini, stanno percorrendo la stessa strada grazie alla standardizzazione dei referti che vengono poi usati per addestrare IA in grado di riprodurre le capacità umane di identificazione dei problemi medici.
Dove invece i dati sono disordinati, analogici o basati su tacite consuetudini umane, l’IA “allucina” o comunque produce risultati assai meno eclatanti, soprattutto perché manca di riferimenti solidi.
La frontiera tecnologica irregolare
Le differenti caratteristiche dei vari ambiti operativi nei quali l’IA può (o non può) operare efficacemente ci portano a un altro concetto fondamentale, evidenziato dai ricercatori della Harvard Business School: la “Jagged technological frontier” (frontiera tecnologica irregolare[3]), ovvero un confine imprevedibile che separa ciò che l’IA sa fare da ciò che non sa fare.
A differenza dell’intelligenza umana, dove la competenza è solitamente progressiva (se sai risolvere equazioni differenziali, sai fare anche le addizioni), l’IA presenta picchi di abilità sovrumana in task complessi (come scrivere codice o superare esami professionali) alternati a inspiegabili lacune in compiti che riterremmo elementari. Questo rende difficile per l’utente intuire l’affidabilità dello strumento basandosi sull’esito di pochi compiti: un’attività “difficile” potrebbe rientrare pienamente nella zona di competenza dell’IA, mentre una “facile” potrebbe trovarsi appena oltre la frontiera, nella zona di fallimento.
Tolleranza all’errore: high-stakes vs low-stakes
Un altro elemento molto importante nella valutazione della “sostituibilità” di un’attività con l’IA è la variabile economica, ed in particolare quella legata al costo dell’errore. L’adozione dell’IA non dipende solo dalla fattibilità tecnica, ma dalla tolleranza al rischio. Possiamo distinguere due famiglie di attività/settori sulla base della relativa tolleranza o costo dell’errore: le attività ad alto rischio (high stake) e quelle a basso rischio (low stake).
Vorrei sottolineare qui che le attività a basso rischio non sono attività a basso valore aggiunto, ma attività nelle quali il costo di un errore è ridotto rispetto al valore complessivo dell’output generato. In questi contesti, l’allucinazione dell’IA — ovvero la tendenza a generare informazioni non ancorate alla realtà — non è un bug critico, ma talvolta addirittura un arricchimento che simula il pensiero laterale. Questi sono i settori per i quali è possibile e addirittura auspicabile alzare la “temperatura” del modello, per ottenere risposte più creative. Alcuni esempi in questo senso sono:
Esempi di contesti low-stakes
- L’industria creativa e il brainstorming pubblicitario. Nel marketing e nella generazione di idee, la veridicità fattuale è spesso secondaria rispetto all’impatto emotivo o alla novità. Se un LLM propone dieci slogan per una campagna di scarpe sportive e nove sono insensati, ma uno è brillante, il processo è un successo. Qui l’IA agisce come un “infinito stagista”: propone centinaia di variazioni a costo zero. L’umano non deve correggere l’errore (che viene semplicemente scartato), ma solo selezionare l’output valido. Il rischio reputazionale è nullo finché l’output rimane all’interno del team.
- Gaming e intrattenimento interattivo. Il settore dei videogiochi rappresenta un perfetto “sandbox” a basso rischio. L’integrazione di LLM per gestire i dialoghi dei Non-Playable Characters (NPC) permette un’interazione dinamica impossibile con gli script predefiniti. Se un fabbro in un gioco di ruolo medievale “allucina” e racconta una storia incoerente sul drago locale, l’errore può al più rompere momentaneamente l’immersione del giocatore, ma non causa danni finanziari, legali o fisici. L’utente percepisce il “glitch” come un difetto del software, non come una responsabilità civile dell’azienda – almeno entro certi limiti.
- Prototipazione rapida e “boilerplate code”. Sebbene il software critico sia “high stakes”, la fase di scrittura del codice “boilerplate”, il codice standard e ripetitivo necessario per avviare un progetto, è a basso rischio, proprio grazie alla presenza del “compilatore” citato in precedenza. Se l’IA genera una struttura HTML/CSS errata per una landing page interna, il browser visualizzerà male la pagina. Il danno è circoscritto al tempo perso per rigenerare il prompt. Non ci sono database corrotti o transazioni bancarie errate. Qui l’IA funge da acceleratore per le parti noiose dello sviluppo, lasciando all’uomo la logica complessa.
- Apprendimento linguistico e conversazione (Tutoraggio). L’uso di chatbot per fare pratica con una lingua straniera è un settore Low Stakes ideale. Se l’IA commette un lieve errore grammaticale o usa un’espressione desueta mentre conversa con uno studente, il danno pedagogico è minimo e spesso corretto dal contesto o da verifiche successive. L’obiettivo qui è la fluidità della conversazione (fluency) e la riduzione dell’ansia da prestazione dello studente, non la perfezione accademica assoluta.
- A questa lista vanno purtroppo aggiunte molte attività malevole, come ad esempio i tentativi di phishing o l’hacking automatizzato[4]. La generazione di mail di phishing o di exploit per superare le difese di un’azienda ha un costo dell’errore praticamente nullo, a fronte di un guadagno potenziale molto alto per chi mette in piedi attacchi su larga scala. È uno scenario simile a quello della prototipazione: 100 tentativi non andati a buon fine non sono un problema, se anche un solo attacco ha successo.
| Tipo di Settore | Esempio | Tolleranza all’Errore | Livello di Automazione |
| Low-Stakes | Ideazione (brainstorming), creazione slogan | Alta (l’errore è spunto creativo) | Totale / Autonomo |
| High-Stakes | Guida Autonoma, Chirurgia | Da molto bassa a nulla (l’errore è molto grave o fatale) | Assistito / Copilota |
Chiaramente si può affrontare con più fiducia e “leggerezza” l’automazione di settori low stake, e non è un caso che molte aziende abbiano iniziato a sperimentare con i modelli di IA al proprio interno, offrendo funzioni “potenziate dall’IA” solo ai propri dipendenti, e in settori specifici – ad esempio, automatizzando i sistemi di risposta a quesiti interni, che normalmente venivano risolti con e-mail informative inviate a questo o a quell’ufficio. Intanto questo del recupero intelligente delle informazioni è una delle capacità in cui l’IA eccelle, inoltre nella maggior parte dei casi il costo dell’errore è trascurabile ma, soprattutto, non viene percepito al di fuori dell’azienda.
Il caso è del tutto diverso dall’introduzione dell’IA per gestire i rapporti con i propri clienti: in questi casi il costo dell’errore, ad esempio un danno all’immagine dell’azienda, è decisamente più alto: ci si trova in una zona “high stakes”.
Guida autonoma: simulazione e shadow mode in un contesto high-stakes
Una valutazione particolare va fatta per l’IA nella guida autonoma, un settore che rappresenta l’eccezione più complessa a questo schema. Apparentemente, lo sviluppo dei veicoli autonomi viola tutti i criteri di prudenza: questi operano in un ambiente “a ciclo aperto” (il traffico reale è caotico e non deterministico) e rientrano nella categoria “high stakes” per eccellenza, dove l’errore non porta a una cattiva recensione, ma alla potenziale perdita di vite umane.
L’apparente contraddizione tra i recenti successi delle auto a guida autonoma e la caratterizzazione del settore (high stake, open loop) risiede nella volontà delle aziende che guidano lo sviluppo della guida autonoma (su tutte: Waymo e Tesla) di superare i limiti fisici attraverso due strategie tecniche fondamentali: la simulazione e la “modalità ombra” (Shadow Mode).
Per trasformare il traffico imprevedibile in un problema gestibile, l’industria ha creato dei “compilatori della realtà”. Attraverso simulatori fotorealistici, le aziende generano milioni di chilometri di guida virtuale in cui l’IA può commettere errori fatali senza conseguenze, ricevendo un feedback immediato. In questo mondo digitale, il ciclo viene forzatamente “chiuso”: l’IA agisce e il simulatore valida.
Ma anche questa simulazione di per sé non è sufficiente, e la vera innovazione nell’addestramento risiede nel modo in cui viene utilizzata la flotta reale tramite lo Shadow Mode: mentre un essere umano guida, il computer di bordo crea silenziosamente le proprie previsioni (“sterzerei a destra”, “frenerei ora”), senza però attuarle. Se l’azione immaginata dall’IA coincide con quella eseguita dal guidatore umano, il modello riceve una “spunta verde”. Se c’è discrepanza (l’IA voleva accelerare, l’uomo ha frenato), si genera un errore. In questo schema, milioni di guidatori umani fungono inconsapevolmente da addestratori, permettendo di applicare una sorta di apprendimento con rinforzo senza rischi fisici. L’uomo diventa il validatore che corregge l’algoritmo in tempo reale, rendendo la verifica scalabile ed economica.
Nonostante tutti questi sforzi, però, resta irrisolto il nodo del livello massimo di autonomia, proprio a causa dell’altissimo costo dell’errore nel mondo fisico. L’automazione completa (Livello 5, nessuno al volante) rimane un obiettivo sfuggente. Finché l’IA non raggiungerà un’affidabilità statistica prossima alla perfezione — ben superiore a quella umana — la presenza di un conducente pronto a intervenire (Human-in-the-loop) resterà l’unico vero sistema di sicurezza in grado di gestire le “allucinazioni” meccaniche in un contesto critico e, soprattutto, a detenere la responsabilità.
Dal sistema 1 al sistema 2: agenti e flussi di lavoro
Infine, Karpathy utilizza la celebre distinzione di Kahneman tra Sistema 1 (pensiero veloce, istintivo) e Sistema 2[5] (pensiero lento, ragionato). I Large Language Models attuali sono essenzialmente macchine di Sistema 1: generano risposte basate su associazioni probabilistiche immediate, benché basate su catene associative molto lunghe. Karpathy e altri ricercatori (come Andrew Ng) sostengono che l’errore fondamentale delle aziende oggi sia trattare l’IA come se fosse già un Sistema 2 affidabile. Si chiede all’IA di “risolvere un problema strategico” (Sistema 2) e si riceve una risposta istantanea (Sistema 1), che così è spesso superficiale o errata.
I modelli attuali non “riflettono”, benché nei modelli più recenti si sia cercato di “simulare” questa modalità di pensiero più riflessiva con metodi quali la “chain of thought”, che forzano i sistemi di IA a “prolungare” il ragionamento. Qui il pensiero di Karpathy incontra quello di Andrew Ng. Ng sostiene che per sbloccare l’automazione nei lavori di concetto (strategia, ricerca) non servano modelli più grandi, ma “flussi di lavoro agentici” (Agentic Workflows). Attraverso tecniche come la Chain of Thought o l’uso di più agenti che si controllano a vicenda (un’IA scrive, un’altra critica), è possibile passare da modelli di puro “sistema 1” a modelli che riproducono capacità tipiche di riflessioni “sistema 2”.
Il futuro è degli architetti della verifica
In virtù di questo scenario di automazione asimmetrica, la competenza umana non diventa immediatamente obsoleta, ma viene spostata verso l’alto. Se l’IA si occupa della generazione (il lavoro “sporco”, ripetitivo e faticoso di Sistema 1), all’uomo spetta il compito complesso e rischioso della validazione.
Con l’IA il ruolo dell’umano andrà trasformandosi, con una riduzione di importanza dei professionisti che si occupano della creazione di dettaglio – a “basso livello” – della soluzione, mentre cresce quella delle persone da un lato in grado di indirizzare il lavoro, decidendo su quali problemi/soluzioni impiegare la potenza elaborativa dell’IA, dall’altro in grado di valutare quanto bene la soluzione fornita dalla macchina soddisfi i requisiti originali.
Questo cambio di paradigma impone una revisione drastica di ciò che consideriamo “competenza”. Non ci verrà più chiesto di “scrivere” la soluzione sintatticamente perfetta, ma di progettare i test — logici, etici e funzionali — che ne certifichino la correttezza. Quali sono, dunque, le abilità che verranno rivalutate?
Competenze umane rivalutate nella validazione
- Esperienza nel settore: contrariamente alla visione secondo la quale l’IA agirebbe come un “livellatore” che permetterà a chiunque di fare tutto, la validazione richiede una competenza ancora più solida. Per scovare un’allucinazione in un contratto legale o in un algoritmo di trading generato da LLM, l’operatore umano deve conoscere la materia meglio della macchina. La superficialità diventa il rischio mortale: un operatore mediocre accetterà un output mediocre (o errato) perché non ha gli strumenti cognitivi per confutarlo.
- Pensiero critico e disegno dei vincoli: la capacità di formulare la domanda corretta (Prompt Engineering) è destinata a diventare una commodity; la vera abilità sarà la capacità di imporre vincoli. L’umano dovrà agire come un legislatore che definisce il perimetro entro cui l’IA può operare, stabilendo a priori quali sono i criteri di accettabilità dell’output. È un lavoro di logica pura, slegato dalla mera esecuzione tecnica.
- Auditing etico: se la generazione/azione è automatizzabile, la responsabilità non lo è. L’umano rimane l’unico “centro di imputazione” morale e legale. Sarà necessaria una nuova classe di professionisti capaci di valutare l’allineamento dell’output ai valori aziendali e alle normative, gestendo quel “costo dell’errore” che, nei settori high stakes, non può essere delegato alla macchina.
Tuttavia, questa evoluzione nasconde un’insidia strutturale che le aziende dovranno affrontare: il paradosso dell’apprendistato. Tradizionalmente, i profili junior acquisiscono esperienza svolgendo proprio quei compiti “generativi” e ripetitivi che oggi l’IA automatizza in secondi. Il paradosso è che l’IA richiede più competenze senior da “validatore”, perché può sostituire le risorse junior in quei task ripetitivi ma ad alto volume. Ma è proprio attraverso l’esecuzione di questi task che l’inesperienza dello junior si trasforma nell’esperienza della risorsa senior, quindi eliminando la “palestra” della generazione manuale, come formeremo i senior in grado di validare il lavoro dell’IA tra dieci anni?
Il paradosso dell’apprendistato impone una scelta strategica nell’apprendimento: non possiamo lasciare che l’automazione cancelli la “palestra” che forma i professionisti di domani. Occorre ripensare i percorsi formativi e aziendali in modo che l’esperienza non derivi più solo dall’esecuzione ripetitiva, ma anche dalla capacità di progettare, guidare e valutare sistemi intelligenti. Nelle scuole e nelle università questo significa affiancare al saper fare un curriculum di “saper dirigere” l’IA, con esercizi pratici, casi deliberatamente imperfetti e simulazioni che allenino il giudizio critico. In azienda significa riprogettare le carriere: mentorship strutturata, affiancamenti al management, rotazioni che espongano le risorse junior a decisioni di qualità e non solo a task operativi.
Si tratta di azioni urgenti, che se ritardate ci espongono al rischio di trovarci, tra dieci anni, con molte tecnologie avanzate e pochi professionisti in grado di valutarle, correggerle e migliorarle. Investire oggi nella formazione alla supervisione e alla responsabilità digitale non è un costo, è la condizione per trasformare l’IA in un moltiplicatore di competenze e non in un fattore di impoverimento professionale.

















