Human-in-the-Loop

L’AI che si autodistrugge: cos’è il model collapse e come fermarlo

I modelli AI addestrati sui propri output degenerano progressivamente: è il model collapse. Per contrastarlo, ricercatori e aziende puntano sulla validazione umana continua e sull’approccio Human-in-the-Loop, che alimenta un mercato dell’annotation as a service da miliardi di dollari

Pubblicato il 25 feb 2026

Aggiungi tra i preferiti su Google

Walter Tripi

Innovation Manager

Chiedi all'AI

Riassumi questo articolo

Approfondisci con altre fonti

L’addestramento dei modelli AI rischia di avvitarsi su se stesso, nutrendosi di contenuti sintetici che impoveriscono la qualità invece di arricchirla. È il fenomeno del model collapse, una degenerazione che trasforma l’abbondanza di dati in povertà di senso.

La risposta non è solo tecnica: richiede un ritorno strategico dell’umano nel ciclo dell’intelligenza artificiale. E potrebbe aprire un mercato in forte crescita, quello della “annotation as a service“, dove uomo e macchina collaborano in modi inediti.

AI, da dove vengono i dati per addestrarla? Ecco tutte le fonti

Indice degli argomenti

Quando l’AI si nutre di se stessa: cos’è il model collapse

Uno studio pubblicato su Nature da Ilia Shumailov e colleghi aveva messo nero su bianco, già nel 2024, un fenomeno che i ricercatori sospettavano da tempo: i modelli di intelligenza artificiale, se addestrati ricorsivamente sui propri output, degenerano progressivamente fino a diventare inutilizzabili. Il termine coniato per descrivere questa spirale discendente è evocativo: model collapse, collasso del modello.

Il meccanismo è tanto semplice quanto insidioso. Ogni generazione di dati sintetici porta con sé piccole imprecisioni, approssimazioni, perdite di sfumature.

La spirale discendente: early collapse e late collapse

Nella prima fase, chiamata early collapse, il modello perde informazioni sulle code della distribuzione, ovvero sui dati minoritari, le eccezioni, le sfumature rare ma significative. È una perdita che, talvolta, nell’uso quotidiano è particolarmente silenziosa: le metriche generali possono addirittura migliorare, mentre il sistema diventa progressivamente cieco alle diversità e ai dettagli.

Nella fase successiva, il late collapse, la convergenza diventa drammatica: gli output si appiattiscono, perdono varianza, e il modello finisce per produrre contenuti sempre più generici e lontani dalla realtà che dovrebbe rappresentare: nel lungo periodo, quello che era diventato un processo di perfezionamento del prompting e delle competenze, involve completamente. Può esserci successo qualcosa di affine, anche nel piccolo delle nostre attività usuali, con gli strumenti generalisti multimodali.

I dati che confermano il rischio

È un circolo che si autoalimenta, e non in senso virtuoso, visto che anche le stesse risposte dell’IA si basano, sempre più di frequente, su altre risposte costruite con l’IA. Il dato che fa riflettere, da questo punto di vista, non è solo teorico. Ad aprile 2025, secondo uno studio di Ahrefs su 900.000 pagine web, il 74,2% delle nuove pagine conteneva testo almeno parzialmente generato da intelligenza artificiale.

I contenuti AI all’interno dei primi venti risultati di Google sono passati dall’11% al quasi 20% nel giro di poco più di un anno, secondo le rilevazioni di Originality.ai. Questo significa che i futuri dataset di addestramento, tipicamente costruiti attraverso il crawling del web, ingeriranno inevitabilmente quantità crescenti di materiale sintetico.

La linea di difesa: l’approccio Human-in-the-Loop

La buona notizia è che il collasso non è inevitabile. Un filone di ricerca parallelo, sintetizzato efficacemente nel lavoro “Is Model Collapse Inevitable?” di Gerstgrasser e colleghi, ha dimostrato che la chiave sta nella modalità di gestione dei dati. Se i dati sintetici sostituiscono quelli reali ad ogni generazione, il collasso è certo. Se invece i dati sintetici si accumulano insieme a quelli reali, mantenendo una base stabile di riferimento umano, il modello resta stabile nel tempo.

La differenza è sottile ma cruciale: non è la presenza dei dati sintetici il problema, è la loro pretesa di autosufficienza.

Ed è qui che entra in gioco l’approccio Human-in-the-Loop, spesso abbreviato in HITL. L’idea di fondo è semplice: mantenere l’essere umano all’interno del ciclo di addestramento e validazione, non come supervisore occasionale, ma come componente strutturale del processo.

La validazione umana continua non serve solo a correggere errori evidenti. Serve a preservare le sfumature, a riconoscere i casi limite, a identificare i bias prima che si amplifichino, a mantenere viva quella diversità che i processi puramente automatici tendono a erodere. Come scrive la documentazione di Humans in the Loop, una delle realtà più attive nel settore, “catturare le sfumature e i bias richiede revisori umani capaci di identificare interpretazioni sottili che i sistemi automatizzati ignorano”.

Non è tanto una questione di nostalgici ritorni all’artigianalità: si tratta di riconoscere che l’automazione totale, nel campo dell’addestramento AI, porta con sé un rischio sistemico. E che il presidio umano non è un costo da minimizzare, ma un investimento sulla qualità e sulla sostenibilità del sistema nel tempo.

Casi reali: dalla guida autonoma alla sanità, fino al retail

Il principio diventa più chiaro guardando ai settori dove la validazione umana è già prassi consolidata.

Automotive e sanità: dove la validazione umana è già prassi

Nel campo della guida autonoma, Tesla elabora quotidianamente migliaia di clip video nei suoi centri di Buffalo, Palo Alto e Draper per addestrare il software Full Self-Driving. Ma non è un processo interamente automatizzato: i dati raccolti dai sensori richiedono etichettatura precisa, classificazione di oggetti, identificazione di casi limite. Un pedone in controluce, un ciclista che appare all’improvviso, un ostacolo ambiguo: sono situazioni che un algoritmo può pre-classificare, ma che richiedono validazione umana per essere considerate affidabili come materiale di addestramento.

Nel settore sanitario, le piattaforme di annotazione medica utilizzano modelli ibridi dove i dati sensibili restano protetti all’interno delle infrastrutture ospedaliere, mentre l’orchestrazione dell’annotazione può avvenire attraverso sistemi dedicati. La sensibilità dei dati impone standard rigorosi, ma il vero valore aggiunto sta nella competenza clinica degli annotatori: un radiologo che valida un’etichettatura su un’immagine diagnostica porta con sé decenni di esperienza che nessun modello può replicare dall’interno.

Retail: automazione al 96%, qualità al 99%

Nel retail, Target ha raggiunto livelli di automazione del 96% nel product-content auditing, mantenendo però una precisione del 99%, secondo un case study di super.AI. Il segreto? Un sistema dove l’automazione gestisce il volume, ma la validazione umana garantisce la qualità finale. Il risultato si traduce direttamente in conversioni sull’e-commerce: etichette più precise significano ricerche più efficaci, prodotti meglio classificati, clienti più soddisfatti.

Quello che emerge da questi casi non è una contrapposizione tra uomo e macchina, ma una collaborazione dove ciascuno fa ciò che sa fare meglio. L’AI eccelle nella velocità, nel riconoscimento di pattern, nella gestione di grandi volumi. L’umano porta intuizione, giudizio contestuale, capacità di gestire ambiguità e considerazioni etiche che i modelli, per ora, non possono simulare.

Annotation as a service: un mercato da 5 miliardi di dollari

Questa collaborazione ha generato un mercato in forte espansione. Il settore dell’AI data labeling vale circa 1,89 miliardi di dollari nel 2025, secondo Mordor Intelligence, e le previsioni indicano una crescita fino a 5,46 miliardi entro il 2030, con un tasso annuo composto del 23,6%. Non è più un’attività ancillare: è diventata infrastruttura strategica.

I numeri di Scale AI raccontano bene la traiettoria. Secondo Bloomberg, l’azienda ha raggiunto ricavi di 870 milioni di dollari nel 2024 e punta a superare i 2 miliardi nel 2025. A giugno 2025, Meta ha investito 14,3 miliardi di dollari per acquisire il 49% della società, portando la valutazione complessiva a circa 29 miliardi. È un segnale inequivocabile: i grandi player dell’AI considerano la filiera dei dati di addestramento un asset critico, non un servizio commoditizzato.

Accanto a Scale AI, operano realtà come Appen, con una rete globale di collaboratori e supporto per oltre 235 lingue; iMerit, specializzata in healthcare e geospaziale; Labelbox, che ha sviluppato strumenti specifici per il Reinforcement Learning from Human Feedback (RLHF); TELUS International, con oltre due decenni di esperienza nel settore e una presenza consolidata a livello enterprise.

Il modello di business si è evoluto. Non si tratta più solo di etichettare immagini o trascrivere audio. I servizi RLHF, dove gli annotatori umani valutano e classificano le risposte dei modelli linguistici, comandano tariffe premium e richiedono formazione specialistica. È un lavoro che richiede competenze che vanno oltre la semplice annotazione: servono capacità di giudizio, comprensione del contesto, sensibilità etica.

Pre-annotazione assistita: il paradosso virtuoso tra AI e umano

L’evoluzione più interessante riguarda però il modello operativo. L’approccio che sta emergendo come standard de facto è quello che potremmo chiamare “pre-annotazione assistita“: l’intelligenza artificiale esegue una prima classificazione automatica, l’essere umano interviene per validare, correggere, affinare.

I vantaggi sono molteplici. Il tempo di annotazione può ridursi fino al 40%, perché l’annotatore non parte da zero ma da una proposta già strutturata. L’accuratezza finale resta altissima, spesso superiore al 98%, perché l’occhio umano intercetta gli errori sistematici che l’automazione tende a replicare. E il costo complessivo diminuisce, perché l’umano si concentra sui casi difficili invece di disperdere energie su quelli banali.

NashTech, ad esempio, dichiara di automatizzare fino al 70% delle attività routinarie come la pulizia dei dati e la pre-etichettatura, permettendo agli esperti umani di concentrarsi sui casi complessi o ambigui. Il risultato dichiarato è una precisione del 98,5-99,9% con riduzione dei costi operativi fino al 50%.

È un modello che ribalta la narrazione dominante sull’AI. Invece di immaginare un futuro in cui le macchine sostituiscono progressivamente gli umani, vediamo emergere un paradigma di amplificazione reciproca: l’AI potenzia la produttività umana, l’umano garantisce la qualità che l’AI da sola non può assicurare.

C’è però un elemento che merita attenzione critica. Questo modello funziona finché l’umano nel ciclo è davvero competente, motivato, adeguatamente formato. Se la validazione diventa un passaggio burocratico, un rubber stamp automatico, il valore si dissolve. Il rischio di over-reliance, di fidarsi troppo della pre-classificazione automatica, è reale. E richiede investimenti non solo in tecnologia, ma in formazione, in cultura del lavoro, in strutture organizzative che valorizzino il contributo umano invece di minimizzarlo.

Il valore che ritorna all’umano: oltre l’efficienza operativa

C’è qualcosa di più profondo in questa dinamica, che va oltre l’efficienza operativa e i modelli di business.

Il model collapse ci ricorda che l’intelligenza artificiale, lasciata a se stessa, tende all’impoverimento. È una tecnologia che ha bisogno di essere nutrita continuamente da input umani per mantenere la propria ricchezza. I dati sintetici sono utili, talvolta necessari, ma non possono sostituire il contatto con la realtà che solo l’esperienza umana può garantire.

In un certo senso, il fenomeno del collasso è una metafora più ampia. Ogni sistema che si chiude su se stesso, che si nutre solo dei propri output, che perde il contatto con l’esterno, finisce per degenerare. Vale per i modelli di linguaggio, ma vale anche per le organizzazioni, per le culture, per le società. L’apertura al nuovo, alla diversità, all’imprevisto non è un lusso: è una condizione di sopravvivenza.

Il ritorno dell’umano nel ciclo dell’AI non è dunque solo una necessità tecnica. È anche un promemoria su cosa rende preziosa l’intelligenza, naturale o artificiale che sia. La capacità di riconoscere le eccezioni, di valorizzare le sfumature, di mantenere viva la complessità invece di appiattirla. Sono qualità che i modelli statistici, per quanto sofisticati, faticano a preservare da soli.

Il mercato della data annotation crescerà, i modelli ibridi diventeranno più sofisticati, le piattaforme HITL si moltiplicheranno. Ma al centro resterà una domanda che nessun algoritmo può risolvere: qual è il livello di supervisione umana che garantisce qualità senza soffocare l’efficienza? È una domanda di progettazione organizzativa, ma anche di valori. E la risposta, inevitabilmente, sarà umana.

@RIPRODUZIONE RISERVATA