Il boom dei Large Language Model come ChatGPT ha ridotto la necessità di alcuni compiti manuali, ma non ha eliminato il contributo umano. Anzi, milioni di persone, dai lavoratori della gig economy agli utenti finali forniscono ogni giorno segnali e dati che contribuiscono all’evoluzione dell’AI. Un lavoro invisibile, distribuito e sempre più importante.
Indice degli argomenti
La forza lavoro invisibile che addestra l’AI
Quando nel 2023 DeepSeek, una giovane azienda cinese, ha pubblicato il proprio modello linguistico open-source a basso costo, è passato inizialmente sotto silenzio fuori dal circuito degli addetti ai lavori.
All’inizio del 2025 ha attirato però l’attenzione dei media internazionali: grazie a benchmark sorprendenti in termini di efficienza e performance, e al suo costo drasticamente inferiore rispetto ai modelli delle big tech americane, DeepSeek ha messo in discussione l’idea che solo le aziende con immense risorse potessero sviluppare foundation model competitivi.
La sua ascesa ha quindi generato una riflessione globale sull’accessibilità e la democratizzazione dell’AI, proprio mentre cresceva il dibattito sull’uso del lavoro umano nei processi di addestramento. La loro innovazione ha anche sollevato un interrogativo centrale: se è possibile ridurre i costi computazionali e i requisiti di dati, qual è oggi il ruolo della forza lavoro umana? Perché, nonostante i progressi dell’automazione, dietro ogni modello continuano a esserci milioni di ore di lavoro umano, che spaziano dall’annotazione alla validazione, fino al raffinamento dei comportamenti del modello attraverso interazioni quotidiane con gli utenti.
Gli annotatori sono lavoratori umani che forniscono etichette, giudizi e informazioni contestuali ai dati grezzi, rendendoli comprensibili e utilizzabili per l’addestramento dei modelli di AI. Possono essere coinvolti in attività come etichettare oggetti in immagini (ad esempio, automobili, pedoni o segnali stradali), classificare contenuti audio, trascrivere testo da video o correggere le risposte generate dai modelli linguistici.
Sono presenti ovunque nel mondo: negli Stati Uniti e in Europa vengono spesso reclutati su piattaforme online e retribuiti tra i 10 e i 20 dollari all’ora; nei Paesi a basso reddito, come India, Kenya o Filippine, le retribuzioni medie variano tra i 4 e gli 8 dollari. Molte aziende, per garantire efficienza e controllo, impongono strumenti di monitoraggio digitale che registrano tempi di inattività o velocità di annotazione, penalizzando chi lavora più lentamente o si discosta dagli standard. L’annotazione di base è oggi sempre meno richiesta.
Questo tipo di lavoro, che ha avuto un ruolo cruciale negli anni della prima crescita dell’AI, ora viene progressivamente sostituito da sistemi automatici di etichettatura e da dataset già organizzati da altri modelli. I foundation model più recenti sono in grado di apprendere da dati non supervisionati o pre-etichettati, riducendo il fabbisogno di annotazione manuale.
Le imprese continuano ad affidarsi a professionisti più specializzati per la gestione dei cosiddetti edge case, cioè situazioni anomale, rare o ambigue che esulano dai dati standard su cui i modelli sono stati addestrati e che richiedono l’intervento umano per essere correttamente interpretate. Ad esempio, in un sistema di visione artificiale per veicoli autonomi, un edge case può essere una strada innevata con segnaletica coperta, oppure un animale insolito che attraversa la carreggiata: casi non frequenti ma che, se gestiti male, possono compromettere le prestazioni del modello e per la fornitura di feedback qualitativo, che rimane essenziale per garantire la robustezza e l’affidabilità dei sistemi.
Lavori che cambiano: dal labeling al feedback esperto
Alcune aziende stanno rinnovando profondamente il modo in cui coinvolgono gli annotatori. Sama e iMerit, ad esempio, operano in paesi come Kenya e India e combinano la fornitura di servizi di annotazione con programmi di formazione e inclusione sociale, rivolti a comunità svantaggiate. Altre piattaforme come Surge AI si concentrano su compiti ad alta complessità cognitiva e coinvolgono lavoratori con lauree avanzate, capaci di classificare dati secondo criteri sfumati o addestrare modelli su contenuti sensibili. OpenAI, invece, ha reso celebre l’approccio RLHF (Reinforcement Learning from Human Feedback), un metodo che prevede il coinvolgimento di persone reali nel valutare diverse risposte generate dal modello e nel guidarne l’apprendimento in base alla preferenza umana, attraverso cui i lavoratori valutano e perfezionano le risposte prodotte dai modelli come GPT.
Secondo Epoch AI, potremmo esaurire entro il 2026 i dati testuali di alta qualità disponibili per addestrare nuovi modelli. Questo scenario è delineato nel loro studio “Will We Run Out of Data? Limits of LLM Scaling Based on Human-Generated Data”, pubblicato nel giugno 2024. Lo studio stima che l’attuale stock di testi generati dall’uomo e accessibili pubblicamente si aggiri intorno ai 300 trilioni di token. Con l’aumento esponenziale della domanda di dati per l’addestramento dei modelli di intelligenza artificiale, si prevede che questa riserva potrebbe essere completamente utilizzata entro i prossimi anni. Questo ha spinto le aziende del settore a esplorare alternative, come l’acquisizione di dati privati o la generazione di dati sintetici, ovvero dati artificialmente creati da modelli per simulare contenuti reali, spesso utilizzati per addestrare l’AI senza incorrere in problemi di copyright o privacy, per sostenere lo sviluppo continuo dei modelli linguistici di grandi dimensioni. Questo cambiamento sottolinea l’importanza crescente del ruolo umano nell’addestramento e nella supervisione dei modelli di intelligenza artificiale, evidenziando la necessità di strategie innovative per affrontare la futura scarsità di dati di alta qualità.
Ma allora: chi sono davvero gli annotatori oggi?
Non solo lavoratori specializzati o freelance online. Oggi, anche gli utenti comuni sono parte attiva del ciclo di apprendimento dell’AI. Ogni interazione con un sistema AI, una correzione, un click su “utile” o “non utile”, una riformulazione di una domanda, produce segnali che possono essere raccolti e utilizzati per migliorare i modelli. Questa forma di coinvolgimento, che possiamo definire “feedback implicito” o “annotazione involontaria”, costituisce un patrimonio di dati prezioso per aziende come OpenAI, Google, Anthropic e Meta.
In particolare, l’approccio RLHF o Reinforcement Learning from Human Feedback si basa proprio sulla raccolta e l’integrazione sistematica di questo tipo di informazioni. In un certo senso, l’utente finale diventa parte integrante del ciclo di addestramento, contribuendo gratuitamente e inconsapevolmente al perfezionamento continuo dei foundation model. Ogni volta che interagiamo con un chatbot come ChatGPT, cliccando su “buona risposta”, riformulando un prompt o correggendo un errore, forniamo un segnale che può essere utilizzato per ottimizzare il modello. In questo senso, con oltre 500 milioni di utenti settimanali, ChatGPT rappresenta il più grande laboratorio umano mai esistito nella storia della tecnologia. Già da vent’anni, con l’ascesa dei social network, abbiamo smesso di essere solo “consumatori” di contenuti.
Come ha sostenuto Shoshana Zuboff nella sua teoria del “capitalismo della sorveglianza”, siamo diventati prodotto, ossia materia prima da cui le piattaforme digitali estraggono valore attraverso il monitoraggio e l’analisi del comportamento online. Oggi, con l’emergere dei foundation model, il nostro ruolo evolve ulteriormente: stiamo diventando operai invisibili. Ogni nostra azione, una valutazione, un prompt, una correzione, rappresenta un’informazione utile all’affinamento dei modelli AI.
Ci vorrà ben più di un villaggio per addestrare l’AI
In passato si diceva che “per crescere un bambino servisse un villaggio”. Per crescere un’AI, serve l’intera umanità. Non solo per alimentarla con dati, ma per guidarla, verificarla, metterla in discussione e correggerla costantemente. A oggi, l’AI non è ancora in grado di auto-addestrarsi senza l’intervento umano. Il valore della supervisione, del giudizio contestuale, della conoscenza culturale e del senso etico rimane insostituibile.
Di fronte alla crescente centralità dell’AI, servono nuove forme di governance del lavoro digitale, un dibattito pubblico informato e trasparenza sui processi di addestramento.
Gli scenari possibili sono molteplici: si può immaginare un’evoluzione in cui il lavoro umano sarà sempre più riconosciuto e valorizzato, magari attraverso nuove professioni legate alla validazione dell’AI, oppure un mondo in cui il lavoro invisibile degli utenti continuerà ad alimentare l’intelligenza artificiale in modo opaco e non tracciato. La sfida per le istituzioni, le imprese e la società civile è aprire gli occhi su questa realtà e decidere quale direzione prendere.











