Negli ultimi due anni l’intelligenza artificiale generativa ha raggiunto un tasso di adozione impressionante: secondo le stime citate nel paper Working with AI, quasi il 40% degli americani dichiara di utilizzarla a casa o al lavoro. Una curva di diffusione più rapida di quelle che hanno accompagnato il personal computer e internet, è un segnale che ci troviamo davanti a una vera General Purpose Technology: una tecnologia in grado di attraversare settori, funzioni e professioni, con effetti che si amplificano nel tempo.
La domanda però rimane aperta: quali lavori sta impattando davvero l’AI generativa, in che modo? Gran parte del dibattito si fonda ancora su scenari teorici o su impressioni aneddotiche. Il merito dello studio di Microsoft Research è di cambiare prospettiva: anziché partire da ipotesi, parte dai dati di utilizzo reale. I ricercatori analizzano infatti 200.000 conversazioni anonimizzate tra utenti e Microsoft Bing Copilot, raccolte tra gennaio e settembre 2024. È uno dei primi tentativi su larga scala di misurare empiricamente come le persone usano un chatbot di largo consumo per svolgere attività riconducibili al lavoro. Da qui deriva la possibilità di stimare, con una certa precisione, quali attività sono più compatibili con l’AI e quali professioni sono quindi più esposte alla trasformazione.
Indice degli argomenti
Metodologia: due dataset, una tassonomia e un’idea chiave
La ricerca si basa su due dataset distinti ma complementari, entrambi composti da 100.000 conversazioni con Bing Copilot. Il primo, chiamato Copilot-Uniform, è un campione uniforme di nove mesi di utilizzo: restituisce una fotografia rappresentativa di come un vasto pubblico generalista usa quotidianamente un sistema di AI generativa integrato in un motore di ricerca. Il secondo, Copilot-Thumbs, contiene solo conversazioni in cui gli utenti hanno lasciato almeno un feedback esplicito di approvazione o disapprovazione. È quindi lo strato che permette di misurare la qualità percepita e il successo delle interazioni. Tutti i dati sono stati anonimizzati e ripuliti da identificatori personali prima dell’analisi. Non sappiamo dunque chi siano gli utenti o in quale contesto stiano conversando, ma sappiamo con buona approssimazione che cosa stanno cercando di fare e se l’AI li sta aiutando.
O*NET: scomporre le professioni in attività
Per leggere queste conversazioni in chiave lavorativa, i ricercatori usano la tassonomia O*NET 29.0 del Dipartimento del Lavoro USA. O*NET scompone 785 occupazioni in una gerarchia di elementi: task, Detailed Work Activities (DWA), Intermediate Work Activities (IWA) e Generalized Work Activities (GWA).
Le IWAs, 332 in totale, sono il livello su cui si concentra lo studio: sono abbastanza specifiche da essere significative (“programmare sistemi informatici”), ma abbastanza generali da valere per più mestieri. Ogni conversazione viene quindi associata alle IWAs pertinenti, sia dal punto di vista dell’utente, sia da quello dell’AI. È un passaggio cruciale, perché consente di tornare dal mondo delle chat al mondo del lavoro, collegando l’uso di Copilot a un vocabolario standard di attività professionali.
L’intuizione centrale: User Goal vs AI Action
L’innovazione metodologica più interessante è la distinzione tra User Goal e AI Action. Per ogni conversazione, i ricercatori chiedono al modello di riassumere:
- che cosa sta cercando di fare la persona (User Goal);
- che cosa sta effettivamente facendo l’AI nella risposta (AI Action).
A partire da questi riassunti, GPT‑4o classifica quali IWAs sono coinvolte dal lato utente e quali dal lato AI, con una pipeline in due fasi: prima la generazione di riassunti strutturati, poi una classificazione binaria esaustiva su tutti i 332 IWA possibili. Questa doppia vista permette di misurare quanto coincidano, o divergano, le attività che l’utente ha in mente e quelle che l’AI mette in campo.
Qui arriva il primo risultato sorprendente: nel 40% delle conversazioni i due insiemi di attività non hanno alcuna intersezione. In altre parole, in molti casi l’AI non sta facendo lo stesso lavoro dell’utente, ma svolge un’azione diversa che permette all’utente di avanzare nel proprio compito.
Come si misura il successo: completamento e portata
Per capire dove l’AI sia davvero utile, lo studio introduce due metriche aggiuntive. La prima è il Task Completion, stimato con un classificatore basato su GPT‑4o-mini che decide se, alla fine dello scambio, il compito dell’utente si può considerare completato, parzialmente completato o non completato. Questa misura è stata validata contro i feedback espliciti degli utenti e mostra una correlazione molto alta con i pollici in su o in giù.
La seconda è l’Impact Scope, per ogni coppia IWA–conversazione in cui l’AI risulta coinvolta, i ricercatori chiedono al modello di stimare che frazione del lavoro totale, in quella attività, l’AI potrebbe realisticamente assistere o svolgere. La scala va da “nessun impatto” a “copertura completa”. Lo scopo è distinguere tra situazioni in cui l’AI fornisce un aiuto marginale e casi in cui svolge una parte sostanziale del lavoro. Su questa base viene poi costruito l’AI Applicability Score, una metrica composita che combina copertura, tasso di completamento e portata dell’impatto per tutte le attività associate a una stessa occupazione.
Cosa fanno le persone con l’AI: il lavoro informativo al centro
Guardando ai soli obiettivi degli utenti nello storico delle conversazioni, emergono tre grandi aree di utilizzo. La prima, quantitativamente più importante, è la raccolta di informazioni. Attività come “ottenere informazioni su prodotti e servizi”, “raccogliere dati da fonti digitali o fisiche”, “mantenersi aggiornati nel proprio ambito di competenza” compaiono nelle chat con una frequenza decine o centinaia di volte superiore rispetto a quanto avviene nel mercato del lavoro in generale.
L’AI viene usata, in pratica, come un motore di ricerca potenziato, ma anche come uno strumento di lettura assistita: gli utenti le chiedono di filtrare, riorganizzare, interpretare. La seconda area è la scrittura e revisione. Generare testi per finalità commerciali o creative, redigere email, preparare bozze di report, modificare e migliorare documenti esistenti: tutte queste attività sono fortemente sovra-rappresentate nel dataset di Copilot.
Non solo appaiono spesso, ma sono anche tra quelle con i tassi più alti di soddisfazione e completamento. La terza area riguarda la comunicazione: spiegare caratteristiche tecniche di prodotti e servizi, riassumere regolamenti, preparare materiali informativi per clienti o colleghi, organizzare le informazioni per presentazioni e incontri. Il filo rosso è sempre lo stesso, la trasformazione del linguaggio e dell’informazione in qualcosa di comprensibile, coerente, adattato a un destinatario. Osservando le categorie più generali di O*NET, la GWA più frequente è “Getting Information”, seguita da “Communicating with People Outside the Organization”, “Thinking Creatively”, “Updating and Using Knowledge” e “Documenting/Recording Information”.
Che cosa fa davvero l’AI: un layer di servizio, più che un esecutore
Passando dal lato dell’AI, il quadro cambia prospettiva. Le azioni più frequenti che Bing Copilot svolge nelle conversazioni rientrano in categorie come “rispondere ai problemi o alle richieste dei clienti”, “fornire informazioni al pubblico”, “presentare informazioni tecniche o di ricerca”, “spiegare dettagli tecnici”, “insegnare contenuti accademici o professionali”, “consigliare prodotti o servizi”. I verbi dominanti sono rivelatori: rispondere, fornire, spiegare, presentare, insegnare, consigliare, formare.
L’AI agisce principalmente come un servizio di informazione e formazione, un intermediario che interpreta contenuti complessi e li rende utilizzabili dagli utenti. Un ruolo che assomiglia molto a quello di un help desk, di un tutor o di un consulente. La già citata divergenza tra User Goal e AI Action, assenza totale di sovrapposizione nel 40% delle chat, va letta in questa chiave. L’utente, ad esempio, vuole “risolvere un problema con il computer”: l’attività O*NET corrisponde a “risolvere problemi tecnici”. L’AI, però, svolge l’attività “fornire assistenza tecnica ai clienti”, tipica di un tecnico IT. In altri casi l’utente cerca di “raccogliere informazioni da più fonti”, mentre l’AI svolge l’attività di “fornire informazioni ai clienti”. In breve, l’IA prende in carico una parte del lavoro che in passato sarebbe stata svolta da altri knowledge worker di supporto. Interessante è anche vedere quali attività risultano svolte dall’AI molto più spesso di quanto siano dichiarate come obiettivo dagli utenti.
Tutto ciò che riguarda il training, il coaching, l’insegnamento, formare altri sulle procedure, insegnare l’uso di attrezzature, spiegare contenuti accademici, è abbondantemente sovra-rappresentato dal lato AI. Significa che le persone usano Copilot non solo per ottenere risposte, ma per farsi spiegare come spiegare a loro volta, l’AI diventa un “insegnante di insegnanti”. Al contrario, per molte attività l’AI ha un ruolo prevalentemente di supporto e non di esecuzione diretta, acquistare beni e servizi, eseguire transazioni finanziarie, svolgere attività atletiche, preparare cibo o bevande. In questi casi, l’utente resta il protagonista delle azioni, mentre l’AI fornisce istruzioni, suggerimenti, ricette, confronti. In sintesi, ciò che emerge è l’immagine dell’AI come layer di servizio sovrapposto al lavoro cognitivo umano. L’AI non sostituisce l’utente nel fare ricerca, vendere, progettare o assistere, ma facilita queste attività fornendo informazione, struttura, spiegazioni e proposte.
Successo e soddisfazione: dove l’AI funziona meglio
Una volta chiarito che cosa fanno utenti e AI, la domanda successiva è: dove questa collaborazione funziona davvero? Qui entrano in gioco il feedback esplicito (pollici su/giù) e la misura di completamento dei compiti. Le attività con livelli più alti di soddisfazione e completamento appartengono, ancora una volta, alla sfera informativa e testuale. La ricerca di informazioni su temi sanitari, storici, legali o tecnici, la manutenzione della propria conoscenza in un’area di competenza, la valutazione di prodotti, la scrittura e l’editing di testi registrano percentuali di feedback positivo che superano spesso l’80 per cento.
Lo stesso accade per attività come spiegare regolamenti e procedure, consigliare prodotti o servizi, fornire supporto e incoraggiamento. All’estremo opposto, le attività con i tassi più bassi di soddisfazione e completamento sono legate all’analisi quantitativa avanzata e al design visivo. Analizzare dati scientifici o finanziari con rigore matematico, valutare la qualità dei dati, progettare materiali o spazi, creare design grafici o artistici, in questi casi l’AI attuale fatica a raggiungere un livello di output percepito come soddisfacente dagli utenti. Un elemento interessante riguarda le attività di supporto emotivo e consulenza. Quando l’AI prova a svolgerle direttamente, ad esempio “fornire supporto o incoraggiamento” o “consigliare altri su prodotti e servizi”, la soddisfazione è relativamente più bassa di quando l’AI aiuta l’utente a svolgere quella stessa attività verso terzi. Sembra, cioè, che le persone preferiscano un’AI che le aiuti a essere migliori comunicatori, coach o consulenti, piuttosto che un’AI che cerchi di sostituire completamente quella funzione relazionale. Infine, la misura di Impact Scope conferma che l’impatto più profondo si concentra sulle attività di comunicazione informativa: fornire informazioni ai clienti, rispondere a richieste, spiegare dettagli tecnici. Per queste attività, una quota molto elevata dei giudizi colloca l’impatto dell’AI nei livelli “moderate” o “significant”, segno che i modelli generativi possono coprire una parte sostanziale del lavoro.
Le professioni più e meno impattate: l’AI Applicability Score
Sommando quanto visto fin qui, frequenza d’uso delle attività, successo nel completamento, ampiezza dell’impatto, i ricercatori costruiscono per ciascuna delle 785 occupazioni O*NET un AI Applicability Score, una misura di compatibilità. Non dice se la professione verrà automatizzata, ma quanto del suo portafoglio di attività è oggi svolgibile con l’aiuto di un modello generativo. In cima alla graduatoria troviamo mestieri come interpreti e traduttori, storici, assistenti di volo, rappresentanti di vendita di servizi, scrittori e autori, operatori di customer service, programmatori di utensili CNC, telemarketer, giornalisti, matematici, redattori tecnici e specialisti di relazioni pubbliche.
Il tratto comune è evidente, si tratta di professioni in cui una parte importante del lavoro consiste nel produrre, trasformare o trasmettere informazione. Alcuni casi sono particolarmente significativi. I rappresentanti di vendita di servizi, ad esempio, combinano un punteggio di applicabilità elevato con un numero molto alto di occupati: oltre un milione di persone. Gli operatori di customer service superano i due milioni e mezzo di lavoratori, con livelli molto alti di copertura delle attività, tasso di completamento e scope, esattamente il tipo di ruolo in cui l’AI generativa può diventare un co-pilota operativo. All’estremo opposto della classifica, con punteggi di applicabilità prossimi allo zero, si collocano professioni come gli operatori di impianti di trattamento delle acque, i macchinisti navali, i posatori di pali, diversi mestieri dell’edilizia, gli inservienti ospedalieri, gli infermieri assistenti, chi si occupa di manutenzione di macchinari, molti ruoli della ristorazione e delle pulizie. Qui la dimensione fisica e manuale del lavoro domina a tal punto che la parte informativa, potenzialmente assistibile dall’AI, è marginale o poco rappresentata nei dati. Questa forbice non significa che le professioni in fondo alla classifica siano “immuni” da ogni forma di automazione tecnologica. Semplicemente, i modelli linguistici generativi non sono lo strumento principale per trasformarle. In questi settori, eventuali cambiamenti passeranno più probabilmente da robotica, sensori, automazione industriale.
Settori e segmenti: dove l’impatto è più forte
Aggregando le occupazioni nei 22 grandi gruppi SOC utilizzati dal Bureau of Labor Statistics, emergono pattern ancora più leggibili. I settori con i punteggi medi più elevati sono Sales and Related, Computer and Mathematical, Office and Administrative Support, Arts, Design, Entertainment, Sports and Media, Business and Financial Operations e Educational Instruction and Library. In altre parole, il cuore del knowledge work organizzativo: vendite, IT, amministrazione, comunicazione, finanza, formazione. Il caso delle vendite è emblematico, il gruppo “Sales and Related” ha un punteggio di applicabilità superiore a 0,30 e conta circa 13 milioni di lavoratori. Le attività centrali di questi ruoli, informare il cliente, spiegare prodotti e servizi, rispondere a domande, preparare offerte, sono tutte fortemente compatibili con le capacità dell’AI generativa. Qualcosa di simile si osserva per gli impiegati amministrativi, che superano i 18 milioni di occupati e svolgono quotidianamente compiti di gestione documentale, comunicazione, raccolta e registrazione di informazioni.
Sul versante opposto, i gruppi con punteggi di applicabilità molto bassi includono Healthcare Support, Construction and Extraction, Transportation and Material Moving, Production, Building and Grounds Cleaning and Maintenance, Farming, Fishing and Forestry. Si tratta di settori dove il lavoro è dominato dalla presenza fisica, dalla manipolazione di oggetti, dall’uso di macchine e strumenti nel mondo reale. Interessante il caso della sanità, che mostra una sorta di biforcazione: i professionisti sanitari altamente qualificati (medici, infermieri specializzati, farmacisti) hanno un punteggio di applicabilità medio, legato alle attività diagnostiche e informative, mentre i ruoli di supporto alla cura fisica (nursing assistants, orderlies) presentano valori molto bassi. Ancora una volta, la distinzione passa per la quota di lavoro che si svolge nel dominio del linguaggio e dell’informazione.
Salari, educazione, demografia: un impatto distribuito
Una delle domande più delicate riguarda la distribuzione dell’impatto, l’AI colpisce soprattutto i lavori ben pagati o quelli a reddito medio-basso? I risultati dello studio sono, da questo punto di vista, controintuitivi. Se si guarda alla correlazione tra AI Applicability Score e salario medio delle occupazioni, pesando i dati per il numero di occupati, si ottiene un valore intorno a 0,07, praticamente nullo. Ci sono lavori ad alta applicabilità e basso salario (come molti ruoli di front office, customer service e vendite) e lavori ben pagati con applicabilità limitata (ad esempio molte professioni mediche o manageriali in cui il valore sta soprattutto nel giudizio e nella responsabilità).
La relazione con i redditi è quindi molto più sfumata di quanto suggeriscano alcune narrazioni semplificate. Più chiara, anche se non drammatica, è la relazione con il livello di istruzione richiesto. Le occupazioni che richiedono almeno una laurea tendono ad avere punteggi mediamente più alti, mentre quelle che richiedono al massimo il diploma si collocano su valori inferiori.
In ogni caso la sovrapposizione è ampia: molti lavori “da diploma” nel customer service o nel back office amministrativo hanno applicabilità elevata, mentre alcune professioni accademiche o specialistiche mostrano valori moderati. L’istruzione, in altre parole, è un fattore ma non un destino. Le analisi incrociate con i dati demografici mettono in luce possibili rischi di diseguaglianza. Le occupazioni con una forte presenza di lavoratori hispanic/latino, ad esempio, tendono a concentrarsi in settori a bassa applicabilità AI (costruzioni, agricoltura, food service). Questo potrebbe tradursi, almeno nel breve periodo, in un accesso meno diretto ai guadagni di produttività generati dai sistemi generativi, ma anche in una protezione relativa dal rischio di sostituzione diretta. Una dinamica che merita attenzione nelle politiche di formazione e inclusione.
Dalle previsioni alla realtà: confronto con lo studio di Eloundou
Un aspetto particolarmente interessante del lavoro di Microsoft è il confronto con lo studio “GPTs are GPTs” di Eloundou e colleghi https://arxiv.org/abs/2303.10130, che nel 2023 aveva stimato l’impatto potenziale dei modelli linguistici chiedendo a valutatori umani (e allo stesso GPT‑4) di quantificare la quota di tempo risparmiabile sui compiti di ciascuna occupazione. Incrociando l’AI Applicability Score con l’indice E1 di Eloundou, che misura proprio la frazione di lavoro riducibile del 50% grazie a un LLM, la correlazione a livello di singola occupazione è di circa 0,73. Se si aggregano i dati ai grandi gruppi professionali, il valore sale a 0,91. Numeri molto alti, soprattutto se si considera che i due studi usano metodi, dataset e periodi temporali diversi. Questo significa che le previsioni teoriche sulla forte esposizione dei lavori di conoscenza all’AI generativa trovano una conferma solida nei dati di utilizzo reale. Non mancano però divergenze interessanti: alcune occupazioni risultano più impattate del previsto (ad esempio programmatori di utensili CNC, assistenti di volo, analisti di mercato), altre meno (assistenti veterinari, supervisori dei vigili del fuoco, amministratori universitari). Le ragioni variano: in certi casi le attività assistibili sono più frequenti di quanto si pensasse, in altri pesa la componente fisica o relazionale sottovalutata. Nel complesso, tuttavia, la direzione è chiara: le stime basate sulla scomposizione dei mestieri in task si sono rivelate un buon indicatore della traiettoria reale dell’adozione dell’AI.
Limiti e cautele: che cosa questi dati non possono dirci
Per quanto ricco, questo studio non va letto come un oracolo sull’occupazione del futuro. Gli stessi autori insistono su vari limiti strutturali. Il primo riguarda il contesto, dalle conversazioni non è possibile distinguere con certezza ciò che è lavoro da ciò che è uso personale. Una richiesta di ricetta può venire da uno chef o da chi cucina a casa; una domanda su un software può provenire da un programmatore o da un semplice utente. I ricercatori scelgono quindi di misurare la capacità dell’AI di svolgere quell’attività in generale, sapendo che la traduzione in termini di lavoro effettivo dipenderà dalle organizzazioni.
Il secondo limite è il bias di piattaforma, questi dati riguardano Bing Copilot, che ha una base utenti diversa da quella di altri sistemi come ChatGPT, Claude o Gemini. Studi paralleli su altre piattaforme mostrano infatti pattern d’uso differenti, ad esempio una maggiore concentrazione su programmazione e matematica tra gli early adopter tecnici. Il terzo limite è che questi risultati fotografano le capacità dei modelli nel 2024. La frontiera tecnologica si sta muovendo molto rapidamente: modelli multimodali più avanzati, strumenti integrati per il calcolo e l’analisi dati, agenti dotati di maggiore autonomia potrebbero cambiare in pochi anni il perimetro delle attività assistibili. Infine, l’elemento più importante: questo lavoro misura ciò che l’AI può fare e ciò che gli utenti fanno oggi con l’AI, ma non dice quali saranno gli effetti macroeconomici netti in termini di occupazione, salari, qualità del lavoro. La storia degli sportelli ATM e dei cassieri bancari, spesso citata in letteratura, ricorda che una stessa tecnologia può ridurre il tempo per singola operazione ma portare alla creazione di più servizi e più punti vendita, cambiando la composizione del lavoro invece di eliminarlo.
Implicazioni per lavoratori, imprese e policy maker
Nonostante questi limiti, lo studio offre spunti molto concreti per chi deve prendere decisioni oggi. Per i lavoratori e per chi si occupa di formazione, il messaggio più chiaro è che l’AI va vista come un assistente, non come un antagonista. Nel 40% dei casi, l’AI svolge attività diverse da quelle dell’utente; quasi sempre copre solo una parte del lavoro, non l’intero ruolo. Diventa quindi essenziale imparare a orchestrarla, capire quali compiti delegare, come formulare le richieste, come valutare la qualità delle risposte, come integrare gli output nei propri workflow. In questa prospettiva, competenze come il prompt engineering, la valutazione critica degli output, la capacità di combinare fonti e strumenti diversi diventano nuovi alfabeti professionali. Per le imprese, la lezione è che l’adozione dell’AI non è un progetto tecnologico, ma organizzativo. I maggiori guadagni di produttività emergeranno dove si saprà ridisegnare i processi intorno alle attività ad alta applicabilità, liberando tempo dalle componenti ripetitive di ricerca, scrittura e documentazione per concentrarlo su decisione, relazione, innovazione. Questo richiede investimenti in change management, formazione, revisione dei ruoli e delle responsabilità, non solo nell’acquisto di licenze software. Per chi fa policy, infine, i dati suggeriscono di evitare letture dicotomiche: non è vero che l’AI colpirà solo i white collar ben pagati, né che i lavori manuali siano automaticamente al sicuro. L’impatto è trasversale e differenziato. Servono politiche che sostengano il reskilling continuo, facilitino l’adozione consapevole dell’AI nelle PMI e tengano conto delle possibili asimmetrie di accesso a strumenti e formazione, soprattutto per gruppi demografici e territori oggi meno raggiunti dalla trasformazione digitale.
Conclusioni: verso un lavoro aumentato, non sostituito
Alla fine, il quadro che emerge da queste 200.000 conversazioni è più sfumato e forse più incoraggiante di molte narrazioni apocalittiche. L’AI generativa non appare come una forza che cancella intere professioni dall’oggi al domani, ma come una tecnologia che ridefinisce la composizione interna del lavoro.
Le attività testuali, informative, ripetitive vengono accelerate e in parte automatizzate; quelle che richiedono giudizio, creatività, coordinamento e relazione umana diventano relativamente più centrali. I mestieri restano, ma cambiano pelle. Nascono nuove combinazioni di compiti, nuove specializzazioni, nuove forme di collaborazione uomo–macchina. La vera posta in gioco, per lavoratori, imprese e istituzioni, non è quindi fermare l’AI, ma imparare a usarla in modo che questa trasformazione porti a più produttività, più qualità del lavoro e più opportunità, anziché a nuove fratture. Studi empirici come questo non offrono risposte definitive, ma mettono a disposizione una base di evidenze da cui partire per progettare, con maggiore lucidità, il futuro del lavoro nell’era dell’intelligenza artificiale generativa.










