language model

L’AI di Meta che genera i testi, aperta ai ricercatori: come funziona

Il tool sviluppato da Meta AI è stato reso disponibile ai ricercatori di tutto il mondo, con tutti i dettagli di implementazione. È la prima volta che accade. E ci si chiede il perché di tanta generosità

19 Mag 2022
Enrico Santus

Senior Data Scientist a Bayer, esperto di AI nella Salute

zuckerberg

Il laboratorio di intelligenza artificiale (IA) della società madre di Facebook, Meta, ha rilasciato negli scorsi giorni ai ricercatori di tutto il mondo il primo Open Pretrained Transformer (OPT), un language model capace di generare testi praticamente indistinguibili da quelli scritti da umani. Si tratta della prima volta che uno strumento con tali capacità viene reso integralmente pubblico da una big tech, visti gli enormi costi di implementazione, misurabili in milioni di euro.

GPT-3: i rischi del deep learning applicato al linguaggio naturale

I language model sono entrati nelle cronache internazionali nel febbraio 2019, quando OpenAI – la società fondata da Elon Musk che si propone di usare l’intelligenza artificiale a beneficio dell’umanità – lanciò GPT-2 (Generative Pretrained Transformer). In quell’occasione, però, OpenAI pubblicò solo una versione dimostrativa del tool, motivando tale scelta col rischio che esso potesse essere utilizzato per scopi potenzialmente pericolosi, come la generazione automatica di notizie false, o fake news. Difficile dimostrare se questa fosse la reale motivazione che spinse OpenAI a tenere segreto il progetto, visto che GPT-2 (esattamente come il suo più recente e ancor più potente successore GPT-3) fu comunque reso disponibile a pagamento.

Meta AI sembra invece aver preso in contropiede questo approccio, mettendo a disposizione dei ricercatori non solo il sistema, ma anche i dettagli di implementazione. Secondo quanto si apprende dall’articolo dei ricercatori, il tool avrebbe 175 miliardi di parametri, ovvero le stesse dimensioni di GPT-3, e performerebbe in maniera totalmente comparabile al prodotto premium di OpenAI. Altro punto di forza del sistema di Zuckerberg è il suo impatto ambientale, che corrisponde a un settimo di quello del competitor. I language model, infatti, richiedono di essere allenati su enormi quantità di dati su computer molto costosi, sia in termini economici che ambientali. Si stima che le emissioni per sviluppare OPT siano state di 75 tonnellate di CO2, contro le 500 tonnellate emesse per GPT-3.

Come è possibile che una macchina possa generare testi?

Ma come è possibile che una macchina possa generare testi? I language model sono sistemi basati sulle reti neurali artificiali (neural network), ovvero reti di miliardi neuroni ispirate a quelle biologiche, che sono alla base della nostra intelligenza. Tali reti possono essere allenate a performare qualsiasi compito decisionale e, nel caso dei language model, sono allenate a predire parole appositamente “mascherate” in frasi. Quando questa procedura è ripetuta per miliardi di frasi, i language model imparano le relazioni semantiche tra i termini, secondo il principio espresso da John Rupert Firth nel 1957 che noi conosciamo il significato delle parole dalla compagnia che hanno. Grazie a questo approccio, per esempio, le macchine possono facilmente comprendere che il soggetto di “mangia” debba essere animato (come una persona o un cane), mentre il suo oggetto debba essere un cibo. Per estensione, possono anche comprendere che una persona o un cane sono più simili tra loro, che ciascuno di essi ad un panino o ad una pizza.

WHITEPAPER
Clienti soddisfatti e fidelizzati? Ecco come fare un e-commerce di successo!
Big Data
Marketing

Questi sistemi, una volta imparato il linguaggio tramite language modeling, possono essere applicati in secondo luogo – tramite un processo chiamato fine-tuning (ovvero “ritocco”) – a numerosi compiti, come le traduzioni, l’identificazione del sentimento nei testi o l’estrazione di particolari tipi di informazione. Tuttavia, col fatto che le reti neurali vengono allenate su dati storici, esse spesso apprendono anche pregiudizi sociali, portando con sé una serie di rischi e difetti, come la possibilità di generare disinformazione e linguaggio tossico. Diversi esperimenti hanno per esempio dimostrato che secondo questi modelli mestieri come quello del medico sono più associati al sesso maschile, mentre mestieri come quello degli infermieri o dei maestri sono più associati al sesso femminile. Per questo motivo, i language model sono considerati sistemi a medio-alto rischio di danni (come la discriminazione) nel framework europeo per l’IA, e richiederebbero pertanto un forte scrutinio prima di essere utilizzati in applicazioni commerciali (ad esempio, in scopi legati alle assunzioni).

La strategia di Meta

Secondo Meta AI, in linea con la filosofia open source, rendere il tool disponibile ad una più ampia comunità di ricercatori potrebbe agevolare lo studio di soluzioni a questa tipologia di problemi, nonché permettere al sistema di migliorare anche in altri aspetti.

Rimane da chiedersi come mai Meta AI abbia optato per tanta generosità. Per trovare una possibile risposta bisogna tenere a mente due informazioni apparentemente contrastanti: da una parte né FacebookInstagram (entrambi appartengono a Meta) hanno mai rivelato come funzionino gli algoritmi di raccomandazione (ovvero quegli algoritmi che suggeriscono amicizie, post o pubblicità); dall’altra parte, il gruppo di ricerca sull’IA di Facebook si chiama FAIR (Facebook Artificial Intelligence Research), che in inglese significa “giusto, equo”. Possibili spiegazioni potrebbero pertanto trovarsi nella diversità tra l’anima commerciale e quella scientifica di Meta, oppure – e più probabilmente – un cambio di passo verso dei sistemi più etici, per aggiustare la propria reputazione e riacquisire la fiducia della comunità scientifica dopo gli scandali di Cambridge Analytica – una società di consulenza britannica che nel 2010 sfruttò i dati di milioni di utenti di Facebook per campagne pubblicitarie a fini politici.

@RIPRODUZIONE RISERVATA

Articolo 1 di 3