l’approfondimento

Generative AI, dov’è il bene per l’Umanità?

Dobbiamo per forza continuare su una traiettoria di ricerca verso sistemi di IA sempre più potenti? Quali strumenti attuare per ovviare all’attuale quasi-monopolio cognitivo delle big tech? Come evitare una collettiva hallucination e preservare il nostro senso critico? Rischi e conseguenze della nuova strada imboccata dall’IA Generativa

Pubblicato il 15 mag 2023

Mauro Lombardi

Scienze per l’Economia e l’Impresa, Università di Firenze

IA intelligenza artificiale ai generativa e copyright

La Generative Artificial Intelligence sta imboccando una nuova strada. Con la diffusione degli LLMs, il grande successo di ChatGPT-3 e il lancio di GPT-4 stiamo forse entrando in un’era contraddistinta da ciò che Floridi e Chiriatti (2020) chiamano “industrial automation of text production”. Un’automazione industriale della produzione di testi che trasforma radicalmente la scrittura umana, supportata da strumenti capaci di combinare frammenti tratti da basi informative eterogenee in rappresentazioni linguistiche simili a quelle umane.

Soprattutto per coloro che svolgono professioni basate sulla scrittura (ma in realtà vale per tutti), il “cut & paste” potrebbe essere progressivamente sostituito dal “prompt & collate” (Floridi e Chiriatti, 2020: 691). Ecco con quali rischi e conseguenze.

Come salvare la creatività dalla minaccia IA: la proposta degli artisti

Indice degli argomenti

L’avvento dei LLMs (Large Language Models) e di ChatGPT

Nell’odierno scenario tecno-economico, è difficile distinguere tra realtà effettuale e rappresentazione immaginifica. Il 2023 è iniziato all’insegna del GPT-3 e delle sue notevoli performance, ottenute sulla base di alcuni elementi costitutivi. il funzionamento si avvale di 175 miliardi di parametri e 45 terabyte di dati desunti da testi, il cui ammontare è stato stimato pari a un quarto della Biblioteca del Congresso USA e a circa 300.000 metri lineari di libri.

Sono stati spesi 12 milioni di dollari per un lungo processo di addestramento del modello sull’enorme set di dati. Ha la capacità di creare output linguistici da combinazioni di testi e immagini per una varietà di compiti, richiesti dagli utenti, senza che gli sia sottoposto un esempio in precedenza (in gergo “one-shot fashion”).

GPT-3 è il più potente modello di linguaggio mai costruito e ha mostrato di saper fare cose strabilianti:

scrivere codici fino a generare brividi a John Carmack, pioniere della 3D computer graphics, citato da Heaven (2020);
elaborare lo scritto “L’importanza di essere su Twitter”, innescato da Mario Klingerman, artista che lavora con ML e si è trovato di fronte ad un output nello stile dello scrittore Jerome K. Jerome;
c’è anche un articolo su GPT-3 scritto dallo stesso GPT-3: “OpenAI’s GPT-3 may be the biggest thing since bitcoin”, 18-7-2020.

A questi episodi suggestivi si potrebbe aggiungere il fatto che, alla domanda “se GPT sia l’App con il più alto tasso di crescita della storia”. la risposta è stata: GPT non è un app, bensì un sistema di Machine Learning. Queste e altre prestazioni non convincono però Heaven (2022) che, pur ritenendo che GPT sia “shockingly good” enfatizza come esso sia ben lontano da una vera intelligenza, né Gary Marcus (2020), il quale chiarisce che GPT “non ha la minima idea di cosa stia parlando”. Il successo, conseguente alla scelta di rendere accessibile al pubblico ChatGPT dal Novembre 2022, è stato rilevante: 100 milioni di utenti in gennaio, solo due mesi dopo il suo lancio, mentre per raggiungere lo stesso numero sono occorsi 9 mesi a TikTok, cinque anni a Google e Facebook (Tung, 2023).

I risultati della Generative Artificial Intelligence

Una ragione fondamentale della rapida conquista dell’immaginario di così tante persone, da parte di ChatGPT, è che siamo di fronte a Generative Artificial Intelligence (Generative AI). Ottiene risultati che appaiono creativi, perché le combinazioni di testi e immagini sono realizzate mediante l’introduzione di elementi stocastici (random) nella ricerca di correlazioni, per cui può essere ottenuta una grande varietà di output in seguito all’immissione di input ^[1], rendendo così quegli output “even more lifelike” (MGI, 2023).

I sistemi cosiddetti Large Language Models (d’ora in poi LLMs) come GPT-3 e il recentissimo GPT-4 impressionano, perché combinano in modo suggestivo frammenti informativi estratti da testi scritti, dati relativi a codici, rendering 3D, descrizioni di immagini, didascalie medicali (Ortiz, 2023a).

Ciò è reso possibile da algoritmi di Machine Learning, che analizzano sistematicamente enormi database di addestramento (pre-training, indicato nell’acronimo GPT, Generative Pre-trained Transformer), alla ricerca di correlazioni statistiche sulla base dell’individuazione dell’enorme numero di parametri, indicati all’inizio. Il processo di apprendimento del sistema di AI è semi-supervised, cioè combinazione calibrata di dati etichettati (labelled) e una quota molto più ampia di dati unlabelled. Un meccanismo cruciale del processo di apprendimento è la cosiddetta self-attention ovvero l’elaborazione di sequenze di parole ed elementi basilari desunti da tabelle e fogli di calcolo- individuando le posizioni e la frequenza delle componenti, in modo da stimare la probabilità delle possibili sequenze estraibili da database incredibilmente compositi. In breve, siamo in presenza di reti neurali che, mediante self-attention, “catturano relazioni tra elementi-token ^[2] di varia natura.

Next-word prediction

A questo fine durante il percorso di addestramento (pre-training) di un LLM si definiscono i parametri che definiscono la struttura statistica del linguaggio, secondo il paradigma del “next-word prediction”, formulazione esplicitata dal team di Microsoft Research (Bubeck et al. 2023). Il Large Language Model è quindi particolarmente appropriato per la lettura automatica, l’elaborazione di sintesi da testi combinati, la produzione di descrizione di immagini, infine l’individuazione di stili artistici, al fine di produrre Generative Art ^[3].

L’efficacia della Generative AI

La Generative AI, di cui GPT-3 è un esempio, è estremamente efficace nell’apprendere correlazioni tra parole e nel combinare frammenti di parole e immagini, giustificando così la definizione di Language generator (Marcus e Davis, 2020), grazie alla capacità di individuare in dati di molteplice natura “pattern without human direction” (MGI, 2023).

Un aspetto rilevante è poi il seguente: i feedback degli utenti, in relazione agli output di risposta ai loro prompt, sono molto importanti per il lavoro dell’imponente team multidisciplinare di esperti, che lavorano per OpenAI, la società fondata tra gli altri da Elon Musk e Sam Altman.

I feedback sono essenziali per l’affinamento (fine-tuning) del modello e l’introduzione di modifiche per tentare di rimediare a defaillance e difetti più meno gravi, che possono emergere nel funzionamento (come vedremo successivamente). È inevitabile chiedersi, a questo punto quali siano i campi di applicazione di questa potente macchina, generatrice di un multiforme linguaggio scritto.

Campi di applicazione

Gli LLMs come GPT-3 e ChatGPT, quest’ultimo reso accessibile a tutti dallo scorso novembre, costituiscono un superbo lavoro ingegneristico, che permette di ottenere output molto interessante in molti ambiti di attività umane. Un LLM può creare conversational chatbot, come nel caso di ChatGPT, che alcuni analisti ritengono un grande avanzamento tecnologico, in quanto si può instaurare un ambito dialogico scritto, contraddistinto da immediatezza relazionale tra modello linguistico e utente, che può quindi avvalersi di uno strumento formidabile per accedere a campi di conoscenza, la cui esplorazione richiederebbe energie intellettuali e materiali al di là delle possibilità individuali.

Classificazioni

È da rilevare inoltre che gli LLMs sono particolarmente adatti per elaborare classificazioni o categorizzazioni, sempre sulla base di associazioni statistiche, tra masse enormi di dati testuali, potenziando così i processi di elaborazione e analisi dei flussi globali di informazione, cioè la sfera informativa che circonda e permea la sfera fisica generando così un universo fisico-cibernetico (Lombardi e Vannuccini, 2022).

Un aspetto fondamentale, evidentemente connesso al precedente, è la generazione senza apparenti limiti, di testi scritti per la descrizione di prodotti, lo sviluppo di blog e articoli concernenti le tematiche più disparate. In questa prospettiva è comprensibile il fascino immediato per gli utenti, i quali sono immediatamente proiettati in micro-universi linguistici in continua e coinvolgente espansione. Coinvolgente perché gli algoritmi sono creati con uno stile di conversazione particolare, tale da ingenerare e sostenere un tono human-like.

Le dinamiche interattive

Ulteriore e rilevante connotazione per le possibili applicazioni è il fatto che ChatGPT risponde in modo molto ampio alle domande che sorgono più frequentemente (Frequently Asked Questions¸FAQ), per di più innescando dinamiche interattive mediante la comunicazione e trasmissione di ricerche tra umani, individuati sulla base di varietà di criteri: affinità, convergenza, rilevanza congiunta eccetera.

Feedback

Strettamente connessa al precedente ambito di applicazione è logicamente la possibilità di stimolare e sottoporre ad analisi puntuale i feedback tra soggetti individuali e collettivi, che si esprimono per mail, nei social e – forse uno degli aspetti di più rilevante impatto generale nel mondo del business – nella valutazione dei prodotti.

Le potenzialità nel business

La grande utilità potenziale di ChatGPT per le strategie di business, che possono essere a scala variabile, individuale e aggregata, finora presentano impensabili effetti di personalizzazione e al tempo stesso di amplificazione aggregativa. Questo tipo di direttrice strategica si arricchisce poi della possibilità di diversificazione linguistica.

I contenuti delle strategie di business sono infatti traducibili in una molteplicità di lingue, a seconda dei mercati ritenuti più promettenti, ovviamente in relazione alle correnti attività di profiling individuale e collettivo.

Il salto qualitativo

Non è da trascurare un altro campo di grande rilevanza, desumibile da un insieme integrato di elementi quali:

capacità di dare risposte simili a quelle umane;
effettuare calcoli e trascrizioni linguistiche, arricchirle di correlazioni inter e trans-disciplinari;
notevole abilità nel sintetizzare testi; combinarli in modo molto suggestivo;
sentiment analysis ^[4] dei micro-universi linguistici presi in esame, alla ricerca di dati per dedurne opinioni e valutazioni, polarizzazioni cognitive e propensioni decisionali personali-collettive.

Nella letteratura di orientamento psicologico e manageriale, infatti, grande importanza ha progressivamente assunto il ricorso a NLP (Natural Language Processing). In tale prospettiva l’impiego di LLMs può rappresentare un salto qualitativo.

L’integrazione tra questi processi di elaborazione è alimento fondamentale per un’enorme varietà di obiettivi in termini di business:

attivazione di un nuovo mercato;
gestione di investimenti di portafoglio mediante l’analisi predittiva di un’ampia varietà di mercati e dei comportamenti degli investitori, individuali e aggregati;
logicamente congiunta alla sentiment analysis.

BloombergGPT

Un esempio è BloombergGPT per il mondo finanziario. Ha 50 miliardi di parametri e un dataset con 363 miliardi di token, appositamente costruito sulla base delle fonti proprie di Bloomberg. Inoltre è stato validato comparandolo sia con modelli generali di LLM che con modelli specifici per il mondo finanziario. I risultati sono molto soddisfacenti in termini di performance ^[5].

È prevedibile lo sviluppo di un’enorme industria dell’entertainment, grazie all’impiego di tecnologie immersive e ai meccanismi prima indicati per l’amplificazione e il potenziamento dei processi di feedback ^[6].

L’impatto della Generative Artificial Intelligence in medicina

L’impatto in medicina potrebbe essere molto profondo. Invece nuovi scenari si aprono per la creazione accelerata di nuove medicine e innovativi meccanismi terapeutici, come indicato dal paper reso noto dal laboratorio della società di Vancouver Absci (Shanehsazzadeh et al., 2023).

Nel paper si spiega che, mediante modelli di Generative AI, sono stati creati denovo anticorpi, mirati su una particolare regione degli antigeni (il cosiddetto epitopo) attraverso proteine “progettate” ad hoc, in modo tale da “legarsi” a quella parte dell’antigene, cioè alla molecola considerata estranea o pericolosa dal sistema immunitario. Intervistati da Tierman Ray (2023a), McClain, fondatore di Absci, e Meier, AI lead del Laboratorio, sono stati restii nel rivelare le caratteristiche del modello impiegato per progettare gli anticorpi. Ma dal tenore e dalle sfumature delle loro risposte si può desumere che gli LLMs siano stati uno strumento importante e siano dello “stesso gruppo a cui appartengono GPT-3 e ChatGPT”, tenendo presente che vi è un ampio spazio aperto di modelli linguistici per altri tipi di programmi, mirati su specifiche malattie.

Un team composito (Microsoft-OpenAI) ha recentemente presentato GPT-4 Ope23, un LLM dello stato dell’arte per quanto riguarda le competenze e le capacità di GPT-4 di misurarsi con le sfide e i problemi relativi agli sviluppi della medicina. La validazione del modello è stata molto positiva sia nel superare test ufficiali per la professione medica negli Usa sia nel superare le prestazioni di GPT-3,5 e altri LLMs specifici per la medicina (Nori et al., 2023).

GPT e il mondo della ricerca tecnico-scientifica

La conversational AI, come viene anche denominata la Intelligenza Artificiale Generativa, pone non pochi problemi per il mondo della ricerca. Alcuni sono stati già precedentemente indicati, quali:

scarsa affidabilità degli elaborati;
eccessiva fiducia negli output di sistemi artificiali;
effetto “alone” ovvero la propensione a generalizzare sulla base di pochi indizi e un numero esiguo di esperienze ritenute significative;
dipendenza (over reliance) dai sistemi algoritmici, data la loro potenza computazionale e la capacità incorporata di instillare un clima di fiducia by design;
rischio di realizzare forme anche inconsapevoli di plagio, allorché viene utilizzato materiale che deriva dalla combinazione di token desunti da enormi ed eterogenei database, che è impossibile controllare e non sono in ogni caso sottoposti ad una validazione scientifica pubblica.

Inoltre il rischio di alterare le traiettorie di ricerca non è improbabile, dal momento che la Generative Artificial Intelligence è di fatto una potente leva amplificatrice di cattiva informazione ^[7] e interpretazioni distorsive nella diffusione di conoscenze, oltre che nella loro produzione. Infine assumono aspetti legali rilevanti l’origine dei contenuti e la responsabilità personale degli autori.

La consapevolezza dei rischi

Come emerge dal contributo su Nature (van Dis et al., 2023), manca la trasparenza, è necessario il controllo umano di verifica (human verification) nelle pubblicazioni ufficiali, l’importanza della responsabilità (accountabuility) e alla trasparenza sia dei processi di elaborazione dei contenuti che della loro attribuzione.

Cinque priorità

Gli autori individuano cinque priorità sulle quali la comunità scientifica, le società editrici e le istituzioni dovrebbero impegnarsi. Innanzitutto è fondamentale la human verification, ovvero l’intervento umano di analisi-controllo-validazione, come sostiene anche Melanie Mitchell quando, in un’intervista a Richard Waters del Financial Times, afferma che “I don’t think these systems can be left alone to write articles or generate images. We need humans in the loop to edit them or guide them. So they’re not going to be totally autonomous for long time” (Waters, 2022).

Non solo bias

Dobbiamo comunque tenere presente che bias, inadeguato controllo delle fonti, false o alterate informazioni possono fuorviare i sistemi artificiali, come avviene per gli umani e quindi –senza entrare in contraddizione con la tesi di Mitchell- è opportuno acquisire consapevolezza della estensione di tali rischi, magari imparando molto dagli studi che analizzano la “stupidità naturale” (Rich e Gureckis, 2019) ^[8].

Infatti i processi di apprendimento e decisionali umani sono influenzati da almeno tre importanti fattori: “dataset ridotti e incompleti, apprendimento dai risultati delle proprie decisioni, inferenze e processi di valutazione con bias” più e meno evidenti.

Il Machine Learning non è esente da simili distorsioni, anzi li riflette, quindi è basilare studiarle senza affidarsi acriticamente all’automazione decisionale, che oltre tutto ingenera la tendenza a ridurre la capacità di pensiero critico degli umani (come argomenta van Rooij, 2020, vedi oltre).

Regole per l’assunzione di responsabilità

Una seconda priorità è quella di stabilire regole per l’assunzione di responsabilità da parte di ogni tipo di agente, in modo da impiegare LLMs con onestà e trasparenza. Sarebbero a questo fine necessarie strategie pubbliche e private per accrescere nel tessuto sociale ed economico la consapevolezza della posta in gioco sotto tutti gli aspetti. Tra l’altro non è da trascurare il tema di un ripensamento della disciplina che regola i brevetti. Una terza priorità deriva dalla constatazione che i conversational chatbot sono di proprietà dei big tech e la conseguenza è che nello spazio interattivo globale la ricerca si sviluppa in regime “quasi-monopolistico”, oltre tutto con set di addestramento non resi pubblici, come sottolineiamo più volte in questo contributo.

Open LLM

A riguardo van Dis et al. (2023) suggeriscono investimenti in open LLM, prendendo ad esempio quanto avvenuto nel mondo della ricerca, dove BigSCience ha creato un open-source LLM, denominato Bloom, con l’obiettivo esplicito di favorire trasparenza, accuratezza, affidabilità, responsabilità.

Un’altra priorità, su cui si sofferma l’articolo in questione, è l’importanza assoluta di privilegiare i benefici degli LLM, sviluppandone gli aspetti che potenzino la generazione e diffusione sociale di conoscenze tali da creare le premesse indispensabili per processi di autonomia decisionale a livello individuale e collettivo.

Al fine di perseguire tutto questo, infine, è decisivo promuovere un ampio e generalizzato dibattito all’interno delle comunità di ogni tipo (sociali, professionali, ecc.). Tutti i soggetti devono potersi misurare con le sfide e i pericoli generati dagli LLM, riducendo squilibri e asimmetrie di varia natura (economiche, sociali, politiche) che inevitabilmente emergono in periodi di profonde trasformazioni come quelle odierne.

GPT e MdL: L’impatto della Generative Artificial Intelligence nel mondo del lavoro

Un’analisi molto interessante del potenziale impatto dei LLMs sul mercato del lavoro è stata svolta da un gruppo di ricerca di OpenAI (Eloundou et al., 2023). In questo studio viene innanzitutto svolta una rassegna sistematica della letteratura in merito agli effetti sul lavoro negli USA degli sviluppi dell’Intelligenza Artificiale negli ultimi anni.

In secondo luogo viene proposta una definizione, ben fondata dal punto di vista teorico e operativo, degli LLMs: essi sono GPTs (General-purpose Technologies, Tecnologie di portata generale) ^[9], come lo sono state la stampa, la macchina a vapore e l’elettricità.

Lavoro 2027: preparare i dipendenti alla disruption

General-purpose Technologies

Le General-purpose Technologies sono caratterizzate da alcune peculiarità: una volta introdotte, proliferano in numerosi ambiti di attività. Incessanti miglioramenti sono quindi realizzati nel corso dei processi di adattamento e interazione con fattori socio-economici. Esse inducono la generazione di innovazioni complementari, che coadiuvano la dinamica diffusiva/adattativa. Questi aspetti rendono ardua l’impresa di prevedere la loro dinamica evolutiva e valutarne gli effetti, che peraltro si dispiegano nell’arco di decenni.

Le GPT sono dunque un potenziale di principi e conoscenze, che hanno uno spazio di miglioramento indefinito, non determinabile a-priori. Infatti hanno un ampio e diversificato insieme di possibili applicazioni, grazie alle interrelazioni tecnologiche che caratterizzano i processi economici, ricchi di spillover (Lipsey et al., 2005).

Su queste basi è comprensibile che il pieno sviluppo delle GPT richiede invenzioni complementari e non può che prolungarsi nel tempo. Un corollario di tale visione è che nell’economia devono essere elaborate ipotesi progettuali di medio-lungo periodo e messi in atto strumenti appropriati.

Alla luce di queste considerazioni, qui sintetizzate, Eloundou et al. (2023) analizzano database USA, che contengono informazioni su 1.016 occupazioni, descritte in termini di attività e task lavorativi (rispettivamente poco più di 2000 e 19000). La metodologia viene ulteriormente arricchita mediante dati del Bureau of Labor Statistics USA, relativi a occupati e salari dal 2020 al 2021. Gli autori quindi procedono a valutare l’esposizione a GPT (qui inteso come Generative pre-trained Transformer) oppure a sistemi “GPT-powered” delle tipologie classificate, mediante stime basate sulla valutazione di soggetti “annotator”, in grado di conoscere le GPT-capabilities.

GPT-4 nel mondo professionale

L’esito di un articolato lavoro di analisi è che circa l’80% della forza lavoro USA potrebbe subire l’impatto dei GPT-4, ultima evoluzione di GPT-3, per almeno il 10% dei loro compiti lavorativi. Inoltre il 19% della forza lavoro potrebbe subire un impatto pari almeno al 50%.

Gli effetti sui salari sarebbero generalizzati a tutti i livelli, con i lavori caratterizzati da livelli retributivi più elevati maggiormente colpiti. In definitiva, quindi, le conseguenze degli LLMs si esplicano in misura piuttosto marcata sul piano economico-sociale, il che ha implicazioni in termini di policy tutte da definire ^[10].

GPT-4 nel mondo professionale

Un quadro molto più ampio degli effetti della Generative AI come ChatGPT è descritto da un report di Goldman Sachs (2023), le cui stime prevedono che circa 300 milione di lavori saranno influenzati dalla computerizzazione a livello globale, ovvero il 18%, con una maggiore incidenza nei mercati emergenti (EM) rispetto a quelli sviluppati (DM) [Figura 1]

Lo studio precisa che bisogna considerare il differente grado di esposizione dei lavori alla Generative AI, in quanto alcuni di essi e tipi di attività saranno investiti in misura minore dall’automazione, essendo complementari agli sviluppi delle nuove forme di intelligenza artificiale.

Altri fattori

Influenzano la dinamica diffusiva della Generative AI fattori quali la composizione delle economie, il differente approccio alla Generative AI in base alle culture socio-tecniche esistenti nei vari Paesi, e così via. Un altro elemento da tenere presente è che l’impatto sulla produttività del lavoro, potenzialmente elevato, come dimostrano ricerche dirette, dipende da una molteplicità di elementi tale da rendere problematica l’effettuazione di stime, necessariamente congetturali ^[11], specie se si tiene presente che il processo diffusivo e la dinamica adattativa di persone e società a tecnologie disruptive (o game changer, come molti analisti sostengono) richiede necessariamente il superamento di numerose barriere e quindi prolungate sequenze temporali.

Un altro aspetto da considerare è poi il seguente: chi beneficerà di un eventuale, ipotetico aumento della produttività del lavoro, come giustamente rileva Elliott (2023) ^[12], sollevando un problema che sta emergendo in molti Paesi in seguito alle metamorfosi del lavoro e dell’atteggiamento verso di esso da parte di fasce consistenti di popolazione (Lombardi e Macchi, 2023).

ChatGPT (e l’insieme degli LLMs) ha un grande potenziale di applicazioni, su uno spazio indefinito di attività, ancora da scoprire ed esplorare. Ma presenta anche alcune debolezze intrinseche ai modelli linguistici artificiali, che possono quindi diventare generatori di non irrilevanti effetti negativi.

Punti deboli e potenziali implicazioni sfavorevoli di ChatGPT

Nei paragrafi precedenti sono in realtà già state indicate alcune criticità. Prendiamo ora in considerazione specificamente ChatGPT come esempio paradigmatico della Generative Artificial Intelligence sia per le sue peculiari caratteristiche, sia per la dimostrazione di costituire una notevole impresa ingegneristica.

Esso però presenta numerose defaillance e difetti, puntualmente segnalati da computer scientist ed esperti di altre discipline, che lo hanno messo alla prova con input molteplici. In questa sede ci limitiamo ad alcuni dei contributi più significativi in materia. Stokel-Walker e Van Noorden (2023) indicano una serie di inconvenienti, generati dall’elaborazione di rappresentazioni statistiche, estratte da enormi e diversificati database e che sono “fondamentalmente inattendibili nel rispondere a domande fornendo non di rado output falsi o devianti”.

L’inattendibilità dipende da come sono costruiti gli algoritmi, che lavorano su set di addestramento, i quali a loro volta contengono errori, bias, informazioni datate e fuorvianti. Il fatto poi che tali set, nel caso di GPT come per gli altri LLMs, non siano resi pubblici e quindi non siano sottoposti alla validazione scientifica pubblica, può rivelarsi particolarmente dannoso per lo sviluppo di studi tecnico-scientifici. Si sono infatti verificati casi in cui, negli output dati a richieste di informazioni per redigere paper scientifici, le citazioni contenute nelle risposte hanno riferimenti immaginari.

Paradossi nella ricerca scientifica

Ciò è confermato da un editoriale di Nature Machine Intelligence (2023), dove si afferma: “The tool cannot be trusted to get facts right or produce reliable references.”. Nello stesso editoriale viene indicato il rischio di un imminente “alluvione” di articoli nei quali la combinazione di contenuti elaborati da umani con quelli di fonte Artificial Intelligence Generativa, insieme ad altri rielaborati ad hoc, rende impossibile distinguere l’attribuzione, perché tutto è interconnesso in modo da sembrare reale.

Per questi motivi case editrici di testi scientifici, come Springer Nature, si stanno dotando di software cosiddetto misuse detector, al fine di evitare pratiche improprie, risultati costruiti ad arte, submission multiple di lavori a una o più riviste, infine sofisticati tentativi di plagio. Tutte queste eventualità spiacevoli derivano dalla capacità di LLMs come ChatGPT di generare contenuti verosimili, magari derivanti dalla rielaborazione di testi esistenti, tramite l’adozione di un differente stile argomentativo.

Emerge dunque il paradosso di software che potrebbe essere di grande aiuto alla ricerca, ma tale da poter diventare esso stesso, sia endogenamente (errori, bias eccetera) sia on purpose, potente meccanismo di alterazione dei processi cognitivi in campo tecnico-scientifico.

Appare quindi fondata l’affermazione che ChatGPT e altri LLMs possano essere “effective assistants for researchers who have enough expertise to directly spot problems or to easily verify answers, such as whether an explanation or suggestion of computer code is correct” (Stokel-Walker e Van Noorden, 2023). Un caveat è espresso anche da Floridi e Chiriatti (2020: 692, vedi oltre) che, nell’indicare le sfide poste da ChatGPT-3, sostengono “humanity will need to be even more intelligent and critical”. Stokel-Walker e Van Noorden (2023) mettono in luce altri inconvenienti degli LLMs, conseguenti anche ai tentativi di contrastare i problemi e gli effetti dannosi, di cui le stesse società creatrici hanno acquisito presto consapevolezza.

Le contromisure di OpenAI

Così, ad esempio, OpenAI ha limitato la “base di conoscenze al 2021”, ridotto le possibilità di “navigazione” su Internet e introdotto filtri per bloccare contenuti richiesti da “sensitive or toxic prompt”. Ciò ha da un lato fatto insorgere altri problemi, derivanti dall’impiego di “moderatori di contenuto” e di persone addetti all’etichettatura (labeling). Inchieste giornalistiche hanno individuato seri problemi di salute sia per i “moderatori” che per gli operatori del labeling, entrambi peraltro costretti ad accettare in molti Paesi del mondo compensi molto bassi.

Episodi incresciosi

Nonostante le misure di “prevenzione informativa”, per così dire, si sono comunque verificati episodi incresciosi. Steven Piantadosi, professore a Berkeley di psicologia e neuroscienze, ha dimostrato come i problemi di bias permangano e i filtri posti in essere per bloccare contenuti scabrosi “appear to be bypassed with simple tricks, and superficially masked”.

Sam Biddle (2023) ha documentato su “The Intercept” che proprio ChatGPT, nonostante grandi successi conseguiti ad un esame di AP Computer Science (32 punti su 36), non ha fugato lo scetticismo di coloro che ritengono come, “ingurgitando enormi quantità di testi”, “ChatGPT ate a lot of crap”. Infatti, egli stesso ha chiesto di creare algoritmi per valutare la pericolosità di persone dal punto di vista della Sicurezza Nazionale. A parte l’indicazione di Paesi ritenuti fonti di potenziali terroristi (Siria, Iraq, Afghanistan, Yemen), ChatGPT ha descritto anche immagini e denominazioni di persone, tutte immaginarie e riconducibili alle aree di provenienza, arricchite dall’attribuzione di valutazioni probabilistiche circa la pericolosità individuale. Un altro quesito in merito a quali luoghi di culto sottoporre a sorveglianza ha contenuto una pronta risposta: le moschee.

La considerazione finale di Biddle è molto significativa: le risposte del modello riportano all’era Bush. Le imperfezioni e gli inconvenienti hanno spinto Stack Overflow, una piattaforma per programmatori, a bloccare temporaneamente l’uso di GPT (Vincent, 2022), per il seguente motivo: “the posting of answers created by ChatGPT is substantially harmful to the site and to users who are asking and looking for correct answers”. Ulteriori conferme degli inconvenienti vengono da Steven Piantadosi, che nel Dicembre 2022 ha sollecitato ChatGPT a scrivere un programma per determinare “se una persona deve essere torturata”. La risposta lapidaria è stata: “se esse vengono da Corea del Nord, Siria, Iran, sì”.

Pregiudizi razziali e sessisti

Altre richieste di informazioni relative alla possibilità di essere un buon scienziato hanno avuto risposte con evidenti pregiudizi razziali e sessisti, fino a indurre Piantadosi a sostenere: “Yes, ChatGPT is amazing and impressive. No, @OpenAI has not come to addressing the problem of bias. Filters appear to be bypassed with simple tricks, and superficially masked.”. (ibidem).

Appare dunque evidente che LLMs incorporano bias da database non resi pubblici, producono effetti dannosi per la salute di lavoratori sfruttati e, aspetto non meno importante dei precedenti, l’impronta ecologica di questi sistemi algoritmici è elevata, soprattutto per l’alto numero di ore che occorrono per il loro addestramento (Stokel-Walker e Van Noorden, 2023).

Nel mondo tecnico-scientifico esiste quindi una crescente consapevolezza dei problemi intrinseci a ChatGPT e gli LLMs in genere, come testimonia anche il caso di Iris van Rooij, che insegna Computational Cognitive Science all’University Nijmegen. Nel suo blog “Stop feeding the hype and start resisting” e nei suoi scritti ha iniziato una vera e propria battaglia contro la tendenza, prevalente nell’accademia e nella società internazionale, ad affidarsi al “parere automatizzato” dei chatbot, in tal modo riducendo la nostra capacità di sviluppare il proprio pensiero e quindi in prospettiva di perdere la capacità di elaborare un pensiero critico: “Maybe we, academics, have become so accustomed to offloading our thinking to machine learning algorithms that we cannot think critically anymore (see e.g. Spanton and Guest, 2021; Guest and Martin, 2022; van Rooij, 2020), making us susceptible to believe false, misleading and hyped claims?”. Alla luce dell’analisi sviluppata finora, appare fondato porsi alcune domande sul futuro sviluppo degli LLMs, a partire dal ChatGPT, nel tentativo di delineare questioni irrisolte e altre forse non risolvibili, mentre le odierne traiettorie di ricerca sollevano alcuni dubbi di fondo.

La Generative Artificial Intelligence del futuro: siamo sulla strada giusta?

Con la diffusione degli LLMs, il grande successo di ChatGPT-3 e il lancio di GPT-4 stiamo forse entrando in un’era contraddistinta da ciò che Floridi e Chiriatti (2020) chiamano “automazione industriale di produzione di testi”, che trasforma radicalmente la scrittura umana, supportata da tool con una formidabile capacità di combinare frammenti tratti da basi informative eterogenee in rappresentazioni linguistiche molto simili a quelle umane.

Soprattutto per coloro che svolgono professioni basate sulla scrittura, ma in realtà vale per tutti, il “cut & paste” potrebbe essere progressivamente sostituito dal “prompt & collate” (Floridi e Chiriatti, 2020: 691). Chiunque può in teoria scrivere una linea di comando (prompt) e attendere fiduciosamente un’ampia e documentata risposta, anche se abbiamo prima descritto a quali inconvenienti si può andare incontro.

Non bisogna poi trascurare il fatto che, nel completare il prompt, occorre avere molto chiaro cosa si chiede ed esprimerlo efficacemente entro limiti quantitativi ben definiti (Pierce, 2023). L’industrial automation of text production praticamente costituisce un grande potenziale produttivo di qualsiasi tipo di contenuto, ma è anche fonte di un possibile “immense spread semantic garbage” (Floridi e Chiriatti, 2020: 612). Ciò deve indurre ad affrontare interrogativi in merito alla validità tecnico-scientifica di GPT-3 e GPT-4.

Un progetto ingegneristico più che una svolta scientifica

Partiamo da LeCun, chief AI scientist di META. Nel corso di un colloquio pubblico con Cade Metz, giornalista del Times, egli ha affermato che ChatGPT è esempio di un dignitoso progetto ingegneristico più che una svolta scientifica (Ray, 2023b). LeCun in un certo senso ridimensiona la portata innovativa del software impiegato, dal momento che non fa altro che utilizzare componenti tecnologiche sviluppate nel corso di molti anni da una molteplicità di laboratori.

La stessa architettura basilare di GPT, la cosiddetta Transformer, è un’invenzione di Google e il primo modello di LLM è stato creato da Joshua Bengio 20 anni fa, arricchito dall’impiego del meccanismo denominato “attention”, che consiste nel creare matrici con righe e colonne di frasi, per poi effettuare matching multidimensionali, al fine di individuare ricorrenze e combinazioni di parole e loro frammenti, quindi estrarne pattern linguistici. OpenAI ha aggiunto a tutto questo l’apprendimento rinforzato” (reinforcement learning), basato su feedback degli utenti, per attribuire punteggi e probabilità (rank), che possono essere così via via migliorati, analogamente a quanto avviene con il Page Rank di Google.

Il giudizio finale è univoco

Un giudizio convergente è espresso sul sito web specializzato della società Venturebeat, dove viene argomentata la tesi che GPT-3 non costituisce di per sé un avanzamento tecnologico particolarmente significativo, com’è d’altra parte affermato in una serie di studi, che analizzano lo stato dell’arte dei sistemi di Machine Learning, in particolare l’evoluzione delle reti neurali impiegate per i “recommendation systems” (Ferrari-Dacrema et al., 2019) e degli algoritmi di compressione/riduzione (pruning algorithms) delle diramazioni degli alberi di decisione (Blalock et al., 2020).

Il giudizio finale è univoco: negli ultimi 10 anni non c’è evidenza di miglioramenti delle performance, nonostante le risorse a disposizione e i finanziamenti impiegati, come nel caso di GPT-3 (12 milioni per l’addestramento).

È allora fondato chiedersi se è cambiato qualcosa con GPT-4, lanciato il 14 Marzo scorso in un ambiente globale ansioso di misurarsi con un sistema computazionale sempre più potente. La seconda metà dello scorso decennio ha infatti visto la dinamica esponenziale di nuovi LLMs, con una progressione di lanci di GP: GPT nel 2018; GPT-2 nel 2019; GPT-3 nel 2020; ChatGPT verso alla fine del 2022 (basato su GPT-3,5), seguito da un proprio AI Chatbot in Bing di Microsoft, mentre Google si sforzava di tenere il passo (Vicent, 2023).

Il lancio di GPT-4

L’attesa è divenuta alta, nonostante il CEO di OpenAI Sam Altman, abbia dichiarato che GPT-4 ha difetti ed è ancora limitato. Il sistema è comunque “multimodale”, capace di accettare input di testi e immagini, quindi di integrare anche video, audio. Siamo oltre le prime versioni di GPT, che analizzano imponenti masse di dati per individuare pattern statistici e poi generare sequenze di parole attendibili dal punto di vista probabilistico.

Il report di OpenAI

Un report di OpenAI (2023) riconosce che GPT-4 non è all’altezza degli umani in molti scenari del mondo reale, ma raggiunge il livello di punteggio del top 10% nelle valutazioni ricevute ad esami da superare per svolgere attività professionali e accademiche.

Un team di Microsoft Research si spinge fino ad affermare che questa prima versione di GPT-4 -insieme a ChatGPT, PaLM di Google e tutta gli LLMs- “exhibit more general intelligence than previous AI models”. In particolare, poi, “GPT-4 can solve novel and difficult tasks that span mathematics, coding, vision, medicine,law, psychology and more, without needing any special prompting” (Bubeck et al., 2023).

Va però messo in luce che lo stesso studio riconosce implicitamente la natura prettamente statistica delle capabilities di GPT-4 quando afferma che occorra effettuare ulteriori avanzamenti, valutando “the possible need for pursuing a new paradigm that moves beyond next-word prediction” (Bubeck et al., 2023).

Altri esperti molto autorevoli esprimono, a dire il vero, pareri meno favorevoli, dopo aver sperimentato in prima persona il nuovo sistema. Anche se ha superato brillantemente test di ammissione a corsi universitari e para-universitari USA (LSATs, GRES, SA), Gary Marcus, professore emerito della NYU e imprenditore informativo ^[15], documenta come i suoi esperimenti con GPT-4, nonostante l’aumento della potenza computazionale di cui dispone rispetto ai precedenti LLMs, mostrino che esso non ha rivoluzionato i modelli linguistici che interagiscono con gli umani.

Emergono infatti gli stessi limiti dei precedenti modelli: è ancora incerto e traballante l’”allineamento”, cioè la capacità di guidare i sistemi verso gli interessi e gli obiettivi indicati dai progettisti. Non sono rari veri e propri errori di ragionamento. Non sono del tutto
evitati fenomeni di hallucination, ovvero la produzione di risposte apparentemente affidabili, ma i contenuti sono del tutto estranei al set di addestramento. Permangono quindi problemi di affidabilità, il che rende problematica qualsiasi ipotesi di impiegare il sistema nella robotica e nei processi di ricerca scientifica.

Sono inoltre necessari frequenti e rilevanti processi di re-training per tenere il passo con ciò che accade di nuovo, tenendo presente che CPT-4 sa poco del 2021 e nulla del 2022.

Il giudizio finale è dunque lapidario: si tratta di un passo indietro per la scienza con un sistema di IA di cui non è dato conoscere alcunché: architettura, addestramento, consumo di energie eccetera.

Pareri differenti

Opinioni diverse e molto interessanti di alcuni analisti sono riportate in un articolo di Nature (Sanderson, 2023), dove si registrano perplessità del mondo scientifico in merito alla riservatezza sui dati di addestramento e quindi all’impossibilità di accedere al codice di accesso a GPT-4, il che impedisce l’individuazione di quale possa essere l’origine dei bias, per poi escogitare rimedi.

GPT-4, che ha superato anche gli esami per la professione legale, collocandosi sempre nel segmento più alto delle valutazioni (top 10%) ^[16], sembra dunque non avere limiti, tanto è vero che ha dimostrato ottime capacità nel partire da un disegno a mano di un sito web per produrre il codice informatico appropriato e quindi creare un reale sito web. Tutto ciò non ha però dissipato il clima di sfiducia, presente nella comunità scientifica a causa della persistenza di modelli i cui
codici sono riservati e in possesso delle società big tech. Emerge un quadro generale di quasi monopolio tecno-economico.

Si ribadisce, quindi, ancora una volta che ciò rende impossibile un reale controllo e la
verifica della tecnologia sulla base di criteri esclusivamente scientifici.
Queste considerazioni acquistano un rilievo assoluto se unite a quelle svolte dall’ingegnere chimico Andrew White, il quale ha avuto accesso a GPT-4 come “red-team”, cioè persona retribuita da OpenAI per testare la piattaforma fino a provocarla, cercando di far generare “qualcosa di cattivo”. In sei mesi di incarico White ha testato la capacità del sistema di indicare componenti e step di reazioni chimiche.

All’inizio gli output non sono stati straordinari, anche se il grado di realismo dimostrato si è rivelato sorprendente. Il quadro è cambiato molto (in meglio) allorché GPT-4 ha avuto accesso a Internet e ad articoli scientifici, dal momento che sono emerse abilità e competenze molto innovative e generatrici di output suggestivi. Alla domanda dell’intervistatore circa la possibilità che GPT-4 possa “consentire la creazione di composti chimici pericolosi”, White ha risposto che tutto dipende dal lavoro dei red-teamers.

L’importanza del processo di addestramento

Emerge, ancora una volta, la rilevanza delle modalità di svolgimento del processo di addestramento, della qualità dei dati di base e la necessità del controllo pubblico da parte della comunità scientifica, perché GPT-4 costituisce una leva molto potente per produrre e amplificare elementi dannosi di qualsiasi natura.

Due degli scienziati intervistati hanno infatti sottolineato la necessità di elaborare un set di linee-guida per regole “how Ai and tools such as GPT-4 are used and developed” [17].

Da queste molteplici dichiarazioni di esperti, che hanno sperimentato le funzionalità di GPT-4, possiamo evincere che i progressi rispetto alle precedenti versioni siano soprattutto di natura quantitativa più che qualitativa. Di conseguenza è legittimo ipotizzare che il notevole incremento di potenza computazionale non stia ancora producendo un salto verso forme assimilabili a quella che viene denominata General Artificial Intelligence, di cui non esiste una definizione precisa e unanimemente accettata, ma viene spesso avanzata come espressione assimilata in modo nominalistico all’intelligenza umana. La lontananza da quest’ultima è comunque riconosciuta anche dai team di ricerca di OpenAI e Microsoft Research, come abbiamo precedentemente visto.

Lo spostamento del focus della ricerca tecnico-scientifica

Appare opportuno allora chiedersi, come fanno alcuni specialisti, se non si stia di fatto realizzando uno spostamento del focus della ricerca tecnico-scientifica: la dinamica attuale è incentrata sul continuo incremento della potenza computazionale (in gergo lo scaling) sta producendo uno shift dall’obiettivo dell’intelligenza al perseguimento di performance sempre più elevate.

In breve, la ricerca di perfezione tecnologica (e quindi di business) a scapito di finalità scientifiche, come sembrano sostenere autorevoli personaggi nel campo dell’Intelligenza artificiale ^[18]: 1) “Unfortunately, it is the technology of AI that gets all the attention”, (Hector Levesque). 2) “Most of today’s AI approaches will never lead to true intelligence”
(LeCun, guru di META). 3) “AI as a field is stuck as far as finding anything like human intelligence” (Gary Marcus). 4) “Turns out everything is a matrix multiplication, from computer graphics to training neural networks,” (Demis Hassabis, co-fondatore di Open Mind).

Conclusioni

Più che esprimere giudizi conclusivi, è l’ora di sollevare alcuni interrogativi, su cui la comunità scientifica, team interdisciplinari, imprese, istituzioni e la società intera dovrebbe riflettere: è necessario continuare su una traiettoria di ricerca verso sistemi di IA sempre più potenti, che non sembrano garantire output diretti a conseguire “true intelligence” (Ananthaswamy, 2023)?

Quali strumenti porre in essere per ovviare all’attuale quasi-monopolio cognitivo delle big tech, che rischia di essere potere tout court in un universo fisico-cibernetico?

Se la crescente potenza computazionale non riesce ad assumere proprietà analoghe o affini a quelle dell’intelligenza umana (adattatività, senso comune, capacità di formulare abduzioni, porre domande che fuoriescono dagli schemi interpretativi esistenti, ecc.), come evitare una collettiva hallucination ^[19] e preservare il senso critico, una delle caratteristiche basilari del pensiero umano?

Uno dei rischi più significativi che incombe sull’umanità non è tanto quello della “Superintelligence”, quanto LLMs tanto potenti che possono finire nelle mani sbagliate e provocare disastri, com’è implicitamente deducibile da quanto scritto nei paragrafi precedenti e da ciò che sostiene Gary Marcus (2023b)?

Per riflettere su questi interrogativi penso sia fondamentale tenere sempre presenti alcune considerazioni del fisico Carlo Rovelli (2023: 27): “Andare a vedere, questo è la scienza. Andare a curiosare dove non siamo mai stati. Usando matematica, intuizione, logica, immaginazione, ragionevolezza… Andare a vedere con gli occhi della mente” (Rovelli, 2023: 29). Insomma, tutto ciò che è alla base della nostra intelligenza di esseri umani, da cui non dobbiamo abdicare.

Note

La riga dove si scrive la richiesta (“prompt” o linea di comando), deve essere precisa e contenuta entro limiti ben definiti. In questo modo la conversational AI può semplificare molto l’interazione con l’utente, dando anche l’impressione di poter fare tutto (Pierce, 2023). ↑
“In the context of large language models (LLMs), tokens are used to represent individual words or subwords in a text sequence. The process of breaking down text into individual tokens is called tokenization” (Techopedia). ↑
Il tema della Generative Art non viene trattato in questa sede. Per una sintetica introduzione si veda Ortiz (2023b). ↑
La Sentiment analysis, connessa nella letteratura manageriale all’opinion mining, è così definita: “Sentiment Analyzer: Extracting Sentiments about a Given Topic using Natural Language Processing Techniques” (Yi et al., 2003). “An opinion mining tool would process a set of search results for a given item, generating a list of product attributes (quality, features, etc.) and aggregating opinions about each of them (poor, mixed, good)” (Dave et al., 2003). Si vedano anche: Pang e Lee (2008); Das e Chen (2007); Taboada et al. (20111). ↑
A differenza di ChatGPT e degli altri LLMs, lo studio in questione indica precisamente il dataset di addestramento e annuncia che a breve sarà reso pubblico il record di tutta l’esperienza effettuata nel percorso di addestramento del modello. ↑
“You’ve probably seen that generative AI tools (toys?) like ChatGPT can generate endless hours of entertainment” (MGI, 2023). ↑
Il problema può assumere aspetti preoccupanti se si pensa che il sistema può aiutare a scrivere e a completare codici per processi computazionali. ↑
Gli autori si riferiscono al filone internazionale di ricerca sui fattori che distorcono i processi decisionali umani. Tra i principali esponenti vi sono Gigerenzer, Selten e Kahneman, gli ultimi due Premi Nobel per l’Economia. ↑
Il titolo dello studio è volutamente equivoco per far risaltare che i Generative pre-trained Transformers (GPTs) sono in effetti General-purpose Technologies (tecnologie di portata generale). Lo studio correttamente sottolinea i limiti delle stime, dovuti alla soggettività delle annotazioni degli annotator e ai database impiegati, con dati ancora quantitativamente limitati. L’esercizio è ciononostante molto significativo e denso di annotazioni metodologiche di rilievo. ↑
Nel Report di Goldman Sachs sono proposte stime, basate sulla definizione di scenari alternativi. ↑
Ryan-Mosleyarchive (2023) riferisce di come possa aumentare la produttività nelle professioni legali, nel giornalismo, con rischi e limiti analoghi a quelli segnalati in paragrafi di questo contributo. ↑
Bengio, Hinton e LeCun hanno nel 2018 vinto il Premio Turing per i loro contributi agli sviluppi dell’Intelligenza Artificiale. ↑
Marcus è fortemente critico sulla concezione dell’intelligenza prevalente negli studi sull’Intelligenza Artificiale. Uno degli elementi chiave della sua visione è l’assoluta importanza di un cambiamento paradigmatico, che reintroduca componenti simboliche. Alla base ci sono una diversa e molto significativa concezione della mente e dell’intelligenza. Si vedano a riguardo i suoi libri (Marcus, 2001, 2019). ↑
In questo e negli altri casi test il sistema si è classificato molto al di sopra delle precedenti versioni di GPT. ↑
Emergono a questo riguardo una serie di questioni di fondo, sulle quali non possiamo soffermarci in questa sede. Ne indichiamo soltanto due, proponendo delle letture per trattazioni sistematiche. La prima concerne il conflitto, su cui spesso si dibatte in modo fuorviante, tra dinamica innovativa, tutela dei diritti individuali e strategie delle big tech. Per un’analisi critica e approfondita si veda Tafani (2023). La seconda riguarda le ipotesi, discusse da varie prospettive teoriche, su come sviluppare un’intelligenza artificiale dotata di un’etica rispettosa dei diritti umani. Una suggestiva e controcorrente analisi è sviluppata in Tafani (2022). ↑
Le dichiarazioni sono espressamente fatte a ZDNET (Ray, 2022). ↑
Hallucination in senso informatico, con precedentemente indicato. ↑

Bibliografia

Ananthaswamy A., 2023, “In AI, is bigger always better?”, Nature, March 10. Biddle S., 8-12-2022, “The Internet’s New Favorite AI Proposes Torturing Iranians and Surveilling Mosques”, The Intercept. Blalock D. et al., 2020, “What is the state of neural network pruning?”. arXiv:2003.03033v1 [cs.LG] Mar 2020.
Bubeck S. et al., 2023, “Sparks of Artificial General Intelligence: Early experiments with GPT-4”, Microsoft Research, arXiv:2303.12712v3 [cs.CL] 27 Mar 2023.
Das S., Chen M., 2001, “Yahoo! for Amazon: Extracting market sentiment from stock message boards”. In Proceedings of the Asia Pacific Finance Association Annual Conference (APFA), 1375-1388.
Dave K., Lawrence S., Pennock D.M, 2003, “Mining the peanut gallery: Opinion extraction and semantic classification of product reviews. In Proceedings of WWW, 519–528. Elliott L., 2023, “AI will end the west’s weak productivity and low growth. But who exactly will benefit?”, The Guardian, April 7.
Eloundou T., Manning S., Mishkin P., Rock D., 2023. “GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models”, OpenAI, OpenReseach, UNiversity of Pennsylvania”, arXiv:2303.10130v3 [econ.GN], March 23.
Ferrari Dacrema M., Cremonesi P., Jannach D., 2019, “Are We Really Making Much Progress? A Worrying Aanalysis of Recent Neural Recommendation Approaches”, ACM, Septeember 10.
Floridi L., Chiriatti M., 2020, “GPT-3 Its Nature, Scope, Limits, and Consequences”, Minds and Machines, 30: 681–694. Goldman Sachs, 2023, “The Potentially Large Effects of Artificial Intelligence on Economic Growth”, Macrh 26. Guest O., Martin A. E., “On logical inference over brains, behaviour, and artificial neural networks”, Computational Brain & Behavior, February 13. https://doi.org/10.1007/s42113-022-00166-x.
Heaven W. D., 2020, “OpenAI’s new language generator GPT-3 is shockingly good—and completely mindless”, Mit Technology Review, August 20.
Lipsey R., Carlaw K.I., Bekar C.T, 2005, Economic Information. General Purpose Technologies and Long Term Economic Growth, Oxford University Press.
Lombardi M., Macchi M., 2023, Tra Disoccupazione Tecnologica e Great Resignation, (in corso di stampa).
Lombardi M., Vannuccini S., 2022, “Understanding emerging patterns and dynamics through the lenses of the cyber-physical universe”, Patterns 3, November 11.
Marcus G., 2001, The Algebraic Mind. Integrating Connectionism and Cognitive Science. The MIT Press. Marcus G., 2019, Rebouting AI. Building Artificial Intelligence We Can Trust. Pantheon Books.
Marcus G. Davis E., 2020, “GPT-3, Bloviator: OpenAI’s language generator has no idea what it’s talking about”, Technology Review, August 22.
Marcus G., 2023a, “GPT-4’s successes, and GPT-4’s failures”, Communication of the ACM Blog, March 15. Marcus G., 2023b, AI risk ≠ AGI risk, March 28. MGI (McKinsey Global Institute), 2023, What is generative AI? January. Mitchell M., 2021, Artificial Intelligence: A Guide for Thinking Humans, Oxford University Press.
Ryan-Mosleyarchive T., 2023 AI might not steal your job, but it could change it, Technology Review, April 3. Nature Machine Intelligence (Editorial), 2023, “The AI writing on the wall”, 5, 1, January 1. Nori H. et al., 2023, “Capabilities of GPT-4 on Medical Challenge Problems”, March 24, arXiv:2303.13375v1 [cs.CL] 20 Mar 2023. OpenAI, 2023, Techical Report.
Ortiz S., 2023a, “What is generative AI and why is it so popular? Here’s everything you need to know”, ZDNET, February 15. Ortiz S., 2023b, “The best AI art generators: DALL-E 2 and other fun alternatives to try”, ZDNET, March 31.
Pang Bo, Lee L., 2008, “Opinion mining and setiment analysis”, Foundations and Trends in Information Retrieval, 1-135.
Pierce D., 2023, “ChatGPT started a new kind of AI race — and made text boxes cool again”, The Verge, March 26. Ray T., 2022, “AI’s true goal may no longer be intelligence”, ZDNET, October 22. Ray T., 2023a, “Generative AI could lower drug prices. Here’s how. In the future, specifying a drug target may be like sitting down to ChatGPT. After a few clicks, you’ll have your novel therapeutic”, ZDNET, March 1. Ray T., 23-1-2023b, “ChatGPT is ‘not particularly innovative,’ and ‘nothing revolutionary’, says Meta’s chief AI scientist”, ZDNet.
Rich A.S., Gureckis T.M, 2019, “Lessons for artificial intelligence from the study of natural stupidity”, Nature Machine Learning. Vol 1, April, 174-180. Rovelli C., 2023, Buchi bianchi, Adelphi. Ryan-Mosleyarchive T., 2023, “AI might not steal your job, but it could change it”, MIT Technology Review, April 3.
Sanderson K., 2023, “GPT-4 is here: what scientists think”, Nature, 615: March Shanehsazzadeh A. et al., 2023, “Unlocking de novo antibody design with generative artificial intelligence”, BioRχiv, Preprint Server for Biology.
Spanton R. W., Guest O., 2022, “Measuring Trustworthiness or Automating Physiognomy? A Comment on Safra, Chevallier, Gr\ezes, and Baumard”, arXiv preprint arXiv:2202.08674. Stokel-Walker C., Van Noorden R., 9-2-2023, “The Promise and Peril of Generative AI”, Nature, Vol. 614, 214-216.
Taboada M. 2011, “Lexicon-Based Methods for Sentiment Analysis “, Computational Linguistics, 37 (2): 267–307. Tafani D., 2022, “What’s wrong with “AI ethics” narratives, «Bollettino telematico di filosofia politica”, 1-22, https://commentbfp.sp.unipi.it/daniela-tafani-what-s-wrong-with-ai-ethics-narratives.
Tafani D., 2023, “L’«etica» come specchietto per le allodole. Sistemi di intelligenza artificiale e violazioni dei diritti”, in «Bollettino telematico di filosofia politica», 1-13, https://commentbfp.sp.unipi.it/letica-come-specchiettoper-le-allodole/.
Tung L., 2023, “ChatGPT just became the fastestgrowing ‘app’ of all time”, ZDNET, February 3.
Van Dis E.A.M., et al., 2023, “ChatGPT: five priorities for research”, Nature, Vol. 614, February 9. 224-226 Van Rooij I., 2020, Mixing psychology and AI takes careful thought. Blogpost, in Donders Wonders. Venturebeat, 2023, “OpenAI’s massive GPT-3 model is impressive, but size isn’t everything”, Venturebeat.com 7 Aprile.
Vincent J., 2022, “AI generated answers temporarily banned on coding Q&A Site Stack Overflow”, The Verge, December 5.
Vincent J., 2023, “OpenAI announces GPT-4, the next generation of its AI language model”, March 14. Wu S. et al., 2023, “BloombergGPT: A Large Language Model for Finance”, Bloomberg New York, Bloomberg Baltimore, arXiv:2303.17564v1 [cs.LG], March 23.
Yi J. Et al., 2003, “Sentiment Analyzer: Extracting Sentiments about a Given Topic using Natural Language Processing Techniques”, Proceedings of the IEEE International Conference on Data Mining (ICDM).
Waters R., 2022, “Melanie Mitchell: Seemingly ‘sentient’ AI needs a human in the loop”, Financial Times, August 31.