Secondo una recente ricerca coordinata da Debora Weber-Wulff, docente di media e informatica presso l’Università di Scienze Applicate HTW di Berlino, è relativamente semplice ingannare la capacità di 14 strumenti – tra cui Turnitin, GPT Zero e Compilatio – di rilevare un testo scritto da ChatGPT.
Già a poche settimane dal lancio del chatbot di OpenAI, a novembre del 2022, si temeva che gli studenti lo avrebbero usato per scrivere saggi passabili in pochi secondi. E allora in risposta a questi timori, sono state numerose le startup che hanno iniziato a creare prodotti che ad oggi promettono di individuare se il testo è stato scritto da un essere umano o da una macchina. Secondo la ricerca della Wulff, tuttavia, questi strumenti non sarebbero del tutto attendibili.
Come è stata condotta la ricerca
Il team, composto da un gruppo di ricercatori di diverse università, ha scoperto che tutti gli strumenti testati hanno faticato a rilevare il testo generato da ChatGPT, che era stato leggermente riorganizzato dagli esseri umani, suggerendo che tutto ciò che gli studenti devono fare è adattare leggermente i saggi generati dall’IA per superare i rilevatori. La maggior parte di questi strumenti funziona cercando i segni distintivi del testo generato dall’IA, tra cui la ripetizione, e calcolando poi la probabilità che il testo sia stato generato dall’IA.
I ricercatori hanno valutato gli strumenti scrivendo brevi saggi di livello universitario su una varietà di argomenti, tra cui ingegneria civile, informatica, economia, storia, linguistica e letteratura. Hanno scritto loro stessi i saggi per essere certi che il testo non fosse già online e che quindi potesse essere già stato usato per addestrare ChatGPT.
Ogni ricercatore ha scritto un testo aggiuntivo in bosniaco, ceco, tedesco, lettone, slovacco, spagnolo o svedese. Questi testi sono stati passati attraverso lo strumento di traduzione AI DeepL o Google Translate per tradurli in inglese.
Il team ha poi utilizzato ChatGPT per generare altri due testi ciascuno, che sono stati leggermente modificati nel tentativo di nascondere che erano stati generati dall’intelligenza artificiale. Una serie è stata modificata manualmente dai ricercatori, che hanno riordinato le frasi e scambiato le parole, mentre un’altra è stata riscritta utilizzando uno strumento di parafrasi AI chiamato Quillbot. Alla fine, i ricercatori hanno avuto a disposizione 54 documenti su cui testare gli strumenti di rilevamento.
Hanno scoperto che, mentre gli strumenti erano bravi a identificare il testo scritto da un umano (con una precisione media del 96%), se la cavavano peggio quando si trattava di individuare il testo generato dall’intelligenza artificiale, soprattutto se modificato. Sebbene gli strumenti abbiano identificato il testo ChatGPT con una precisione del 74%, questa è scesa al 42% quando il testo generato da ChatGPT è stato leggermente modificato.
Gli strumenti di rilevazione utilizzati nella ricerca
Vediamo ora quali sono gli strumenti di rilevazione utilizzati per portare a termine la ricerca.
Compilatio
L’opinione dei ricercatori di Compilatio, che produce uno degli strumenti testati dai ricercatori, è che è importante ricordare che il suo sistema indica solo i passaggi sospetti, che classifica come potenziali plagi o contenuti potenzialmente generati dall’IA. “Spetta alle scuole, sostengono, e agli insegnanti che contrassegnano i documenti analizzati convalidare o imputare le conoscenze effettivamente acquisite dall’autore del documento, ad esempio mettendo in atto ulteriori mezzi di indagine – interrogazione orale, domande aggiuntive in un ambiente controllato in classe”.
Gli strumenti di Compilatio fanno parte di un vero e proprio approccio didattico che incoraggia l’apprendimento di buone pratiche di ricerca, scrittura e citazione, è un aiuto alla correzione, non un correttore.
Turnitin
Il modello di rilevamento di Turnitin si basa sulle notevoli differenze tra la natura più idiosincratica e imprevedibile della scrittura umana e le firme statistiche molto prevedibili del testo generato dall’intelligenza artificiale. Annie Chechitelli, Chief Product Officer di Turnitin, afferma “la nostra funzione di rilevamento della scrittura AI si limita ad avvisare l’utente della presenza della scrittura AI, evidenziando le aree in cui potrebbe essere necessaria un’ulteriore discussione. Non determina l’uso appropriato o inappropriato degli strumenti di scrittura AI, né se tale uso costituisca un imbroglio o una cattiva condotta in base alla valutazione e alle istruzioni fornite dall’insegnante”.
GPT Zero
GPT Zero è uno strumento gratuito, per cui gli utenti devono semplicemente copiare e incollare il testo che desiderano esaminare, fare clic sul pulsante “rileva testo” e aspettare il risultato. Lo strumento impiega una serie di complessi algoritmi e caratteristiche statistiche per valutare i contenuti; è dotato di una grande quantità di dati sia sui testi scritti dall’essere umano, compresi i notiziari, sia sulla semantica tipicamente utilizzata nei testi generati dall’intelligenza artificiale. Imparando dai modelli di intelligenza artificiale esistenti, GPT Zero è in grado di calcolare e prevedere la probabilità delle parole in una frase generata dall’intelligenza artificiale; è in grado di rilevare il gergo da una serie di sistemi popolari come Chat GPT, GPT-3, GPT-4, LaMDa di Google e Bard.
Le reazioni alla ricerca
Secondo Vitomir Kovanović, docente senior che costruisce modelli di apprendimento automatico e di intelligenza artificiale presso la University of South Australia, questo tipo di studi evidenzia anche quanto siano obsoleti gli attuali metodi di valutazione del lavoro degli studenti da parte delle università.
Daphne Ippolito, ricercatrice senior di Google specializzata nella generazione del linguaggio naturale, che non ha lavorato al progetto, solleva un’altra preoccupazione: se i sistemi di rilevamento automatico devono essere impiegati in ambito educativo, è fondamentale capire il loro tasso di falsi positivi, poiché accusare erroneamente uno studente di aver imbrogliato può avere conseguenze disastrose per la sua carriera accademica. Anche il tasso di falsi negativi è importante, perché se troppi testi generati dall’IA passano per scritti da esseri umani, il sistema di rilevamento non è utile.
Sasha Luccioni, ricercatore presso la startup di intelligenza artificiale HuggingFace sostiene inoltre che, sebbene gli studi che mettono in luce le carenze dei cosiddetti sistemi di rilevamento dei testi da parte dell’intelligenza artificiale siano molto importanti, sarebbe stato utile ampliare l’ambito dello studio agli strumenti di intelligenza artificiale al di là di ChatGPT.
La posizione di OpenAI
Sappiamo da tempo che gli strumenti destinati a rilevare i testi scritti dall’intelligenza artificiale non sempre funzionano come dovrebbero. All’inizio di quest’anno, OpenAI aveva presentato uno strumento progettato per rilevare il testo prodotto da ChatGPT, ammettendo che segnalava solo il 26% del testo scritto dall’AI come “probabilmente scritto dall’AI”.
Lo strumento è stato chiuso a causa del basso tasso di accuratezza; OpenAI ha fatto sapere che intende sviluppare e implementare meccanismi che consentano agli utenti di capire se i contenuti audio o visivi sono generati dall’AI.
Tra le principali perplessità di OpenAI c’è quella relativa al fatto che il classificatore non è mai stato molto bravo a catturare il testo generato dall’AI e ha avvertito che potrebbe produrre falsi positivi, cioè un testo scritto da esseri umani etichettato come generato dall’intelligenza artificiale.
Anche la disinformazione prodotto tramite AI è stata oggetto di preoccupazione: alcuni studi hanno dimostrato che i testi da essa generati, come i tweet, potrebbero essere più convincenti di quelli scritti dagli esseri umani. Sembra che per il momento nessuno, nemmeno OpenAI, abbia risposte su come gestire tutto questo. L’opinione ricorrente è che, anche se alcuni vengono scoperti, sarà sempre più difficile distinguere facilmente i prodotti dell’AI dal lavoro umano.
Il nostro classificatore non è completamente affidabile, dicono gli esperti di OpenAI, nelle nostre valutazioni su un “challenge set” di testi in inglese, ha identificato correttamente il 26% dei testi scritti dall’IA (veri positivi) come “probabilmente scritti dall’IA”, mentre ha erroneamente etichettato un testo scritto dall’uomo come scritto dall’IA il 9% delle volte (falsi positivi). L’affidabilità del nostro classificatore migliora in genere con l’aumentare della lunghezza del testo in ingresso. Rispetto al nostro classificatore rilasciato in precedenza, questo nuovo classificatore è significativamente più affidabile su testi provenienti da sistemi di intelligenza artificiale più recenti.