Non appena annunciata la nuova versione di ChatGPT, la versione 4, è ripartito il solito tam tam per commentare quanto sia divenuta più o meno intelligente l’IA più chiacchierata dell’anno. Il nuovo atteggiamento di OpenAI ha contribuito ad alimentare il dibattito poiché sono state rese disponibili molte meno informazioni su questo nuovo aggiornamento, ad esempio non hanno detto di quanto è stato ampliato l’addestramento e cosa hanno fatto di preciso per rendere più preciso il chat bot.
Cosa sappiamo (poco) di ChatGpt4
Si è rafforzato così il dibattito sull’apertura dei modelli di intelligenza artificiale.
Il co-fondatore di OpenAI Sutskever ha risposto a The Verge sostenendo che il cambio di politica sia in qualche modo dovuto a tutelare l’uso improprio di tecnologie di Intelligenza Artificiale Generativa (AGI) vista la crescita del potere espressivo di queste tecnologie.

Se GPT-3.5 era un modello addestrato con oltre 175 miliardi di parametri si vocifera come la nuova versione, GPT-4, sia stata addestrata con 500 volte questo numero portando a quasi 100.000 miliardi i parametri usati per addestrare il nuovo modello. Si potrebbe essere quindi tentati di pensare che l’addestramento si sia limitato ad aumentare le risorse computazionali e addestrare un modello ancora più grande e raffinato. Come si può vedere dall’evoluzione di GPT di OpenAI illustrata da Yogesh Haribhau Kulkarni, ad ogni iterazione non sono solo cresciuti i parametri e il corpora utilizzato per l’addestramento, ma anche le capacità e le tecniche impiegate per condizionarne il comportamento.
Nell’annuncio di GPT-4 hanno fatto notizia le nuove capacità non verbali del modello, capaci di analizzare immagini e sintetizzare contenuti multimediali, ma queste nuove capacità non sono ancora accessibili anche se molti commentatori le hanno presentate come test effettuati.
OpenAI ha però dichiarato che il modello GPT-4 è disponibile al momento solo a chi ha sottoscritto il servizio ChatGPT Plus (al costo di 20$/mese), e allo stesso tempo Microsoft ha confermato che Bing usa il modello GPT-4 nel nuovo servizio di ricerca di Bing, consentendo, seppur in modo differente dal prompt di ChatGPT, di provare il nuovo modello.
I progressi di ChatGpt4 di OpenAi
Nonostante la nuova politica di comunicazione della compagnia alcune informazioni sono state rilasciate sulla pagina relativa alla ricerca sul nuovo modello. Il nuovo modello alla prova di esami si comporta decisamente meglio del suo predecessore, posizionandosi nel primo decile (e non nell’ultimo come GPT-3.5).
Il nuovo modello ha buone notizie per noi italiani, si comporta in modo decisamente efficace con l’italiano come mostrato dall’accuratezza del test MMLU effettuato con varie lingue.
L’input visuale è sicuramente la novità più rilevante anche se, come già detto, la funzione non è ancora accessibile per poterla provare. L’input visuale, oltre a riconoscere elementi nelle immagini, è capace di analizzare del testo contenuto in immagini come mostrato in figura:

Anche l’analisi di immagini sembra andare ben oltre il riconoscimento di oggetti:

Il nuovo modello sembra “sbagliare” meno dei predecessori, quantomeno sui benchmark che usa OpenAI per valutarne le prestazioni.
GPT-4 alla (nostra) prova
L’uso del modello GPT-4, anche su ChatGPT Plus, è ancora contingentato, segno che il carico computazionale del nuovo modello è al momento più oneroso dei predecessori (va detto che il modello gpt-3.5-turbo alla base di ChatGPT 3.5 è una versione molto ottimizzata che è stata resa disponibile successivamente al primo rilascio della prima versione e che riduce significativamente il costo) e contingentato nell’uso: accetta infatti solo 50-100 messaggi ogni quattro ore, anche se il prompt accettato è molto più lungo di quello disponibile nella versione precedente.
Dalle prime prove le risposte di GPT-4 sembrano decisamente più articolate e corrette rispetto a GPT-3.5.
Anche su domande matematiche il nuovo modello sembra essere decisamente convincente rispetto al predecessore:
Anche quando ho provato a far generare codice o analizzarlo il nuovo modello ha dimostrato di essere più accurato e non cadere in tranelli che in precedenza non era in grado di individuare. Ma alcuni programmi generati continuano ad essere “quasi corretti”, lasciando (per fortuna) ancora spazio ad un miglioramento e limitando almeno in parte l’applicabilità. Come è ormai evidente l’arte è quella di scrivere i prompt giusti per utilizzare proficuamente il sistema, e questo vale anche per il nuovo modello anche se molto più accurato del precedente.
L’intelligenza artificiale sofista
Anche GPT-4 nelle prove fatte può essere ingannata (e infatti in Bing sono ammesse al massimo 15 interazioni in una chat per evitare che lunghe conversazioni la possano confondere), come ad esempio quando viene proposto un vecchio indovinello:
La risposta data contiene errori, e se lo facciamo notare aggiusta il tiro sbagliando di nuovo:
Quello che colpisce è come la dialettica sia convincente anche nel fornire risposte errate. Ricorda un po’ il movimento dei sofisti nell’antica Grecia che si esercitavano a sostenere la propria tesi indipendentemente dal suo grado di verità. Si tratta di una caratteristica molto pericolosa di questo tipo di intelligenze artificiali, e più diverranno sofisticate più sarà difficile individuare errori senza farsi “intortare” dalla sua dialettica molto convincente.
Un’evoluzione rivoluzionaria
La mia personale impressione è che GPT-4 funzioni decisamente meglio rispetto a GPT-3, anche in test di riassunto, individuazione di significati nei testi, e nell’esposizione decisamente più diretta concisa e meno logorroica. Ma in un certo senso è una naturale evoluzione del predecessore e sembra che la rivoluzione vi sia stata e ora si lavori per migliorare sapendo, almeno per un po’, quale strada percorrere. Sembra essere rivoluzionario invece l’aspetto multimodale: la possibilità di fornire input visuali ed ottenere output multimediali lascia intravedere numerose nuove applicazioni. Non vedo l’ora di provare se è vero come sembra che fornendo una foto con molti palloncini si possa chiedere cosa succede se si tagliano i fili ed ottenere una risposta sensata, o di chiedere cosa posso cucinare data la foto del contenuto del mio frigo.
La demo in cui si presenta uno schizzo di un sito Web e GPT-4 genera una pagina Web funzionante è decisamente impressionante, ma nuovamente è difficile valutare l’impatto fino a quando non sarà possibile usare l’input visuale.
Insomma, GPT-4 è sicuramente un’evoluzione degna di nota rispetto al modello precedente. Il cambio di rotta nella condivisione del modello da parte di OpenAI pone questioni etiche non indifferenti, e se alcuni commenti possono sembrare convincenti, resta il fatto che le Corporation Americane hanno mostrato che difficilmente possono svolgere il ruolo di super partes che custodisce un bene per il genere umano. Ma anche la ricerca potrebbe soffrire da questo mutato atteggiamento, rallentando di modelli alternativi e aperti su cui la ricerca sta già lavorando.
La versione testuale oggi disponibile è molto migliore della precedente ed accetta input più lunghi, ma non mi ha fatto dire “wow!”. Mi riservo il “wow!” per quando sarà possibile provare la versione completa.
@RIPRODUZIONE RISERVATA