intelligenza artificiale

Come confrontare due modelli di IA generativa: i primi test di qualità



Indirizzo copiato

Quali benchmark possiamo usare per misurare e confrontare le intelligenze artificiali generative? Ad oggi non vi sono metodologie diffuse di confronto, anche a causa della giovinezza di questi sistemi, ma si cominciano già ad osservare i primi test di confronto dei modelli LLM per la generazione di testo. Il punto

Pubblicato il 13 lug 2023

Antonio Cisternino

Università di Pisa



intelligenza artificiale impegni

Sempre più spesso capita di ascoltare confronti a volte improbabili sul funzionamento delle intelligenze artificiali generative che usiamo, ormai, quotidianamente. È normale quindi chiedersi: come possiamo confrontare due modelli di intelligenza artificiale generativa?

Orientarsi nei meandri dei sistemi di IA generativa

Nella giungla di sistemi è sempre più difficile capire la relazione tra i modelli AI veri e propri rispetto a numerose applicazioni che le usano con declinazioni sempre più difficili da seguire. Ho letto, ad esempio, un articolo che riportava prompt che generano belle immagini utilizzando MidJourney e mi sono chiesto quale sarebbe stato il risultato se avessi usato lo stesso prompt con il modello DALL-E usato da Bing image creator.

Ecco un esempio di questi prompt e il confronto tra MidJourney (sopra) e DALL-E 2 (sotto):

A close-up shot of a raindrop about to fall from a leaf, with a focus on reflection and the vibrant greenery around it, creating a fresh and pure atmosphere.

Immagine che contiene Umidità, rugiada, goccia, naturaDescrizione generata automaticamente
Immagine che contiene goccia, liquido, fluido, rugiadaDescrizione generata automaticamente

Sebbene l’apprezzamento di un’immagine sia largamente soggettivo le ultime versioni di MidJourney sembrano generare immagini più fotorealistiche di quanto siano le analoghe generate da DALL-E 2.

La lunga storia dei benchmark

Il bisogno di misurare in un modo oggettivo le prestazioni di un computer è un bisogno vecchio quasi quanto i computer, ma è l’oggetto del confronto a rendere complessa la preparazione di un programma di benchmark che, eseguito su due sistemi, produca un valore che dica che uno dei è migliore dell’altro in uno specifico ambito.

Se l’oggetto della misura è la velocità di completamento di un calcolo la misura è abbastanza oggettiva, anche se spesso ci si lamenta che i calcoli usati non sono sempre rappresentativi dei programmi in uso. Le polemiche sono decisamente più facili da alimentare quando si analizzano parametri meno facili da misurare come, ad esempio, le prestazioni di un personal computer: in questo caso è necessario misurare parametri come l’interattività, aspetto decisamente più difficile da catturare in modo oggettivo, un sistema operativo infatti alloca le risorse in base alla storia delle richieste e quindi a parità di esecuzione lo stesso sistema può risultare un po’ più o meno performante.

La rappresentatività del benchmark è spesso oggetto di polemiche, si tratta dell’angolo di attacco più facile da prendere: “il mio sistema performa meglio di così con applicativi reali, il benchmark è sintetico e scarsamente rappresentativo!”.

Quali benchmark usare per misurare e confrontare le IA generative

Ma quali benchmark possiamo usare per misurare e confrontare le intelligenze artificiali generative? Ad oggi non vi sono metodologie diffuse di confronto, anche a causa della giovinezza di questi sistemi, ma si cominciano già ad osservare i primi test di confronto dei modelli LLM per la generazione di testo.

Il sito Hugginface dove vengono pubblicati modelli AI ha una leaderboard dove i modelli vengono confrontati su 4 benchmark per chatbot. I requisiti prevedono che il modello sia disponibile sulla piattaforma e quindi non troviamo nella lista né GPT4 di OpenAI né Google Bard.

In questo caso si tratta di benchmark sviluppati in modo tradizionale ed usati per misurare le prestazioni dei modelli, ma recentemente GPT4 è stato oggetto di notizia per aver mostrato ottime performance nel sostenere test per esseri umani e non semplici benchmark sintetici (ha mostrato un incredibile risultato ai test MIT ad esempio con un incredibile 90%). Anche senza considerare il test di Turing è abbastanza naturale usare gli uomini come metro di paragone di un’intelligenza artificiale abbastanza senziente. Ma i test sono test di conoscenza, più raramente di ragionamento, ed una macchina è più brava di un essere umano a ricordare.

Immagine che contiene testo, schermata, Carattere, numeroDescrizione generata automaticamente

Resta il fatto che ad oggi le metriche per misurare le intelligenze artificiali generative non sono pienamente soddisfacenti e spesso sono ingannevoli poiché nascondono numerosi aspetti di questi modelli così complessi, generando spesso aspettative che vengono deluse.

Un confronto tra “umani”

Nel mentre aspettiamo benchmark capaci di confrontare modelli differenti in modo più qualitativo dobbiamo accontentarci dell’interazione con il modello ed una valutazione empirica delle sue prestazioni. Vi sono poi dei requisiti che riducono in modo significativo il numero di modelli disponibili: per esempio i modelli di OpenAI ad oggi sono praticamente gli unici a supportare la lingua italiana (ed un numero significativi di altre lingue). È facile quindi che per ora la scelta nella nostra nazione sia quasi obbligatoria, e la prima prova da effettuare quando troviamo un nuovo sistema è proprio quella di interagire nella nostra lingua.

Usando la funzione VPN del browser Opera è possibile accedere a Google Bard con il proprio account Google, per scoprire che l’interazione in italiano al momento non è possibile.

Immagine che contiene testo, schermata, mappa, CarattereDescrizione generata automaticamente
Immagine che contiene testo, schermata, software, CarattereDescrizione generata automaticamente

In questo momento il sistema supporta solo tre lingue, un numero sicuramente poco soddisfacente per una big tech come Google:

Immagine che contiene testo, schermata, CarattereDescrizione generata automaticamente

E non si tratta di una limitazione da poco visto che Google Docs introdurrà questa tecnologia lasciando fuori la nostra nazione dai suoi benefici e all’uso di Copilot in Office 365 basato su ChatGPT-4 di OpenAI.

Sembra quindi poco utile in questo contesto soffermarsi sui benchmark a meno che non si faccia ricerca o si sviluppino modelli da addestrare.

Ma è sempre necessaria tutta questa intelligenza?

In Toscana usa dire “nel più ci sta il meno”, è evidente che se si usa un modello di AI più “intelligente” sarà più facile e flessibile da inserire nei propri sistemi o flussi di lavoro, ma a volte modelli più piccoli possono mostrare performance decisamente accettabili su uno specifico compito e portare a risparmi, o ad impieghi altrimenti impossibili.

L’esecuzione di un modello è possibile anche sul proprio computer, io ad esempio ho generato un’immagine che può essere letta con un’applicazione che legge codici QR usando un modello di stable diffusion seguendo le opportune istruzioni.

Immagine che contiene arte, schermata, casa, dipintoDescrizione generata automaticamente

Sono disponibili istruzioni analoghe per poter eseguire modelli come LLaMa, capaci comunque di prestazioni più che decenti e spesso sufficienti per svolgere compiti senza dover richiedere accesso alla rete o dover affrontare problemi di privacy nell’uso di servizi cloud esterni.

Conclusioni

Ad oggi GPT-4 è sicuramente il modello da battere (anche se dai primi leak sembra che non sia un modello ma piuttosto un sistema cooperativo di diversi modelli di AI), ma se abbiamo necessità di supportare molte lingue, e in particolare l’Italiano, allora i modelli di OpenAI sembrano quasi obbligatori per chi vuole avvalersi di queste tecnologie, sia usati direttamente che indirettamente (come ad esempio su https://you.com oppure bing.com accedendo con Microsoft Edge).

Al momento sembra difficile che emergano benchmark capaci di effettuare un confronto generale delle performance di questi modelli di intelligenza artificiale. Almeno per ora sembra che il compito di valutarne l’intelligenza o la stupidità sembra che spetti a noi (e non è necessariamente una buona nuova visto che gli LLM ci raggirano abbastanza facilmente come mostrano alcune ricerche sulla disinformazione).

Speciale PNRR

Tutti
Incentivi
Salute digitale
Formazione
Analisi
Sostenibilità
PA
Sostemibilità
Sicurezza
Digital Economy
CODICE STARTUP
Imprenditoria femminile: come attingere ai fondi per le donne che fanno impresa
DECRETI
PNRR e Fascicolo Sanitario Elettronico: investimenti per oltre 600 milioni
IL DOCUMENTO
Competenze digitali, ecco il nuovo piano operativo nazionale
STRUMENTI
Da Istat e RGS gli indicatori per misurare la sostenibilità nel PNRR
STRATEGIE
PNRR – Piano nazionale di Ripresa e Resilienza: cos’è e novità
FONDI
Pnrr, ok della Ue alla seconda rata da 21 miliardi: focus su 5G e banda ultralarga
GREEN ENERGY
Energia pulita: Banca Sella finanzia i progetti green incentivati dal PNRR
TECNOLOGIA SOLIDALE
Due buone notizie digitali: 500 milioni per gli ITS e l’inizio dell’intranet veloce in scuole e ospedali
INNOVAZIONE
Competenze digitali e InPA cruciali per raggiungere gli obiettivi del Pnrr
STRATEGIE
PA digitale 2026, come gestire i fondi PNRR in 5 fasi: ecco la proposta
ANALISI
Value-based healthcare: le esperienze in Italia e il ruolo del PNRR
Strategie
Accordi per l’innovazione, per le imprese altri 250 milioni
Strategie
PNRR, opportunità e sfide per le smart city
Strategie
Brevetti, il Mise mette sul piatto 8,5 milioni
Strategie
PNRR e opere pubbliche, la grande sfida per i Comuni e perché bisogna pensare digitale
Formazione
Trasferimento tecnologico, il Mise mette sul piatto 7,5 milioni
Strategie
PSN e Strategia Cloud Italia: a che punto siamo e come supportare la PA in questo percorso
Dispersione idrica
Siccità: AI e analisi dei dati possono ridurre gli sprechi d’acqua. Ecco gli interventi necessari
PNRR
Cloud, firmato il contratto per l’avvio di lavori del Polo strategico
Formazione
Competenze digitali, stanziati 48 milioni per gli Istituti tecnologici superiori
Iniziative
Digitalizzazione delle reti idriche: oltre 600 milioni per 21 progetti
Competenze e competitività
PNRR, così i fondi UE possono rilanciare la ricerca e l’Università
Finanziamenti
PNRR, si sbloccano i fondi per l’agrisolare
Sanità post-pandemica
PNRR, Missione Salute: a che punto siamo e cosa resta da fare
Strategie
Sovranità e autonomia tecnologica nazionale: come avviare un processo virtuoso e sostenibile
La relazione
Pnrr e PA digitale, l’alert della Corte dei conti su execution e capacità di spesa
L'editoriale
Elezioni 2022, la sfida digitale ai margini del dibattito politico
Strategie
Digitale, il monito di I-Com: “Senza riforme Pnrr inefficace”
Transizione digitale
Pnrr: arrivano 321 milioni per cloud dei Comuni, spazio e mobilità innovativa
L'analisi I-COM
Il PNRR alla prova delle elezioni: come usare bene le risorse e centrare gli obiettivi digitali
Cineca
Quantum computing, una svolta per la ricerca: lo scenario europeo e i progetti in corso
L'indice europeo
Desi, l’Italia scala due posizioni grazie a fibra e 5G. Ma è (ancora) allarme competenze
L'approfondimento
PNRR 2, ecco tutte le misure per cittadini e imprese: portale sommerso, codice crisi d’impresa e sismabonus, cosa cambia
Servizi digitali
PNRR e trasformazione digitale: ecco gli investimenti e le riforme previste per la digitalizzazione della PA
Legal health
Lo spazio europeo dei dati sanitari: come circoleranno le informazioni sulla salute nell’Unione Europea
Servizi digitali
PNRR e PA digitale: non dimentichiamo la dematerializzazione
Digital Healthcare transformation
La trasformazione digitale degli ospedali
Governance digitale
PA digitale, è la volta buona? Così misure e risorse del PNRR possono fare la differenza
Servizi digitali
Comuni e digitale, come usare il PNRR senza sbagliare
La survey
Pnrr e digitale accoppiata vincente per il 70% delle pmi italiane
Missione salute
Fascicolo Sanitario Elettronico alla prova del PNRR: limiti, rischi e opportunità
Servizi pubblici
PNRR: come diventeranno i siti dei comuni italiani grazie alle nuove risorse
Skill gap
PNRR, la banda ultra larga crea 20.000 nuovi posti di lavoro
Il Piano
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUMPA2022
PNRR e trasformazione digitale: rivedi i Talk di FORUM PA 2022 in collaborazione con le aziende partner
I contratti
Avio, 340 milioni dal Pnrr per i nuovi propulsori a metano
Next Generation EU
PNRR, a che punto siamo e cosa possono aspettarsi le aziende private
Fondi
Operativo il nuovo portale del MISE con tutti i finanziamenti per le imprese
Servizi comunali
Il PNRR occasione unica per i Comuni digitali: strumenti e risorse per enti e cittadini
Healthcare data platform
PNRR dalla teoria alla pratica: tecnologie e soluzioni per l’innovazione in Sanità
Skill
Competenze digitali, partono le Reti di facilitazione
Gli obiettivi
Scuola 4.0, PNRR ultima chance: ecco come cambierà il sistema formativo
Sistema Paese
PNRR 2, è il turno della space economy
FORUM PA 2022
FORUM PA 2022: la maturità digitale dei comuni italiani rispetto al PNRR
Analisi
PNRR: dalla Ricerca all’impresa, una sfida da cogliere insieme
Innovazione
Pnrr, il Dipartimento per la Trasformazione digitale si riorganizza
FORUM PA 2022
PA verde e sostenibile: il ruolo di PNRR, PNIEC, energy management e green public procurement
Analisi
PNRR, Comuni e digitalizzazione: tutto su fondi e opportunità, in meno di 3 minuti. Guarda il video!
Rapporti
Competenze digitali e servizi automatizzati pilastri del piano Inps
Analisi
Attuazione del PNRR: il dialogo necessario tra istituzioni e società civile. Rivedi lo Scenario di FORUM PA 2022
Progetti
Pnrr, fondi per il Politecnico di Torino. Fra i progetti anche IS4Aerospace
Analisi
PNRR, Colao fa il punto sulla transizione digitale dell’Italia: «In linea con tutte le scadenze»
La Svolta
Ict, Istat “riclassifica” i professionisti. Via anche al catalogo dati sul Pnrr
Analisi
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUM PA 2022
Ecosistema territoriale sostenibile: l’Emilia Romagna tra FESR e PNRR
Il Piano
Innovazione, il Mise “centra” gli obiettivi Pnrr: attivati 17,5 miliardi
Analisi
PNRR: raggiunti gli obiettivi per il primo semestre 2022. Il punto e qualche riflessione
Analisi
PNRR: dal dialogo tra PA e società civile passa il corretto monitoraggio dei risultati, tra collaborazione e identità dei luoghi
Webinar
Comuni e PNRR: un focus sui bandi attivi o in pubblicazione
Analisi
Formazione 4.0: cos’è e come funziona il credito d’imposta
PA e Sicurezza
PA e sicurezza informatica: il ruolo dei territori di fronte alle sfide della digitalizzazione
PA e sicurezza
PNRR e servizi pubblici digitali: sfide e opportunità per Comuni e Città metropolitane
Water management
Water management in Italia: verso una transizione “smart” e “circular” 
LE RISORSE
Transizione digitale, Simest apre i fondi Pnrr alle medie imprese
Prospettive
Turismo, cultura e digital: come spendere bene le risorse del PNRR
Analisi
Smart City: quale contributo alla transizione ecologica
Decarbonizzazione
Idrogeno verde, 450 milioni € di investimenti PNRR, Cingolani firma
Unioncamere
PNRR, imprese in ritardo: ecco come le Camere di commercio possono aiutare
I fondi
Industria 4.0: solo un’impresa su tre pronta a salire sul treno Pnrr
CODICE STARTUP
Imprenditoria femminile: come attingere ai fondi per le donne che fanno impresa
DECRETI
PNRR e Fascicolo Sanitario Elettronico: investimenti per oltre 600 milioni
IL DOCUMENTO
Competenze digitali, ecco il nuovo piano operativo nazionale
STRUMENTI
Da Istat e RGS gli indicatori per misurare la sostenibilità nel PNRR
STRATEGIE
PNRR – Piano nazionale di Ripresa e Resilienza: cos’è e novità
FONDI
Pnrr, ok della Ue alla seconda rata da 21 miliardi: focus su 5G e banda ultralarga
GREEN ENERGY
Energia pulita: Banca Sella finanzia i progetti green incentivati dal PNRR
TECNOLOGIA SOLIDALE
Due buone notizie digitali: 500 milioni per gli ITS e l’inizio dell’intranet veloce in scuole e ospedali
INNOVAZIONE
Competenze digitali e InPA cruciali per raggiungere gli obiettivi del Pnrr
STRATEGIE
PA digitale 2026, come gestire i fondi PNRR in 5 fasi: ecco la proposta
ANALISI
Value-based healthcare: le esperienze in Italia e il ruolo del PNRR
Strategie
Accordi per l’innovazione, per le imprese altri 250 milioni
Strategie
PNRR, opportunità e sfide per le smart city
Strategie
Brevetti, il Mise mette sul piatto 8,5 milioni
Strategie
PNRR e opere pubbliche, la grande sfida per i Comuni e perché bisogna pensare digitale
Formazione
Trasferimento tecnologico, il Mise mette sul piatto 7,5 milioni
Strategie
PSN e Strategia Cloud Italia: a che punto siamo e come supportare la PA in questo percorso
Dispersione idrica
Siccità: AI e analisi dei dati possono ridurre gli sprechi d’acqua. Ecco gli interventi necessari
PNRR
Cloud, firmato il contratto per l’avvio di lavori del Polo strategico
Formazione
Competenze digitali, stanziati 48 milioni per gli Istituti tecnologici superiori
Iniziative
Digitalizzazione delle reti idriche: oltre 600 milioni per 21 progetti
Competenze e competitività
PNRR, così i fondi UE possono rilanciare la ricerca e l’Università
Finanziamenti
PNRR, si sbloccano i fondi per l’agrisolare
Sanità post-pandemica
PNRR, Missione Salute: a che punto siamo e cosa resta da fare
Strategie
Sovranità e autonomia tecnologica nazionale: come avviare un processo virtuoso e sostenibile
La relazione
Pnrr e PA digitale, l’alert della Corte dei conti su execution e capacità di spesa
L'editoriale
Elezioni 2022, la sfida digitale ai margini del dibattito politico
Strategie
Digitale, il monito di I-Com: “Senza riforme Pnrr inefficace”
Transizione digitale
Pnrr: arrivano 321 milioni per cloud dei Comuni, spazio e mobilità innovativa
L'analisi I-COM
Il PNRR alla prova delle elezioni: come usare bene le risorse e centrare gli obiettivi digitali
Cineca
Quantum computing, una svolta per la ricerca: lo scenario europeo e i progetti in corso
L'indice europeo
Desi, l’Italia scala due posizioni grazie a fibra e 5G. Ma è (ancora) allarme competenze
L'approfondimento
PNRR 2, ecco tutte le misure per cittadini e imprese: portale sommerso, codice crisi d’impresa e sismabonus, cosa cambia
Servizi digitali
PNRR e trasformazione digitale: ecco gli investimenti e le riforme previste per la digitalizzazione della PA
Legal health
Lo spazio europeo dei dati sanitari: come circoleranno le informazioni sulla salute nell’Unione Europea
Servizi digitali
PNRR e PA digitale: non dimentichiamo la dematerializzazione
Digital Healthcare transformation
La trasformazione digitale degli ospedali
Governance digitale
PA digitale, è la volta buona? Così misure e risorse del PNRR possono fare la differenza
Servizi digitali
Comuni e digitale, come usare il PNRR senza sbagliare
La survey
Pnrr e digitale accoppiata vincente per il 70% delle pmi italiane
Missione salute
Fascicolo Sanitario Elettronico alla prova del PNRR: limiti, rischi e opportunità
Servizi pubblici
PNRR: come diventeranno i siti dei comuni italiani grazie alle nuove risorse
Skill gap
PNRR, la banda ultra larga crea 20.000 nuovi posti di lavoro
Il Piano
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUMPA2022
PNRR e trasformazione digitale: rivedi i Talk di FORUM PA 2022 in collaborazione con le aziende partner
I contratti
Avio, 340 milioni dal Pnrr per i nuovi propulsori a metano
Next Generation EU
PNRR, a che punto siamo e cosa possono aspettarsi le aziende private
Fondi
Operativo il nuovo portale del MISE con tutti i finanziamenti per le imprese
Servizi comunali
Il PNRR occasione unica per i Comuni digitali: strumenti e risorse per enti e cittadini
Healthcare data platform
PNRR dalla teoria alla pratica: tecnologie e soluzioni per l’innovazione in Sanità
Skill
Competenze digitali, partono le Reti di facilitazione
Gli obiettivi
Scuola 4.0, PNRR ultima chance: ecco come cambierà il sistema formativo
Sistema Paese
PNRR 2, è il turno della space economy
FORUM PA 2022
FORUM PA 2022: la maturità digitale dei comuni italiani rispetto al PNRR
Analisi
PNRR: dalla Ricerca all’impresa, una sfida da cogliere insieme
Innovazione
Pnrr, il Dipartimento per la Trasformazione digitale si riorganizza
FORUM PA 2022
PA verde e sostenibile: il ruolo di PNRR, PNIEC, energy management e green public procurement
Analisi
PNRR, Comuni e digitalizzazione: tutto su fondi e opportunità, in meno di 3 minuti. Guarda il video!
Rapporti
Competenze digitali e servizi automatizzati pilastri del piano Inps
Analisi
Attuazione del PNRR: il dialogo necessario tra istituzioni e società civile. Rivedi lo Scenario di FORUM PA 2022
Progetti
Pnrr, fondi per il Politecnico di Torino. Fra i progetti anche IS4Aerospace
Analisi
PNRR, Colao fa il punto sulla transizione digitale dell’Italia: «In linea con tutte le scadenze»
La Svolta
Ict, Istat “riclassifica” i professionisti. Via anche al catalogo dati sul Pnrr
Analisi
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUM PA 2022
Ecosistema territoriale sostenibile: l’Emilia Romagna tra FESR e PNRR
Il Piano
Innovazione, il Mise “centra” gli obiettivi Pnrr: attivati 17,5 miliardi
Analisi
PNRR: raggiunti gli obiettivi per il primo semestre 2022. Il punto e qualche riflessione
Analisi
PNRR: dal dialogo tra PA e società civile passa il corretto monitoraggio dei risultati, tra collaborazione e identità dei luoghi
Webinar
Comuni e PNRR: un focus sui bandi attivi o in pubblicazione
Analisi
Formazione 4.0: cos’è e come funziona il credito d’imposta
PA e Sicurezza
PA e sicurezza informatica: il ruolo dei territori di fronte alle sfide della digitalizzazione
PA e sicurezza
PNRR e servizi pubblici digitali: sfide e opportunità per Comuni e Città metropolitane
Water management
Water management in Italia: verso una transizione “smart” e “circular” 
LE RISORSE
Transizione digitale, Simest apre i fondi Pnrr alle medie imprese
Prospettive
Turismo, cultura e digital: come spendere bene le risorse del PNRR
Analisi
Smart City: quale contributo alla transizione ecologica
Decarbonizzazione
Idrogeno verde, 450 milioni € di investimenti PNRR, Cingolani firma
Unioncamere
PNRR, imprese in ritardo: ecco come le Camere di commercio possono aiutare
I fondi
Industria 4.0: solo un’impresa su tre pronta a salire sul treno Pnrr

Articoli correlati

Articolo 1 di 4