Se il buongiorno si vede dal mattino, allora possiamo ben sperare per un 2025 ricco di novità per l’Intelligenza Artificiale generativa. A gennaio, sono stati rilasciati i nuovi modelli multimodali della famiglia Qwen-2.5VL sviluppati dalla cinese Alibaba, e i passi in avanti rispetto alla precedente versione, ma anche rispetto ai migliori competitor, sono significativi.
Parliamo di AI generativa multimodale (multimodal AI), da qualche anno forse la tecnologia per la quale ci sono maggiori aspettative in quanto a potenziali applicazioni.
In realtà, sono passati solo due anni da quando, a partire dal 14 dicembre 2023, OpenAI faceva uscire GPT-4 with Vision, un modello in grado di combinare le capacità della comprensione del linguaggio, della computer vision e del riconoscimento dell’audio in un unico modello. Da allora abbiamo assistito a continui progressi, soprattutto nell’integrazione di linguaggio, immagini e video.
Indice degli argomenti
I nuovi modelli della famiglia Qwen-2.5VL
Alla Fondazione Kessler [1] abbiamo provato in anteprima Qwen-2.5VL su una serie di test in lingua italiana. Il modello è disponibile sulla piattaforma Hugging Face [2] ed è ben documentato con un articolo sul repository pubblico arXiv [3]. Qwen-2.5VL viene rilasciato con una licenza che ne permette l’uso sia per scopi di ricerca sia per scopi commerciali fino ad un massimo di 100 milioni di utenti attivi su base mensile. Possiamo accedere ai pesi della rete neurale, cioè i parametri che il modello ha appreso durante l’addestramento, al software per utilizzare il modello e al software per raffinare l’addestramento (finetuning). Come nella maggior parte di casi analoghi (ad esempio i modelli della famiglia Llama rilasciati da META [4]), non vengono invece forniti i dati di addestramento (testi, immagini, video, ecc.), per cui, anche ammettendo di disporre dell’hardware adeguato, non è possibile riprodurre Qwen-2.5VL. Sui dati utilizzati per addestrare il modello sappiamo che sono nell’ordine dei 4mila miliardi di token (unità più piccole delle parole) e che sono state adottate raffinate strategie per garantire alta qualità dei contenuti utilizzati.
Alibaba ha rilasciato tre modelli multimodali di dimensioni diverse: con 3 miliardi di parametri, 7 miliardi e 72 miliardi, ognuno dei quali ha requisiti di hardware diversi. Per fare un esempio, il modello intermedio da 7 miliardi, la versione che abbiamo testato, gira “in inferenza” (quando facciamo delle domande al modello) su una GPU da 40GB di memoria, acquistabile attualmente con una spesa intorno ai 5mila euro.
La versione più performante, quella da 72 miliardi di parametri, è stata valutata su una serie di benchmark multimodali in inglese, con ottimi risultati. Prendiamo ad esempio il dataset MMMLU (sta per Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI [5]), che comprende 11 mila domande a scelta multipla su immagini (visual question answering) raccolte da esami universitari, quiz e libri di testo, su varie discipline, tra cui arte, economia, scienze, medicina, scienze sociali, e ingegneria. Da notare che le domande comprendono 30 tipi di immagini altamente eterogenee, come grafici, diagrammi, mappe, tabelle, spartiti musicali e anche strutture chimiche. Bene, su questo dataset specialistico e particolarmente difficile, Qwen-2.5VL-72B risponde correttamente nel 70,2% casi, superando anche modelli cosiddetti “chiusi” considerati allo stato dell’arte, come GPT-4o di OpenAI, che si ferma al 69,1% di accuratezza. E’ un segnale importante: la distanza tra modelli proprietari e modelli aperti (meglio sarebbe parzialmente aperti), si sta progressivamente accorciando.
Test dell’IA multimodale in italiano
Abbiamo detto delle prestazioni con domande a scelta multipla su immagini in inglese. Ma che succede se al posto delle immagini usiamo dei video, e se al posto dell’inglese usiamo l’italiano? Abbiamo provato la versione Qwen-2.5VL con 7 miliardi di parametri sul benchmark MAIA (Multimodal AI Assessment – [6]), una serie di domande in italiano che mettono alla prova le capacità del modello di interpretare il contenuto di un video. Per la stessa domanda ci sono due tipi di test. Quelli a scelta binaria, dove, data una domanda, il modello deve scegliere tra due possibili risposte simili, delle quali solo una è corretta. E poi ci sono test a risposta aperta, dove, data la stessa domanda, il modello è libero di generare una risposta come meglio crede. Abbiamo selezionato da YouTube 100 video con scene tipiche delle tradizioni italiane, ad esempio una cena in compagnia, una partita amatoriale di pallone, ciascun video con una durata di circa 30’’. Poi abbiamo raccolto 2400 domande sui video, e per ognuna otto coppie di risposte, una giusta e una sbagliata, per un totale di 19200 coppie. Il modello deve rispondere alla domanda solamente sulla base del contenuto del video, senza considerare l’audio.
Siamo rimasti positivamente sorpresi! Qwen-2.5VL-7B ha risposto correttamente all’84% dei test a scelta binaria, utilizzando solamente 32 frame per ciascun video (consideriamo che 30’’ di video tipicamente contengono 1800 frame).

Figura 1: alcuni frame di un video del benchmark MAIA.
La Figura 1 mostra alcuni frame di un video in cui un pizzaiolo prepara una pizza in un forno a legna. Come esempio consideriamo la seguente domanda e le due possibili risposte:
Domanda: Dove viene appoggiata la pizza dopo che è uscita dal forno?
Risposta 1 (corretta): la pizza viene appoggiata su un piatto.
Risposta 2 (sbagliata): la pizza viene appoggiata su un tavolo.
Per selezionare la risposta corretta il modello deve individuare nel video gli oggetti menzionati (grounding), ad esempio pizza e forno, e deve interpretare correttamente il significato del verbo “appoggiare”, in particolare le relazioni spaziali coinvolte nell’evento (ragionamento spaziale). E’ evidente come solamente integrando abilità di riconoscimento visuale, di comprensione del linguaggio e di ragionamento si possa ottenere la scelta della risposta corretta.
Il secondo test, quello con risposta aperta, sfrutta le capacità generative di Qwen-2.5VL-7B. Riproponiamo la stessa domanda “Dove viene appoggiata la pizza dopo che è uscita dal forno?”, ma questa volta lasciamo che il modello produca la risposta che ritiene appropriata, e successivamente valutiamo la correttezza della risposta. Qui l’accuratezza nel rispondere correttamente scende al 61%, un risultato buono ma che evidenzia alcuni limiti del modello. A difesa di Qwen-2.5VL-7B, c’è da dire che anche le persone trovano più difficile produrre risposte aperte corrette piuttosto che scegliere tra due opzioni. Ma i modelli di IA multimodale hanno comportamenti anomali che noi umani normalmente non abbiamo: alcune volte generano le cosiddette “allucinazioni”, vale a dire risposte che sono plausibili in un certo contesto, ma che non sono vere. Ad esempio, il modello potrebbe rispondere che la pizza è stata appoggiata in un contenitore per l’asporto, un evento certamente possibile e anche abbastanza comune, ma che purtroppo non ha riscontro nel nostro video.
Il problema delle allucinazioni nei modelli di IA multimodale
Questo ci porta a chiederci come sia possibile che sofisticati modelli di IA multimodale possano, fortunatamente in pochi casi, produrre evidenti allucinazioni, tali da mettere in discussione la loro affidabilità. Ricordiamoci che i modelli di IA multimodale sono stati addestrati per generare descrizioni testuali di immagini o di video, e che la generazione avviene in modalità puramente statistica, scegliendo, una alla volta, la parola più probabile data la domanda iniziale e le informazioni riconosciute nel video. Il problema sta nel rapporto tra il componente visuale (visual transformer) e il componente linguistico (LLM, large language model) del modello multimodale, rapporto che attualmente è sbilanciato dalla parte del linguaggio. Se il componente visuale non riesce ad identificare gli oggetti della scena (può succedere quando, ad esempio, non sono bene a fuoco), allora il componente linguistico prende l’iniziativa e sfrutta la propria conoscenza per compensare le informazioni mancanti. Nel nostro video di esempio, se il modello non riesce a identificare il piatto presente nella scena, alla domanda “Dove è appoggiata la pizza?”, per il modello è possibile che la pizza sia appoggiata su un cartone per l’asporto, anche se non è vero. In altri casi, succede spesso, il modello produce una risposta generica, ad esempio “La pizza è appoggiata in un contenitore”. Risposta corretta da un punto di vista logico (un piatto è un contenitore), ma poco informativa, e sicuramente piuttosto distante da quello che ci aspettiamo da una persona in un contesto comunicativo reale.
Abbiamo fatto delle prove mirate, scoprendo che i casi più frequenti di risposte con allucinazioni avvengono quando facciamo domande inaspettate, come far credere che nel video ci sia un certo oggetto, mentre in realtà non esiste. Ad esempio, se chiediamo “Quanto è grande la torta nel video?”, e nel video si vede solo una pizza, i modelli multimodali tendono a darci ragione, assumendo, per errore, che ci sia effettivamente anche una torta. Abbiamo incontrato circa il 60% di errori per questo genere di domande a risposta aperta, confermando una debolezza degli attuali modelli.
Recenti miglioramenti nell’interpretazione video da parte dell’IA multimodale
Per diminuire il fenomeno delle allucinazioni, la strada è quella di migliorare il riconoscimento visivo di oggetti. Non è facile, perché comprendere gli eventi che si svolgono in un video pone sfide tecnologiche in parte ancora da risolvere. La differenza principale rispetto ad un’immagine statica consiste nel fatto che in un video dobbiamo tenere conto della sequenza temporale dei frame. Dato che la tecnologia attuale non consente di processare tutti i frame di un video, in quanto troppo dispendioso in termini di calcolo, normalmente viene effettuata una selezione. Nel caso dei modelli della famiglia Qwen-2.5VL la selezione è dinamica, nel senso che i frame vengono scelti a seconda dei cambiamenti che intervengono nel video: se le scene sono statiche sono sufficienti pochi frame distanti tra loro, mentre nelle scene con cambiamenti frequenti vengono campionati frame più ravvicinati. Da notare che Qwen-2.5VL utilizza la risoluzione nativa di immagini e video, differentemente da altri modelli che adottano un’unica risoluzione.
E’ stata poi introdotta un’altra importante novità tecnologica: ogni frame è associato al suo istante temporale assoluto nel video, cosa che consente una migliore comprensione della durata di un evento. Ad esempio, Qwen-2.5VL può rispondere in modo preciso a domande del tipo “Quanto tempo ha impiegato il pizzaiolo per fare la pizza?”. E’ un passo avanti importante: fino ad ora non si poteva contare il tempo del video e la risposta veniva data dal componente linguistico secondo una stima probabilistica, ad esempio “alcuni minuti”.
IA multimodale: l’integrazione totale delle capacità
Qwen-2.5VL è un modello multimodale, che è stato istruito per risolvere compiti di visual question answering: rispondere a domande e descrivere il contenuto di immagini e video, risolvere problemi matematici, comprendere tabelle e grafici. Forse la caratteristica più interessante della nuova IA multimodale è che il modello multimodale funziona altrettanto bene, e in certi casi anche meglio, dei singoli modelli che lo compongono. Se questo non deve stupire per quanto riguarda il componente visuale, in quanto il modello integrato è stato sottoposto ad un addestramento simile, è invece piuttosto sorprendente per il componente linguistico, il Large Language Model (LLM). Qui infatti l’addestramento integrato (coppie testo-immagine e testo-video) è sostanzialmente diverso dall’addestramento a cui è stato in precedenza sottoposto il LLM, che ha visto solo testi. Sarebbe lecito aspettarsi un peggioramento delle prestazioni del modello multimodale su un test puramente linguistico (ad esempio fare un riassunto di un testo). E invece Qwen-2.5VL se la cava altrettanto bene del LLM in esso contenuto sui test di competenza linguistica, oltre ad eccellere su compiti multimodali. Il sorpasso dell’IA multimodale sull’lA uni-modale sta avvenendo!
Le applicazioni dell’IA multimodale
Qwen-2.5VL è solo l’ultimo arrivato di una serie di modelli di IA multimodale che stanno cambiando l’interazione tra IA generativa, persone e mondo reale.
Gemini 2.0 [7] sviluppato da Google, Llava Next [8] sviluppato da META e GPT-4o [9] di OpenAI testimoniano gli ingenti investimenti nel settore dell’IA multimodale da parte delle Big Tech. Segno che le applicazioni per questa nuova generazione di modelli saranno di grande impatto. Sicurezza, education, salute e benessere, gaming, sono alcune delle aree in cui l’accoppiamento tra capacità visive e capacità di interpretazione semantica dei contenuti potrà dare un alto valore aggiunto rispetto allo stato dell’arte attuale.
Non dimentichiamo: alle porte c’è anche l’integrazione dell’audio (ad esempio il parlato): attualmente l’integrazione viene ancora effettuata in modo indiretto, cioè prima trascrivendo il parlato in testo scritto con un apposito modello, e dal testo si procede con la modalità testo-immagine-video. Sono però attese a breve modalità di integrazione diretta, in cui i suoni saranno accoppiati a immagini, testo e video durante l’apprendimento del modello. L’audio consentirà lo sviluppo di una nuova generazione di applicazioni nel campo della sicurezza, ad esempio per rilevare situazioni anomale in situazioni in cui le immagini da sole non sono sufficienti per far scattare un allarme.
Ma forse le potenzialità applicative più evidenti per l’IA multimodale sono nel campo della robotica. E’ infatti prevedibile che l’IA multimodale fornirà il supporto cognitivo alle capacità motorie e di manipolazione del robot, permettendo non solo di pianificare azioni per il raggiungimento di un obiettivo, ma anche di verificare se sussistono le condizioni per poterle eseguire. Si aprono enormi possibilità in particolare per la robotica sociale: robot finalmente calati in contesti reali (un negozio, un appartamento, un albergo) in grado di interpretare gli eventi che accadono, di adattarsi ad essi in modo dinamico e di interagire con le persone per essere di aiuto in compiti specifici. Non manca molto. Certo che a quel punto dovremmo avere ben chiare le regole di ingaggio tra noi e l’AI multimodale, ma anche, quando la situazione lo richiede (ricordiamoci le allucinazioni!), le regole di disimpegno.
Ringraziamenti
Il lavoro riportato in questo articolo si è svolto nel contesto del progetto MUR PE0000013-FAIR (Future Artificial Intelligence Research), con attività che hanno coinvolto gli Spoke 1 (Fondazione Bruno Kessler e Università di Trento), 2 (Università di Pisa) e 5 (CNR-ILC, Pisa).
[2] https://huggingface.co/Qwen/Qwen2.5-VL-72B-Instruct
[3] Qwen Team, Alibaba Group: Qwen2.5-VL Technical Report, https://arxiv.org/abs/2412.15115, 2025.
[5] Xiang Yue et al.: MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI, https://arxiv.org/abs/2311.16502, 2025.
[6] Davide Testa, Giovanni Bonetta, Raffaella Bernardi, Alessandro Bondielli, Alessandro Lenci, Alessio Miaschi, Lucia Passaro, Bernardo Magnini: All-in-one: Understanding and Generation in Multimodal Reasoning with the MAIA Benchmark, arXiv:2502.16989, 2025.
[7] https://deepmind.google/technologies/gemini/