la nostra prova

Abbiamo testato Gemini Omni: cosa funziona e cosa no nel nuovo modello AI



Indirizzo copiato

Google ha presentato nuove soluzioni AI alla conferenza Google I/O, con particolare attenzione a Gemini Omni, alla generazione video, agli standard SynthID e C2PA e al protocollo WebMCP. Un quadro che mostra l’interesse strategico del gruppo per content creation, YouTube e automazione Web

Pubblicato il 27 mag 2026

Antonio Cisternino

Università di Pisa



Mexico,City,,Mexico,,05,22,2026,,Laptop,Screen,Displaying,Gemini
AI Questions Icon
Chiedi all'AI
Riassumi questo articolo
Approfondisci con altre fonti

Un altro anno è passato e Google nella sua conferenza annuale Google I/O ha annunciato molte novità, la maggior parte delle quali centrate sull’intelligenza artificiale come è ormai quasi d’obbligo in questi giorni. In molti hanno già commentato i vari annunci e non è semplice individuare delle tante novità quale possa avere un impatto significativo sul panorama tecnologico globale.

Se annunci come il ritorno nel mondo degli occhiali dopo anni dai Google Glasses e il rilascio dell’agente Google Spark basato su Antigravity sembrano notizie che vanno a colmare gap nei confronti di competitor come Meta (per gli occhiali) e i rivali OpenAI e Anthropic (per l’agente), mi hanno colpito molto gli annunci relativi a Gemini Omni, SynthID, C2PA e WebMCP. 

Il nuovo modello è dichiaratamente multimodale, capace di generare contenuti a partire qualsiasi input, non solo testo ma anche immagini, musica e video. L’attenzione di Google verso questi modelli era già emersa nel rilascio del modello Gemma 4 e4B, uno dei rari modelli open weight capaci di elaborare anche audio tra i propri input.

Il video in particolare desta grande attenzione visto che OpenAI sta ritirando il modello e l’ecosistema Sora 2 lasciando a Google un posto di primo piano nel settore della generazione dei video, elemento sicuramente rilevante per chi gestisce il servizio YouTube che infatti è stato subito integrato col nuovo modello per gli utenti con sottoscrizione.

Google Omni e la generazione dei video

Il nuovo modello di Google Gemini Omni è stato etichettato come Gemini Flash 3.5 nell’applicazione Google Gemini (sia nella versione Web che nella app). La capacità di esecuzione del colosso di Mountainview non delude e a poche ore dall’annuncio i modelli erano già fruibili da tutti senza dover attendere lunghi rollout come avviene in altri casi. Il nuovo modello è sicuramente molto rapido nel rispondere ed è esauriente nell’eseguire molti prompt di base.

Il confronto tra Gemini e ChatGPT sul teorema di Pitagora

Un prompt che uso spesso per farmi un’idea è “Come si dimostra il Teorema di Pitagora?” ed ho provato a porlo sia a Gemini che a ChatGPT. Mi ha colpito molto come Gemini prometta prima una dimostrazione visiva, io faccia a tempo a vedere l’avvio della generazione di un’immagine che però viene annullata in favore della sola risposta testuale. OpenAI invece genera una mini applicazione con la visualizzazione grafica della dimostrazione (come si vede nelle due immagini seguenti).

Ho trovato interessante la risposta che Gemini mi ha dato quando ho chiesto il motivo dell’assenza dell’immagine:

Non è curioso che il modello multimodale Omni si caratterizzi come AI testuale?

L’impressione che ho è che per ora Gemini non abbia un meccanismo simile agli artefatti di Anthropic o alla generazione di immagini a supporto di procedure matematiche di OpenAI e quindi eviti di generare immagini con il generatore per evitare possibili allucinazioni del generatore di immagini.

In ogni caso la sensazione è che sia più il codice attorno al modello che il modello stesso ad avere ancora limitazioni, anche perché quando ho chiesto esplicitamente la generazione di un’immagine l’interfaccia ha mostrato un’annuncio “caricamento di nano banana 2”.

La prova sulla generazione video con una foto

Per testare la generazione del video ho caricato una mia foto chiedendo di fatto di animarla in un video.

Il risultato è assolutamente sorprendente, soprattutto vista la scarsità di informazioni da cui il modello è partito per effettuare la generazione. Anche la velocità di generazione è stata assolutamente rapida, lasciando intuire che il modello sia anche molto efficiente nel processo di generazione.

Audio, atmosfera e user experience nella app Gemini

Ho provato quindi a fornire al modello un file audio

contenente una mia vecchia registrazione di quando suonavo la chitarra trent’anni fa, e purtroppo rovinato dal nastro della cassetta, chiedendo una restaurazione. Il modello mi ha informato che non rientra nelle sue abilità suggerendomi di utilizzare altri strumenti. 

Mi ha però sorpreso il risultato quando ho chiesto di usarlo come base per suonarlo nuovamente: non ho ottenuto una nuova versione del brano (neanche uno che ne seguisse la melodia) ma semplicemente un video molto carino che evocasse un’atmosfera simile. Mi ha colpito l’interfaccia generata per la riproduzione audio, con tanto di abilità di attivare i sottotitoli, una funzione chiaramente molto rilevante per piattaforme come YouTube.

Anche rispetto al rilascio di Veo3 la user experience è decisamente migliorata, e la app Gemini è disegnata per semplificare la content creation e l’editing dei video, un altro indizio del fatto che il modello sia inteso a supportare le attività di content creation per YouTube.

SynthID e C2PA per identificare i contenuti generati

Un altro elemento rilevante degli annunci è il supporto pervasivo al SynthID e allo standard C2PA. Entrambi gli standard sono pensati per marcare i contenuti multimediali generati da AI come riconoscibili e verificabili. Il SynthID inserisce una filigrana nei video (anche se è stato già compromesso), mentre C2PA è lo standard di cui già si parlava nel 2023 e che sta gradualmente divenendo uno standard adottato.

La capacità di generare video fotorealistici con l’AI pone sempre più problemi e non sorprende che Google supporti standard che evitino l’abuso di questi strumenti che altrimenti sarebbero sicuramente contrastati dall’opinione pubblica. Credo che sia comunque un’ottima notizia per tutti noi la promozione di formati che aiutino a distinguere i contenuti generati da quelli reali.

I siti Web programmabili

Tra i numerosi annunci non va sottovalutato quello di WebMCP: una variante del protocollo MCP utilizzato per consentire a AI di utilizzare strumenti esterni e disegnato per essere utilizzato dai Web browser. Questa mossa è degna di nota perché Google sta già distribuendo con Chrome un modello LLM e la promozione di questo protocollo va tenuto d’occhio perché potrebbe anticipare i primi modelli LLM lato client che colloquiano automaticamente con i server Web per l’automazione di servizi.

Google Gemini Omni come asset strategico per YouTube

Il nuovo modello Omni è sicuramente un modello degno di nota, e la capacità di manipolare audio e soprattutto video è decisamente impressionante, soprattutto perché candida Google come di fatto l’unico dei tre grandi fornitori di AI statunitensi a fornire un modello per la creazione e la manipolazione di video. Si tratta di un asset strategico per il colosso che gestisce YouTube e molto del mercato mobile che viene utilizzato per la creazione di contenuti.

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati

0
Lascia un commento, la tua opinione conta.x