la prova di gemini veo 3

Veo 3, come fare i video artificiali più belli: la guida



Indirizzo copiato

Gemini Veo 3 di Google è anche in Italia. L’abbiamo provato ed è un grosso passo avanti. Ecco come fare video con l’intelligenza artificiale con i migliori risultati, al confronto con OpenAI Sora. Una guida

Pubblicato il 11 lug 2025

Antonio Cisternino

Università di Pisa



veo 3

Anche in Italia è disponibile Gemini Veo 3 il modello di Google che genera video a partire da prompt testuali. L’abbiamo voluto provare e offrire una guida per fare quelli che ad oggi sono i video con intelligenza artificiale più realistici.

Il nuovo modello va ad affiancare Sora di OpenAI nella generazione di video anche se introduce un nuovo elemento che lo distingue dal generatore di video di OpenAI: l’abilità di generare video con una traccia audio.

Come usare Veo 3: una guida

Gemini Veo 3 è disponibile per gli utenti con i livelli pro e ultra della sottoscrizione di Gemini (in modo analogo a quanto avviene con Sora che è disponibile per gli utenti con i livelli plus e pro), e contrariamente a quanto avviene nel caso di OpenAI è integrato con l’interfaccia standard di Gemini, aggiungendo una nuova abilità all’assistente AI di Google.

La generazione del video richiede uno due minuti, e si possono generare al più 3 video al giorno con il livello pro della sottoscrizione e a volte quando fallisce una generazione il conteggio viene comunque diminuito di uno rendendo l’uso per ora limitato se non si dispone del livello Ultra della sottoscrizione (analogamente Sora impone il limite di generazione di video 720p e lunghi massimo 10 secondi per chi ha ChatGPT Plus).

Per provare Veo 3 ho provato quattro prompt che mettessero alla prova vari aspetti della generazione video, anche se è bene tener presente che la generazione di contenuto multimediale richiede prompt più articolati e descrittivi per ottenere buoni risultati, e anche molta sperimentazione (il che complica un po’ la vita con le limitazioni di Gemini).

CaratteristicaGemini Veo 3 (Google DeepMind)Sora (OpenAI)
Durata massima videoCirca 8 secondi per clip (singolo)Fino a 20 secondi con account Pro (10 s per clip per Plus)
Supporto audio✅ Include audio generato (dialoghi, suoni ambientali, musica) perfettamente sincronizzatoVideo silenziosi: non genera audio, solo visual, necessità di post-produzione per audio
Controllo della cameraControllo della camera automatico⚠️ Controllo tramite prompt testuali (camera dinamica, panning, zoom), ma spesso imprevedibile o erratico, soprattutto in “image-to-video”
Coerenza visiva temporaleClip brevi, ma con audio-video sincronizzati; output sempre coerente visivamente data la durata limitataBuona coerenza temporale e spaziale nei video generati, persistenza di oggetti/personaggi, anche se occasionali incoerenze in fisica complessa
Input accettatiPrompt testo + immagine (photo-to-video)Prompt testuale + immagine o clip già esistente, fino a “video extension”
Modifica e editingIntegrato solo come output base (8 s) L’editor avanzato Flow deve essere ancora rilasciatoEditor integrato con strumenti come Recut, Remix, Storyboard, Blend, Loop Durata dei video di 10s o 20s (Plus solo 10s)
Risoluzione videoAssenza di controllo del formato e della risoluzione video.Vari formati possibili (1:1, 16:9, 3:2, 2:3, 9:16) e due risoluzioni 720p e 1080p (Plus solo 720p)
Accessibilità oggi (lug‑2025)Disponibile per Google AI Pro/Ultra (con membership), clip da Gemini web/mobile, integrato in Canva, YouTube Shorts, FlowDisponibile a utenti ChatGPT Plus/Pro; funzione alpha accessibile, ma audio non supportato, strumenti limitati di camera e motion

Video con audio

Il primo prompt che ho provato aveva come obiettivo quello di definire una storia che beneficiasse della capacità di generare audio nel video.

Genera il video di una legione romana che marcia sotto l’arco di trionfo con un generale a cavallo alla testa. A un certo punto si sente la suoneria con il “Va pensiero” e il generale incuriosito scende da cavallo e dietro un cespuglio trova un telefono cellulare. Lo raccoglie meravigliato incapace di capire cosa sta vedendo. Sullo sfondo un portale Stargate.

Veo3

L’audio generato è sicuramente appropriato ma il generatore di audio evidentemente ha ancora limitazioni: i rumori di sottofondo sono tutti ragionevoli ma la suoneria del cellulare è standard e il “Va pensiero” è divenuta una didascalia. Il modello ha seguito abbastanza fedelmente le richieste contenute nel prompt adattando la storia agli otto secondi di durata del video generato (durata di tutti i video generati da Veo 3).

Lo stesso prompt eseguito su Sora genera un video senza audio (rendendo meno l’idea della storia che si basa su un elemento uditivo) e si vede anche uno stile decisamente diverso nella gestione della camera e dei suoi filtri. I video generati da Sora sono infatti più “lucidi” e iperrealistici rispetto a quelli di Veo 3.

Sora

La possibilità di generare video con Audio ha scatenato la generazione di notiziari in stile americano, con il parlato in inglese nonostante il prompt italiano. Ecco ad esempio un video che annuncia lo sbarco su Marte generato dal seguente prompt:

Genera un video di una breaking news in cui la anchor woman annuncia l’atterraggio dell’uomo su Marte e la scoperta di marziani. Sullo sfondo il video dell’atterraggio e dell’incontro con i marziani.

Veo 3

Lo stesso prompt su Sora genera solo il video con una gestione della telecamera decisamente meno plausibile rispetto a quanto fa Veo 3.

Sora

Generare video con effetti con Veo 3

Ho provato anche la generazione di video astratti e Veo 3 si e comportato in modo decisamente sorprendente, anche rispetto a Sora. Il primo prompt provato è il seguente:

Genera un video che mostra la torre di Pisa che cresce come se fosse un fiore con l’effetto timelapse. La crescita deve sembrare come se si assemblasse da mattoni e non semplicemente apparire dalla terra. Un grande annaffiatoio meccanico versa blocchetti di marmo per farla crescere.

Veo 3

Il modello ha colto assolutamente lo spirito della richiesta generando il video che mi attendevo, nonostante il vincolo degli 8 secondi che ha forzato nella generazione una transizione verso la fine del video. È interessante osservare come Sora non riesca ad interpretare un prompt astratto altrettanto bene pur mantenendo uno stile iper-realistico nel generato.

Sora

Un altro prompt che ho provato è il seguente:

Genera il video di un caccia da guerra che, vista la distruzione dall’alto della guerra si trasforma in una colomba. La camera deve girare prima intorno al caccia mostrando la distruzione della guerra tenendo il caccia al centro, si vedono esplosioni. Poi si trasforma in una colomba e volando si posa su un ulivo in cima ad una collina deserta. Unica pianta sopravvissuta alla distruzione.

Anche in questo caso vi sono elementi astratti e Veo 3 sembra cogliere lo spirito della richiesta in modo più efficace di Sora che nuovamente sembra privilegiare la generazione di contenuti iper-realistici.

Veo3
Sora

Controllo della generazione in Google Veo 3

Google ha annunciato il sistema Flow per l’editing dei video generati da Veo3, ma attualmente questa interfaccia non è disponibile, e il controllo sulla generazione dei video è sostanzialmente inesistente. Non si possono neanche fornire contenuti come immagini o video a partire dai quali si può condizionare la generazione del video o il suo stile. In questo campo per ora l’interfaccia di OpenAI basata sul concetto di storyboard e la funzione di “remix” offrono un controllo decisamente superiore a quello di Veo 3.

Inoltre, con Gemini non è ancora possibile controllare la durata del video generato né la sua risoluzione o il formato.

Conclusioni

Gemini Veo 3 è un modello decisamente efficace per la generazione di video a partire da prompt, si tratta di un primo rilascio e quindi mancano i controlli sulla generazione che probabilmente saranno oggetto dei prossimi rilasci.

La capacità di generare video con audio, seppur con limitazioni, offre possibilità di cui si sente la mancanza in Sora. Si tratta comunque di un modello che è allo stato dell’arte capace di generare video che potranno trovare applicazioni in numerosi ambiti.

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati