ai e creatività

Google Genie genera mondi, ma non può immaginare il futuro



Indirizzo copiato

Google Genie genera ambienti tridimensionali da un testo in pochi secondi. Ma i sistemi AI addestrati su dati esistenti producono solo variazioni del già visto. La ricerca mostra effetti ambivalenti: la creatività media sale, la diversità culturale scende. Il non-ancora resta fuori portata

Pubblicato il 18 mar 2026

Giuseppe Aceto

AI & Robotics Ethicist



Google Genie
AI Questions Icon
Chiedi allʼAI Nextwork360
Riassumi questo articolo
Approfondisci con altre fonti

Il rapporto tra intelligenza artificiale e creatività è al centro di uno dei dibattiti più urgenti del nostro tempo — e Google Genie, il world model sviluppato da DeepMind, ne offre oggi la forma più concreta e più seducente. Basta una frase per far apparire un mondo. Ma cosa succede, esattamente, a ciò che non riesce ad apparire?

La città sommersa e l’illusione dell’inedito

Apri Project Genie. Scrivi: “una città sommersa, con torri di corallo e pesci che nuotano tra le finestre.” Aspetti tre secondi e il mondo appare — puoi entrarci, camminare, guardare in su e vedere la luce filtrare dall’acqua sopra di te in fasce ondulate, quasi tattili.

L’ambiente è visivamente coerente, fluido, immersivo; è esattamente quello che hai chiesto. Ed è, per questa stessa ragione, qualcosa di meno di ciò che avresti potuto immaginare.

Un limite strutturale, non ingegneristico

Genie è un world model: un sistema di intelligenza artificiale sviluppato da Google DeepMind che genera ambienti tridimensionali interattivi a partire da un testo o da un’immagine. Tecnicamente, funziona in modo auto-regressivo — costruisce il mondo fotogramma per fotogramma, basandosi su ciò che ha già generato e sull’azione dell’utente in tempo reale.

La fisica di ciò che produce non viene compresa, ma dedotta statisticamente da quantità enormi di video e immagini esistenti; il risultato è un mondo che sembra inedito ma che è, strutturalmente, una ricombinazione sofisticata di mondi già visti, già abitati da qualcun altro prima che dallo sguardo di chi digita.

Questo limite non è un difetto ingegneristico mitigabile con più dati o più parametri: è strutturale, inscritto nel paradigma stesso. Un sistema addestrato a massimizzare la verosimiglianza produce, per definizione, solo ciò che ha precedenti; può generare infinite variazioni dell’esistente, ma l’improbabile — ciò che non ha ancora trovato forma — gli è costitutivamente precluso.

La ricerca dice: creatività su, diversità giù

Qui qualcuno obietterà, con ragione, che la realtà empirica è più complicata di così, e l’obiezione merita di essere presa sul serio. La ricerca sul rapporto tra AI generativa e creatività restituisce un quadro genuinamente ambivalente, che resiste alle sintesi rapide.

Uno studio di Doshi e Hauser pubblicato su Science Advances nel luglio 2024 ha documentato, su un campione di trecento scrittori, che l’accesso a idee generate da modelli linguistici di grandi dimensioni produce storie valutate come più creative, meglio scritte e più coinvolgenti dai lettori con un effetto particolarmente marcato tra i partecipanti che mostravano il punto di partenza creativo più basso. Lo strumento funziona da innesco: abbassa la soglia di ingresso, libera dall’ansia del foglio bianco, restituisce agilità a chi ne era privo.

Ma lo stesso studio documenta un secondo effetto, di segno opposto e uguale peso: le storie prodotte con assistenza AI risultano più simili tra loro rispetto a quelle scritte senza alcun supporto algoritmico.

La creatività individuale media sale; la diversità collettiva scende.

Il livellatore verso l’alto

I due dati non si contraddicono ma si sommano in una diagnosi precisa: l’AI generativa funziona da livellatore verso l’alto per il singolo e da compressore per la cultura nel suo complesso. Migliora la mediocrità; erode l’eccellenza eccentrica.

La perdita riguarda la varianza, quello spazio di dispersione in cui abitano le idee che non somigliano a nessun’altra. Le idee che, proprio perché improbabili, cambiano qualcosa.

L’omologazione che persiste anche dopo

Un secondo elemento viene da Kumar e colleghi dell’Università di Toronto (Human Creativity in the Age of LLMs, 2024), che aggiunge alla diagnosi una dimensione temporale: l’effetto di omologazione persiste anche dopo che i partecipanti hanno smesso di usare lo strumento, configurandosi come un rimodellamento cognitivo vero e proprio piuttosto che come una semplice dipendenza funzionale. Gli stessi autori definiscono il risultato inatteso, e quella sorpresa dichiarata invita, con la cautela che merita, a riconsiderare l’impatto a lungo termine di questi strumenti sulle capacità creative individuali, un problema empirico aperto. Il guadagno individuale è reale, ma parziale e, a quanto pare, non gratuito. Il prezzo da pagare è distribuito nel tempo e nella cultura, invisibile finché non lo si misura con strumenti appropriati.

Ernst Bloch e il non-ancora

Ernst Bloch, nel monumentale Il principio speranza, elabora una distinzione che oggi acquista una precisione quasi tecnica, come se il filosofo avesse anticipato per altra via il problema che stiamo cercando di descrivere: la distinzione tra il possibile statisticamente probabile — ciò che può accadere perché le condizioni già esistono, perché appartiene alla distribuzione di ciò che è già stato — e il non-ancora, ovvero ciò che eccede ogni dataset esistente perché non ha ancora trovato forma nel mondo, perché abita quella soglia in cui il futuro non è ancora diventato passato di nessuno.

Per Bloch il non-ancora non è fantasia né utopia ingenua: è la pressione strutturale del futuro sul presente, il movimento interno della realtà verso forme che essa stessa non riesce ancora a vedere da dentro. Le grandi trasformazioni storiche (politiche, artistiche, scientifiche) irrompono sempre da ciò che non era ancora dato, da una soglia che il paradigma precedente non poteva prefigurare dall’interno dei propri strumenti concettuali.

La speranza docta — la speranza dotta, informata, consapevole delle proprie condizioni di possibilità — è per Bloch la forma più alta di orientamento verso il futuro: l’utopia che sa cosa sta cercando, che conosce con lucidità la differenza tra variare l’esistente e rompere con esso, tra immaginare una variazione e immaginare una discontinuità. La sua radice è la consapevolezza dei vincoli reali; il suo orizzonte è il desiderio autentico di ciò che va oltre il già prefigurato, il desiderio che non si accontenta della verosimiglianza.

Genie e la chiusura verso il futuro

Un sistema come Genie opera interamente nel dominio del possibile statisticamente probabile. La città sommersa che genera è, in fondo, una città che qualcuno ha già fotografato, filmato, sognato e condiviso abbastanza da lasciare traccia misurabile nel training data; anche la sua stranezza è statistica — è la coda di una distribuzione, una variazione estrema ma pur sempre interna ad essa, circoscritta dai confini di ciò che è stato già immaginato pubblicamente. Genie ricombina con crescente raffinatezza, e questa raffinatezza è, nel senso di Bloch, la forma più seducente di chiusura verso il non-ancora: produce cose soddisfacenti, e la soddisfazione immediata è il meccanismo più efficiente per cortocircuitare la ricerca.

La saturazione, la condizione in cui il desiderio resta acceso ma si orienta solo verso ciò che è già stato pre-figurato, è il vero prodotto del sistema, più ancora che la città sommersa stessa.

Il momento del cortocircuito

Vale la pena descrivere con precisione il momento in cui quel cortocircuito si produce, perché ha una morfologia riconoscibile.

Quando un utente apre Genie e genera un mondo, sta delegando l’atto immaginativo prima ancora di averlo esercitato consegnando allo strumento la domanda nel momento stesso in cui si forma, prima che abbia avuto il tempo di diventare qualcosa di preciso, di personale, di irriducibile. La differenza rispetto ad altri strumenti creativi (il pennello, il pianoforte, persino il software di modellazione 3D) risiede nell’attrito: questi strumenti richiedono all’utente di portare qualcosa prima che lo strumento risponda, un gesto iniziale, una direzione, una resistenza da superare nel passaggio tra intenzione ed esecuzione. L’attrito è il mezzo attraverso cui la creatività si sviluppa, il processo in cui si scopre cosa si vuole dire mentre si cerca il modo per dirlo, quella zona di indeterminazione in cui l’idea e la forma si modellano a vicenda.

La ricerca sulla fixation bias mostra che chi usa AI generativa tende ad ancorarsi alla prima proposta dello strumento, riducendo significativamente l’esplorazione dello spazio delle possibilità; lo strumento restringe il campo proprio mentre sembra allargarlo, producendo l’illusione dell’apertura. I muscoli cognitivi che non si usano si atrofizzano e l’effetto, come mostra Kumar et al., non svanisce quando si chiude la finestra del browser.

L’infrastruttura immaginativa del futuro

Genie è già disponibile per gli abbonati Google AI Ultra ed è esplicitamente descritto da DeepMind come un passo verso sistemi di intelligenza artificiale generale, con un’ambizione dichiarata che va ben oltre la dimensione videoludica: addestrare agenti capaci di navigare, comprendere e agire in ambienti complessi come se fossero ambienti reali. L’infrastruttura immaginativa che costruisce è destinata a diventare il substrato attraverso cui i sistemi AI del futuro comprenderanno il mondo — il loro modello implicito di come le cose stanno, di che aspetto ha la realtà, di quali forme sono possibili.

E il mondo che comprenderanno è, per costruzione, un mondo già visto. Ma visto da chi? Il training data non è neutro né trasparente — incorpora distribuzioni di potere, geografie privilegiate, lingue dominanti, estetiche di chi ha avuto più accesso all’infrastruttura della produzione e della condivisione digitale. Un sistema che ricombina ciò che è stato immaginato pubblicamente abbastanza da lasciare traccia digitale tende strutturalmente a riprodurre gli immaginari di chi ha avuto più voce, più connessione, più storia visibile online.

La sovranità digitale, discussa per lo più in termini di dati, mercati e regolamentazione, ha una dimensione più profonda e meno mappata: la capacità di una cultura, di un movimento, di una comunità politica di immaginare se stessa in modo autonomo e di produrre il proprio non-ancora, invece di riceverne uno in licenza da altri, già confezionato nei parametri di qualcun altro.

La sovranità dell’immaginario

Cosa rimane del non-ancora quando il verosimile è disponibile su richiesta, in tre secondi, a ventiquattro fotogrammi al secondo, e quando quei tre secondi sono computati su server di tre aziende californiane che decidono, attraverso le loro scelte di addestramento, quali futuri sono plausibili e quali restano al di là della soglia di probabilità statistica? Cosa resta della speranza docta — della capacità di desiderare ciò che non esiste ancora, di tenere aperta la tensione verso l’improbabile — quando l’immagine del futuro si carica sullo schermo prima che si finisca di formularla, e quella schermata parla già una lingua, abita già una geografia, conosce già quali discontinuità sono ammesse e quali no?

Non lo sappiamo ancora con sufficiente precisione. Ma è una domanda che riguarda chiunque creda che immaginare il cambiamento sia il primo atto politico — il momento in cui il non-ancora comincia a esercitare pressione sul presente — e che vale la pena tenere aperta con cura, mentre il mondo generato prende forma davanti a noi sullo schermo.

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati

0
Lascia un commento, la tua opinione conta.x