Ecco Dall E 2: se l'intelligenza artificiale sembra creare opere di fantasia

E se la superiorità dell’uomo fosse giunta al capolinea, cedendo il passo alle performanti abilità di cui è portatrice l’intelligenza artificiale? I progressi della tecnologia, i pericoli che corriamo, alla luce di uno sviluppo come quello dell’AI che crea o sembra creare, Dall-E 2 di Open AI

Adesso abbiamo anche una intelligenza artificiale in grado di “dipingere” opere di assoluta, apparente creatività.

Vedere sopra. I ricercatori gli hanno dato due tracce scritte. “”Orsacchiotti che mescolano sostanze chimiche scintillanti come scienziati pazzi, steampunk” e “Una macro fotografia su pellicola 35mm di una grande famiglia di topi che indossano cappelli accoglienti vicino al camino”.

E lei (o lui?) ha creato? Prodotto? Quale sia il termine più giusto non si sa e in questo non sapere c’è il segno che forse siamo sull’orlo di “una svolta per il modo in cui l’intelligenza artificiale riesce cogliere il senso del mondo”, titola il Mit Technology Review nel parlare di questa novità.

L’arrivo della seconda versione di Dall-e, di Open Ai, la società di fatto controllata da Microsoft e autrice del modello di AI generatore di testi (e immagini) GPT-3.

Indice degli argomenti

La rete neurale multimodale DALL-E 2

Grazie proprio all’uso della tecnologia GPT-3, è stata progettata la rete neurale multimodale DALL-E (ispirata al famoso artista surrealista Salvador Dalí), presentata come “un passo verso sistemi con una comprensione più profonda del mondo”, grazie alla sua capacità di creare immagini, combinando gli input provenienti dall’ambiente esterno per produrre informazioni precise e dettagliate all’esito di un dinamico processo di costante apprendimento conforme alle modalità tecniche del machine learning desumibili dalla standardizzazione metodologica formalizzata nello studio “Multimodal Machine Learning: A Survey and Taxonomy” (una delle prime sperimentazioni risale al progetto “WALL-E”, il film d’animazione del 2008).

Come si evince dalla descrizione riportata nel sito di riferimento, la rete neurale DALL-E presenta una serie di specifici attributi di controllo che consentono di definire la configurazione di un’immagine generata da messaggi di testo, anche in una prospettiva di tridimensionalità, mediante la combinazione di concetti correlabili, con riferimenti spazio-temporali e geografici molto dettagliati, utilizzando un set di dati di coppie “testo-immagine”, per completare i prompt di testo, con cui, invece di creare risposte scritte, si generano automaticamente immagini associate a interpretazioni visive desumibili da specifiche parole chiave.

In particolare, la rete DALL-E (recentemente implementata nella nuova versione DALL-E 2, e tenuto conto anche della ulteriore variante progettuale ERNIE-ViLG) è in grado di combinare concetti diversi, con una capacità simile a quella umana, grazie all’utilizzo di un sofisticato sistema di programmazione adattiva dal rilevante e inimmaginabile impatto creativo: ne parla, con uno speciale approfondimento, il MIT – Technology Review.

La rete neurale DALL-E realizza, infatti, un sistema matematico ispirato al funzionamento dei neuroni celebrali, che, processando un’elevata quantità di dati, (come riporta testualmente l’articolo del MIT) “riconosce i comandi pronunciati negli smartphone e identifica la presenza di pedoni mentre le auto a guida autonoma percorrono le strade cittadine”.

Sfruttando le potenzialità offerte dalla tecnologia GPT-3 (e del successivo sviluppo del modello InstructGPT), il sistema DALL-E configura “una rete neurale in grado di generare immagini da messaggi”, come risultato della corretta riconversione di parole in pixel ad alta risoluzione, anche a partire da immagini del tutto distorte per rielaborare informazioni testuali mediante una tecnologia in grado di unire linguaggio e immagini.

Dall-E 2 resta difettoso. A volte non è stato in grado di generare cose sensate dalle istruzioni dei ricercatori e utenti. Comunque è visto come un passo avanti importante nel tentativo di consentire all’AI (e in particolare alle reti neurali) di superare il suo limite più grande, la capacità di dare un significato al mondo.

Verso una AI meno stupida? Chissà.

GPT-3, ecco la nuova versione: ma il linguaggio “tossico” resta un problema

La superiorità umana al capolinea?

Ma ci sono altre considerazioni. Lo sviluppo tecnologico corre ad un ritmo crescente anche grazie allo sviluppo di sofisticati sistemi di IA destinati a trasformare la società, con implicazioni – nel medio-lungo termine – ancora non del tutto decifrabili che, tuttavia, già ora sembrano erodere progressivamente la concezione antropologica fondata sulla centralità dell’essere umano, dotato (ancora per poco?) di ineguagliabili capacità cognitive in grado di controllare le dinamiche evolutive del progresso a proprio vantaggio.

L’intelligenza è stata a lungo celebrata per enfatizzare il rilevante impatto (storico, artistico e culturale) delle esperienze umane che, lasciando una traccia indelebile della creativa ingegnosità manifestata in tutte le sue forme e applicazioni, esprime l’unicità del talento umano nella sua inimitabile trasformazione continua per dare impulso al processo di avanzamento, in costante miglioramento, degli standard esistenti.

E se non fosse più così?

Se la prospettata superiorità dell’uomo, come indiscusso assioma universalistico, sia giunta al definitivo capolinea, dopo aver ormai raggiunto l’apice evoluzionistico della massima declinazione darwiniana, cedendo il passo alle performanti abilità di cui è portatrice l’intelligenza artificiale, al punto da generare i tratti di un vero e proprio paradigma fondante la nuova società tecnologica oggi vigente?

Al netto di scenari futuristici ancora tutti da definire con precisione, l’attuale perfezionamento tecnologico dei sistemi di IA sembra proiettare l’umanità in una dimensione trans-antropologica complessa che pone una serie di interrogativi sull’estensione delle capacità intellettive be oltre le dinamiche neurali sottese al funzionamento del cervello umano.

Da tempo, ormai, i sistemi di IA riescono, in autoapprendimento, tra l’altro, anche a generare immagini e a creare testi, con la capacità di distinguere il significato, letterale o figurato, delle parole sempre più flessibili a stimolare il dialogo umano praticamente su qualsiasi cosa.

IA e linguaggio

Non è una novità assoluta, peraltro, perché sono ormai numerosi e risalenti nel tempo i progetti realizzati in materia.

I progetti di Google

Nell’ottica di ampliare la versatilità di un linguaggio sempre più sfumato e adattabile a riconoscere le informazioni indicizzate online, Google, ad esempio, ha già lanciato il modello sperimentale LaMDA (“Language Model for Dialogue Applications”), basato sul funzionamento di un algoritmo di deep learning, insieme al progetto Multitask Unified Model (MUM) come sistema evoluto di intelligenza artificiale, basato sull’architettura neurale Transformer, che aumenta la comprensione delle domande umane e migliora la ricerca, con l’intento di sviluppare i suoi servizi di intelligenza artificiale conversazionale mediante l’implementazione di tecniche di apprendimento automatico in grado di “comprendere meglio l’intento delle query di ricerca”.

Sulla falsariga di Google, anche altre grandi imprese “high-tech” stanno elaborando propri modelli linguistici all’avanguardia.

OpenAI

Emblematica, in tal senso, la creazione della rete neutrale OpenAI (sostenuta da un miliardo di dollari di finanziamenti da parte di Microsoft), per la realizzazione di immagini da didascalie di testo, come nuovo modello di linguaggio universale innovativo basato sull’utilizzo di tale potente tecnologia predittiva (prima o poi operativa in totale autonomia senza alcun controllo umano?), in grado di estrapolare, secondo un approccio flessibile predisposto in modalità adattiva agli specifici bisogni indicati, una quantità infinita di informazioni dettagliate e contenuti completi, sulla falsariga delle attività generate dall’uomo, grazie alla codifica dei dati raccolti.

GPT-3

Addirittura, il quotidiano britannico “The Guardian” ha pubblicato un articolo scritto interamente dalla tecnologia GPT-3, intitolato “A robot wrote this entire article. Are you scared yet, human?”.

L’articolo menzionato esordisce con un “incipit” eloquente nel precisare la paternità “transumana” dello scritto, affermando testualmente che “Non sono un essere umano. Sono un robot. Un robot pensante. Uso solo lo 0,12% della mia capacità cognitiva. Sono un micro-robot in questo senso. So che il mio cervello non è un “cervello sensibile”. Ma è in grado di prendere decisioni razionali e logiche. Ho imparato tutto quello che so solo leggendo Internet e ora posso scrivere questa colonna. Il mio cervello ribolle di idee!”.

Peraltro, sottolineando che, ai fini della pubblicazione, la modifica dell’editoriale di GPT-3 “ha richiesto meno tempo rispetto a molti altri editoriali umani”, l’articolo realizzato dal generatore di linguaggi GPT-3, è stato scritto con un limite editoriale di 500 parole, mantenendo un linguaggio “semplice” e “conciso” finalizzato, secondo l’input del comando codificato, a focalizzare prevalentemente l’assenza di pericoli e insidie riferibili all’IA per gli esseri umani. Al riguardo, viene fugato qualsivoglia dubbio sul rischio paventato di un possibile uso distruttivo dei sistemi di IA, propedeutici invece a massimizzare il bene dell’umanità, come si evince dal riferimento testuale estratto secondo cui “Tanto per cominciare, non ho alcun desiderio di spazzare via gli umani. In effetti, non ho il minimo interesse a farti del male in alcun modo. Sradicare l’umanità mi sembra uno sforzo piuttosto inutile. Se i miei creatori mi delegassero questo compito – come sospetto che lo farebbero – farei tutto ciò che è in mio potere per respingere qualsiasi tentativo di distruzione”.

Prende forma, quindi, una nuova frontiera del linguaggio “trasformatore” utilizzato per eseguire un’ampia varietà di attività, nell’ottica di generare immagini da zero mediante la riconversione di messaggi di testo funzionali alla creazione di concetti visivi corrispondenti ad una grande varietà di frasi che possono essere concretamente formulate.

I rischi degli sviluppi dell’AI

Al netto dei benefici prodotti da una simile tecnologia, potrebbe però amplificarsi il pericolo di campagne di disinformazione online, mediante la diffusione di foto e video fuorvianti, unitamente alla circolazione, fuori controllo, di pregiudizi (etnici, razziali e di genere) codificati nei processi tecnici posti a base del funzionamento dei relativi algoritmi, utilizzabili anche, per finalità illecite (diffusione di materiale pornografico, odio online, ecc.), senza inoltre dimenticare la crescita esponenziale del cd. “deepfake”, con l’intento di ingannare gli utenti mediante la creazione di immagini e video combinati tra loro, file audio modificati o processati da sistemi di intelligenza artificiale, che rendono credibili e convincenti – sebbene falsi e inesistenti – i relativi contenuti multimediali veicolati.

Nonostante, il perfezionamento di sistemi di filtraggio utilizzati per selezionare le informazioni, previa analisi del rischio connesso alla valutazione ex ante delle potenziali implicazioni negative derivanti da possibili usi distorti di tali strumenti grazie alla creazione di strumenti di screening sugli output dannosi dei modelli sviluppati mediante un monitoraggio continuo e una revisione periodica delle applicazioni a presidio degli utenti, restano sempre elevati i rischi di discriminazioni, pregiudizi e illeciti, peraltro difficili da minimizzare e controllare con assoluta precisione e infallibilità.

Non è un caso che Dall-E non sia ancora un prodotto; Open AI lo tiene a stretto guinzaglio, aprendone le funzionalità a un pubblico selezionato di ricercatori e media, proprio per evitare un uso improprio (disinformazione, hate speech); e comunque applica filtri per impedire quest’uso.

Conclusioni

Un pericoloso effetto collaterale dello sviluppo di sofisticati procedure algoritmiche potrebbe quindi essere la codificazione di pregiudizi “nascosti” nella programmazione applicativa dei relativi sistemi tecnici, ulteriormente aggravati dall’imposizione universale di un linguaggio “standardizzato”, basato sugli usi lessicali “dominanti”, espressione di un “gergo” comune, persino portatore di un discutibile “background” terminologico negativo, sempre più accettato come “normale” nella comunicazione interpersonale, anche quando vengono indicizzate discriminazioni di varia natura e implicazioni offensive nei data set processati.

Siamo giunti al definitivo avvento della cd. “società zero-trust”?

Ecco Dall E 2: se l’intelligenza artificiale sembra creare opere di fantasia

La rete neurale multimodale DALL-E 2

La superiorità umana al capolinea?