Intelligenza artificiale

IA, insaziabile fame di dati: il training richiede nuovi approcci

Home Industry 4.0/Innovazione in azienda

I dati sono definiti il petrolio del XXI secolo, una risorsa cruciale per il business delle aziende tecnologiche. Che si tratti di migliorare i prodotti, ottimizzare i processi o personalizzare l’esperienza dei clienti, il loro uso intelligente può fare la differenza. Ma come gestire questa risorsa? Le aziende si trovano di fronte a sfide complesse

Pubblicato il 10 apr 2024

Andrea Viliotti

Innovation Strategist

L‘intelligenza artificiale ha aumentato l’importanza dei dati online, che pure già in passato erano indicati come il “petrolio” del nuovo millennio. Ebbene, adesso sembrano esserlo diventato a pieno titolo: la possibilità di mettere mani su dati – soprattutto se di buona qualità – fa la differenza nella crescita dei modelli di IA. E di conseguenza nel destino delle aziende tecnologiche, che stanno legando sempre più le loro sorti all’IA.

Indice degli argomenti

IA, i dati stanno finendo

L’evoluzione di questi modelli, portata avanti da giganti come OpenAI e Google, ha alimentato infatti una domanda insaziabile di vasti insiemi di dati di alta qualità, indispensabili per l’apprendimento delle macchine.

Il ruolo dei dati per una intelligenza artificiale equa e imparziale

Questa incessante richiesta ha esercitato una pressione notevole sulla disponibilità di dati pubblici, inducendo alcuni fornitori a restringere l’accesso ai propri dati a queste entità tecnologiche. Di conseguenza, si prospetta per queste ultime il rischio di una carenza di dati qualitativi, con possibili ripercussioni sul ritmo di avanzamento dell’intelligenza artificiale.

Sebbene OpenAI mantenga riservate le metodologie di addestramento specifiche di GPT-4, analisti del calibro di Pablo Villalobos, appartenente all‘Epoch Research Institute, hanno ipotizzato che GPT-4 abbia processato una mole impressionante di dati, nell’ordine dei 12 trilioni di token.

Proiettando lo sguardo al futuro e seguendo le tendenze attuali, è concepibile che GPT-5 possa necessitare di un incremento esponenziale nella raccolta di dati, stimando un fabbisogno di circa 60 a 100 trilioni di token per il suo addestramento. Villalobos avverte, però, che persino attingendo a tutte le risorse linguistiche e visive di pregio a nostra disposizione, potremmo trovarci di fronte a un deficit significativo, mancando dai 10 ai 20 trilioni di token necessari.

Google, OpenAI e Meta usano i dati generati dagli utenti

Per superare questo ostacolo, le aziende stanno valutando nuove fonti di dati e stanno ripensando le strategie di addestramento dei sistemi di intelligenza artificiale. Una delle soluzioni proposte da OpenAI riguarda l’addestramento di GPT-5, che potrebbe includere nel suo corpus di dati anche una grande mole di trascrizioni di contenuti video pubblici presenti su YouTube.

In effetti per addestrare GPT-4 ha già dovuto usare le trascrizioni di un milioni di ore di video, pratica che Google potrebbe considerare in contrasto con le sue policy.

A sua volta però Google l’ha fatto per addestrare Gemini e non è chiaro se poteva farlo in base al fair use: in teoria quei video hanno il copyright degli autori.

Google ha anche dovuto modificare le sue policy privacy per potere usare dati generati dagli utenti nei suoi prodotti come Gmail, Google Docs, Maps .

Meta dice di usare foto, video e post pubblici su Facebook e Instagram. La qualità di questi dati rischia però di essere meno buona rispetto ad altri tipi di dati usati finora.

Un’altra possibilità di avere dati per l’addestramento è quella di usare dati sintetici, anche se questa scelta può portare a dei problemi di malfunzionamento seri.

L’intensificarsi della competizione per l’acquisizione di dati sottolinea quanto, nel corso degli ultimi 18 mesi, sia diventato palese il ruolo cruciale dei dati digitali nello sviluppo dell’intelligenza artificiale. Aziende come Meta e Google hanno da tempo capitalizzato sui dati online per i loro servizi pubblicitari, mentre piattaforme come Netflix e Spotify li hanno sfruttati per perfezionare i propri sistemi di raccomandazione di film e musica.

Le sfide per l’addestramento dell’intelligenza artificiale

La crescita nel campo dell’intelligenza artificiale rappresenta una sfida complessa e articolata. Gran parte delle informazioni disponibili online non è direttamente utilizzabile per formare i sistemi AI, a causa di problemi come la frammentazione e la scarsa qualità dei contenuti. È essenziale riconoscere che, nonostante la vasta mole di dati su Internet, non tutta la conoscenza umana vi è rappresentata equamente, e non tutti i punti di vista sono inclusi. Inoltre, è possibile trovare online informazioni che possono risultare poco affidabili o imprecise.

Proprietà e controllo dei contenuti: la causa del NYT contro OpenAI e Microsoft

La causa legale intentata dal New York Times contro OpenAI e Microsoft può essere vista come un gesto simbolico, che segna un cambiamento nel dibattito sulla proprietà intellettuale e sui diritti d’autore nell’epoca digitale. La scelta di alcuni editori di limitare l’accesso ai loro contenuti da parte delle piattaforme AI sottolinea le loro preoccupazioni riguardo alla proprietà e al controllo dei contenuti originali.

Contemporaneamente, l’attivismo della comunità artistica evidenzia l’importanza di riconoscere e salvaguardare l’originalità e la singolarità delle opere d’arte nel contesto della produzione guidata dall’intelligenza artificiale. Emergono questioni etiche significative legate all’utilizzo di opere creative per formare le piattaforme AI senza il permesso esplicito degli autori.

Il circolo vizioso dei contenuti creati dall’IA: qualità dei dati in degrado

La proliferazione di contenuti generati dall’intelligenza artificiale su internet contribuisce a un circolo vizioso che può degradare ulteriormente la qualità dei dati utilizzabili per l’addestramento degli AI. È inoltre cruciale evidenziare che i modelli di intelligenza artificiale, come quelli sviluppati da OpenAI e Google, dipendono dai motori di ricerca per accedere alle informazioni. Questi motori, pur avanzati, selezionano le informazioni attraverso filtri che possono non riflettere appieno la diversità e l’ampiezza delle conoscenze disponibili su Internet, influenzati dai loro modelli di business legati principalmente alla pubblicità.

L’utilizzo di archivi web come il Common Crawl, sebbene ampiamente adottato dagli sviluppatori AI, si rivela limitato dato che solo una parte delle informazioni raccolte è effettivamente utile per l’addestramento AI.

Questi limiti pongono ostacoli all’apprendimento e allo sviluppo dei modelli di intelligenza artificiale, potendo rallentare il progresso in questo campo.

Per affrontare queste sfide, alcune organizzazioni, inclusa OpenAI, stanno investigando alternative innovative come la creazione di mercati dei dati, dove il valore delle informazioni utilizzate per la formazione può essere riconosciuto e remunerato, proponendo un approccio allo sviluppo dell’intelligenza artificiale più sostenibile ed etico.

Rischi e limiti dell’utilizzo di dati sintetici per l’addestramento AI

I dati sintetici, generati mediante l’uso di modelli di intelligenza artificiale, rappresentano una promettente soluzione alla problematica della scarsità di dati di alta qualità per la formazione degli AI. Questi dati possono mitigare la lacuna risultante dalla disponibilità limitata di dati online utili e dalle restrizioni di accesso imposte da determinate piattaforme. Tuttavia, l’utilizzo di dati sintetici non è privo di rischi, in quanto i modelli AI possono introdurre errori o bias nei dati prodotti. Errori che sarebbero amplificati se quei dati sintetici fossero a loro volta base di training.

Si arriva così a quello che è noto come “crollo del modello”, dove il modello genera risultati inconsistenti o privi di significato (gibberish).

OpenAI però credo di poter affrontare il problema con un approccio basato sull‘interazione tra due modelli AI: il primo genera dati (come testi o immagini), basandosi su quanto appreso dall’esposizione a dati reperiti sul web; il secondo valuta la qualità o l’utilità di tali dati. Questo processo emula un ciclo di feedback simile a quello umano, in cui il “creatore” propone idee e il “critico” ne valuta l’efficacia. Questa interazione ha il potenziale di generare dati sintetici di alta qualità, utili per l’addestramento di altri modelli AI, sebbene la sua efficacia sia fortemente dipendente dall’accuratezza del modello valutatore.

Nel futuro, l’impiego di dati sintetici nella formazione dell’AI potrebbe vedere lo sviluppo di metodologie più avanzate e affidabili per la loro creazione e valutazione. Con l’evoluzione tecnologica, è plausibile che i dati sintetici assumano un ruolo crescente nell’ecosistema dell’intelligenza artificiale, fornendo una risorsa preziosa per la formazione senza gravare sulle fonti di dati esistenti.

L’adozione di dati sintetici, nonostante i benefici di una produzione scalabile e la capacità di simulare vari scenari, solleva interrogativi significativi in termini etici e legali. Tale problematica si accentua quando i dati si ispirano o derivano da informazioni relative a persone reali, toccando questioni delicate quali la privacy, i diritti di proprietà intellettuale e la trasparenza nell’uso delle informazioni.

L’importanza della diversità e complessità del reale nei dati

Un aspetto fondamentale nell’uso di dati online o sintetici è la loro capacità di rappresentare fedelmente la diversità e complessità del reale. Questa limitazione diventa evidente considerando l’ampio spettro di informazioni presenti sul web che, nonostante la loro abbondanza, costituiscono solo una frazione dell’intero patrimonio conoscitivo umano. Aree di conoscenza come quelle legate a tradizioni orali o culture meno rappresentate online, documenti storici non digitalizzati o non disponibili per la formazione AI, rischiano di essere trascurate. Questa carenza si manifesta nel pericolo che i sistemi di intelligenza artificiale, nonostante i progressi tecnologici, non acquisiscano una comprensione autentica e profonda delle varie realtà umane e culturali.

Conseguenze etiche dell’uso dei dati online o sintetici

Il panorama attuale dell’intelligenza artificiale rappresenta un momento cruciale tanto per le aziende tecnologiche quanto per l’intero ecosistema digitale. L’aumento del fabbisogno di dati per creare modelli AI sofisticati evidenzia la necessità di una gestione dei dati che sia non solo efficiente ma anche etica. Le ripercussioni per le aziende trascendono gli aspetti tecnici, toccando le sfere strategica e filosofica e richiedendo una revisione critica delle pratiche di acquisizione, utilizzo e condivisione dei dati.

In questo scenario, le aziende, sia quelle nascenti sia quelle consolidate nel settore tecnologico, sono di fronte a una doppia esigenza. È imperativo, da un lato, innovare nei metodi di raccolta e analisi dei dati per assicurare l’evoluzione di soluzioni AI efficaci e adattabili. Dall’altro, si apre la possibilità di porsi come avanguardisti nell’ambito dell’etica digitale, valorizzando principi di trasparenza e rispetto della privacy e dei diritti di proprietà intellettuale. Questa strategia, oltre a prevenire potenziali dispute legali e problemi reputazionali, può rafforzare la fiducia con utenti e clienti, sempre più sensibili alle questioni etiche connesse al digitale.

L’impiego di dati sintetici, sebbene offra prospettive interessanti, necessita di una gestione prudente per prevenire il “crollo del modello” e garantire che i dati prodotti rappresentino fedelmente la diversità e la complessità del contesto umano.

Il ruolo dei dati nel business delle aziende tecnologiche

Nell’attuale era di rapido sviluppo dell’intelligenza artificiale generativa, la ricerca di fonti di dati affidabili per l’addestramento di modelli AI pone interrogativi cruciali per il mondo imprenditoriale. I dati rimangono una colonna portante dei modelli di business, specialmente quelli incentrati sulla proprietà intellettuale. Tuttavia, nell’attuale contesto dominato dall’AI, i dati acquistano un ulteriore livello di valore, diventando catalizzatori di innovazione e di sviluppo di nuove soluzioni, servizi o prodotti basati sull’AI. Questo trasforma i dati in una risorsa centrale all’interno di un nuovo mercato, dove le informazioni diventano una commodity scambiabile, capace di aprire nuove opportunità economiche. Le aziende sono quindi chiamate a bilanciare la protezione dei dati con la loro apertura, esplorando il potenziale innovativo dei dati nel contesto AI.

Strategie future per l’acquisizione e l’utilizzo dei dati nell’AI

La situazione attuale invita a una riflessione più ampia, evidenziando come, sebbene in passato le tecnologie digitali abbiano potuto diminuire il valore percepito della conoscenza rendendola più accessibile, ora lo stesso ambiente digitale offre l’opportunità di reinvestire e valorizzare la conoscenza attraverso una condivisione etica ed economica con le piattaforme AI. Ciò non solo stimolerebbe la creazione di nuova conoscenza, ma valorizzerebbe anche il contributo umano, spostando l’attenzione dalla semplice riproduzione alla generazione di nuove idee.

Conclusioni

In conclusione, per le aziende nel campo dell’AI, l’attuale contesto impone una riflessione critica su come affrontare le sfide legate alla crescente richiesta di dati. Innovare nelle tecniche di formazione e adottare un approccio etico e pragmatico alla gestione dei dati sono strategie chiave per consolidare un vantaggio competitivo sostenibile in un contesto in continua evoluzione a livello tecnologico, sociale e culturale.

@RIPRODUZIONE RISERVATA

Andrea Viliotti

Innovation Strategist

Aiuto startup B2B a trovare clienti ideali attraverso una lead generation basata su dati e profili LinkedIn, ottimizzando risorse e incrementando vendite

Seguimi su