l'analisi

I dati sintetici nuova frontiera dell’intelligenza artificiale: opportunità e limiti

I dati sintetici possono essere utilizzati per costruire i dataset più disparati e per molte applicazioni per le quali usare dati “reali” sarebbe un problema. Presentano molti vantaggi, in termini di qualità e possibilità di utilizzo, ma anche diverse criticità. Facciamo il punto

14 Lug 2021
Luigi Mischitelli

Privacy & Data Protection Specialist at IRCCS Casa Sollievo della Sofferenza

artificial intelligence act - IA umanocentrica - controllo dell'IA

I dati sintetici costituiscono quell’insieme di dati creati “artificialmente” dalle macchine (intelligenza artificiale) imitando il “mondo reale”. Tempo fa tale tipologia di dati era vista come meno desiderabile della tipologia dei dati “reali” la quale, in ogni caso, detiene ancora la “leadership mondiale”. Recentemente però, i dati sintetici stanno scalando la classifica, con un indice di appetibilità ai massimi storici.

Privacy, così i dati “sintetici” risolvono i problemi dell’intelligenza artificiale: i vantaggi

Per intendersi, i dati reali “soffrono” nell’essere “disordinati e pieni di distorsioni”; e le nuove regolamentazioni sulla protezione dei dati (come il GDPR), che interessano sempre più nazioni, rendono alcune volte difficoltoso il loro trattamento. Al contrario, i dati sintetici sono “incontaminati” e possono essere utilizzati per costruire i dataset più disparati. Si possono produrre volti perfettamente etichettati, ad esempio, di diverse età, forme ed etnie per costruire un sistema di riconoscimento facciale che funzioni nelle più svariate parti del mondo.

Tuttavia, i dati sintetici hanno i loro limiti. Ove non rispecchiassero fedelmente la realtà, potrebbero finire per produrre un’intelligenza artificiale ancora peggiore (se possibile!) dei dati reali, oppure – più semplicemente – potrebbero ereditarne gli stessi problemi (si pensi ai diffusissimi “bias” o pregiudizi).

Le applicazioni dei dati sintetici

Tra le applicazioni più curiose dei dati sintetici, quella dell’azienda israeliana Datagen spicca su tutte. Si pensi alla creazione di identità “umane” in tutto e per tutto simili alla realtà. Si può vedere un uomo (che uomo non è) con una leggera barba, le rughe sulla fronte e le macchie sulla pelle. Non è una persona reale, ma ha lo scopo di imitarla alla perfezione. Questi umani “artificiali” però, non sono avatar di un gioco o cartoni animati. Sono dati sintetici progettati per alimentare il crescente “appetito” degli algoritmi di intelligenza artificiale.

WHITEPAPER
Certificazioni GDPR: tutti i vantaggi per le organizzazioni che vi aderiscono
Legal
Privacy

Aziende come Datagen offrono un’alternativa convincente ed economica al costoso e lungo processo di raccolta dei dati del mondo reale. Per generare i suoi “esseri umani sintetici”, Datagen scansiona esseri umani “reali”. Sul punto tale azienda collabora con alcuni fornitori che, dietro pagamento, reclutano alcune persone per farsi “esaminare” da giganteschi body-scanner che catturano ogni dettaglio dell’essere umano, dall’iride alla struttura della pelle, sino alla curvatura delle dita. Successivamente l’azienda di Tel Aviv prende i dati grezzi e li “pompa” attraverso una serie di algoritmi che sviluppano rappresentazioni 3D del corpo, del viso, degli occhi e delle mani di una persona. Altre aziende concorrenti di Datagen, invece, generano dati da utilizzare nel campo della finanza, nel mondo delle assicurazioni e dell’assistenza sanitaria.

Anche nei dati la qualità batte la quantità

Negli ultimi anni, gli esperti di intelligenza artificiale hanno imparato che i dati di buona qualità (Good Data) sono più importanti dei dati “di grande quantità” (Big Data). In soldoni, piccole quantità di dati esatti, etichettati nel modo giusto, possono migliorare le prestazioni di un sistema di intelligenza artificiale fino a dieci volte di più che con l’utilizzo di una maggiore quantità di dati inesatti, anche se questi ultimi dovessero essere trattati con l’utilizzo di algoritmi più avanzati. Tuttavia, raccogliere dati del mondo reale per eseguire questo tipo di “sperimentazione” è costoso e richiede del tempo.

Ed è qui che entra in gioco Datagen. Con un generatore di dati sintetici, il team di Tel Aviv può creare e testare decine di nuovi dataset al giorno per identificare quale tra i tanti massimizza le prestazioni di un modello. Scartando gli altri. Per garantire che i suoi dati sintetici siano i più realistici possibile, Datagen dà ai suoi fornitori istruzioni dettagliate sul numero di individui da scansionare in ogni fascia d’età, con relativo indice di massa corporea ed etnia, così come un elenco di azioni da eseguire, come camminare in una stanza o bere una bibita. I fornitori mandano a Datagen sia immagini statiche ad alta fedeltà che dati relativi ai movimenti e alle azioni degli esseri umani interessati.

Gli algoritmi dell’azienda israeliana espandono successivamente questi dati in centinaia di migliaia di combinazioni. I dati sintetizzati vengono controllati di continuo, con – ad esempio – i volti artificiali continuamente confrontati con i volti sintetici, per testarne la realisticità. Ultimamente, Datagen sta generando espressioni facciali per monitorare l’allerta del guidatore nelle auto intelligenti (Smart Car), i movimenti del corpo per tracciare i clienti nei negozi senza addetti alle casse, e l’iride e i movimenti delle mani per migliorare le capacità di tracciamento degli occhi e delle mani nell’uso dei visori per la realtà aumentata. L’azienda israeliana ha affermato che i suoi dati sono già stati utilizzati per sviluppare sistemi di computer-vision in passato, rendendo il tutto una sorta di continuo esercizio applicativo.

Ma non sono solo gli esseri umani “artificiali” a essere prodotti in massa. Un’altra azienda israeliana, Click-Ins, utilizza l’intelligenza artificiale “sintetica” per eseguire ispezioni automatizzate delle Smart Car. Utilizzando un software ad hoc, l’azienda di Netanya ricrea tutte le marche e i modelli di auto che la sua Intelligenza Artificiale deve riconoscere, con i diversi colori, i danni e le deformazioni che possono interessare i veicoli in diverse condizioni di luce e di ambiente. Questo permette a Click-Ins di aggiornare la sua tecnologia di intelligenza artificiale quando le case automobilistiche mettono in circolazione nuovi modelli, evitando violazioni della normativa in materia di protezione dei dati personali nei paesi in cui le targhe sono considerate dati personali (si pensi al diverso approccio sul tema dei paesi UE riguardo le dashcam[1]). Recentemente alcuni ricercatori hanno dimostrato come le tecniche di generazione dei dati potrebbero essere utilizzate per estrapolare diverse categorie di pazienti da un singolo dataset. Questo potrebbe essere utile se, per esempio, un’azienda fosse in possesso dei soli dati della popolazione più giovane di New York City e, al contempo, volesse capire come la sua tecnologia di intelligenza artificiale si comporti su una popolazione anziana a maggior prevalenza di diabete.

La nostra privacy è davvero al sicuro?

Quando si tratta di protezione dei dati personali, il fatto che i dati siano sintetici e non corrispondano direttamente ai dati “reali” degli utenti non significa che non contengano informazioni sensibili relative a persone effettivamente esistenti. Ad esempio, alcune tecniche di generazione di dati hanno dimostrato di poter riprodurre da vicino immagini e testi presenti nei training data, con la possibilità concreta di risalire all’identità della persona reale. Questo potrebbe andare bene per un’azienda come Datagen, i cui dati sintetici non sono destinati a nascondere l’identità degli individui che hanno acconsentito a essere scansionati. Ma sarebbe una cattiva notizia per le aziende che offrono la loro soluzione come un modo per proteggere le informazioni finanziarie o l’identità di particolari categorie di pazienti. Tuttavia, secondo alcuni ricercatori, la combinazione di due tecniche abbinate ai dati sintetici (privacy differenziale e reti generative avversarie) può produrre una forte protezione dei dati personali degli utenti. Ma gli scettici si preoccupano che questa sfumatura possa essere persa nel gergo del “marketing dei fornitori di dati sintetici”, che non saranno sempre disponibili a comprendere quali tecniche stanno utilizzando in quel dato momento.

Conclusioni

Nel frattempo, alcune prove suggeriscono che i dati sintetici possano mitigare efficacemente la distorsione dei sistemi di intelligenza artificiale. Per prima cosa, estrapolare nuovi dati da un dataset esistente che è distorto non produce necessariamente dati che siano più rappresentativi. I dati grezzi di Datagen, per esempio, contengono proporzionalmente meno dati relativi alle minoranze etniche, il che significa che utilizza meno dati reali per generare “falsi umani” da quei gruppi. Anche se il processo di generazione non è del tutto preciso però, questi “falsi umani” potrebbero comunque avere maggiori probabilità di divergere dalla realtà.

D’altro canto, i dataset perfettamente bilanciati non si traducono automaticamente in sistemi di intelligenza artificiale perfettamente equi. Se un’azienda di servizi di carte di credito stesse cercando di sviluppare un algoritmo di intelligenza artificiale per valutare i potenziali mutuatari, non eliminerebbe tutte le possibili discriminazioni relative alle persone di etnia caucasica o alle persone di etnia afroamericana. La (potenziale) discriminazione è sempre dietro l’angolo. Per complicare ulteriormente le cose, le prime ricerche mostrano che, in alcuni casi, potrebbe anche non essere possibile ottenere un’intelligenza artificiale equa partendo dai dati sintetici. Alcuni ricercatori hanno recentemente scoperto di non essere stati in grado di creare un accurato sistema di IA applicata al campo medico quando hanno cercato di creare un dataset “sintetico” diverso attraverso la combinazione di privacy differenziale e reti generative avversarie. Niente di tutto ciò, però, sta a significare che i dati sintetici non dovrebbero essere utilizzati tout court. In effetti, come si può percepire, potrebbe diventare presto una necessità.[2]

Note

  1. Dashcam e Gdpr: il punto sugli interventi delle autorità privacy europee. Agenda Digitale. https://www.agendadigitale.eu/sicurezza/privacy/dashcam-e-gdpr-il-punto-sugli-interventi-delle-autorita-privacy-europee/
  2. These creepy fake humans herald a new age in AI. MIT Technology Review. https://www.technologyreview.com/2021/06/11/1026135/ai-synthetic-data/
@RIPRODUZIONE RISERVATA

Speciale PNRR

Tutti
Incentivi
PA
Sostemibilità
Analisi
Formazione
Salute digitale
Sicurezza
Sostenibilità
Digital Economy
Formazione
Trasferimento tecnologico, il Mise mette sul piatto 7,5 milioni
Strategie
PSN e Strategia Cloud Italia: a che punto siamo e come supportare la PA in questo percorso
Dispersione idrica
Siccità: AI e analisi dei dati possono ridurre gli sprechi d’acqua. Ecco gli interventi necessari
PNRR
Cloud, firmato il contratto per l’avvio di lavori del Polo strategico
Formazione
Competenze digitali, stanziati 48 milioni per gli Istituti tecnologici superiori
Iniziative
Digitalizzazione delle reti idriche: oltre 600 milioni per 21 progetti
Competenze e competitività
PNRR, così i fondi UE possono rilanciare la ricerca e l’Università
Finanziamenti
PNRR, si sbloccano i fondi per l’agrisolare
Sanità post-pandemica
PNRR, Missione Salute: a che punto siamo e cosa resta da fare
Strategie
Sovranità e autonomia tecnologica nazionale: come avviare un processo virtuoso e sostenibile
La relazione
Pnrr e PA digitale, l’alert della Corte dei conti su execution e capacità di spesa
L'editoriale
Elezioni 2022, la sfida digitale ai margini del dibattito politico
Strategie
Digitale, il monito di I-Com: “Senza riforme Pnrr inefficace”
Transizione digitale
Pnrr: arrivano 321 milioni per cloud dei Comuni, spazio e mobilità innovativa
L'analisi I-COM
Il PNRR alla prova delle elezioni: come usare bene le risorse e centrare gli obiettivi digitali
Cineca
Quantum computing, una svolta per la ricerca: lo scenario europeo e i progetti in corso
L'indice europeo
Desi, l’Italia scala due posizioni grazie a fibra e 5G. Ma è (ancora) allarme competenze
L'approfondimento
PNRR 2, ecco tutte le misure per cittadini e imprese: portale sommerso, codice crisi d’impresa e sismabonus, cosa cambia
Servizi digitali
PNRR e trasformazione digitale: ecco gli investimenti e le riforme previste per la digitalizzazione della PA
Legal health
Lo spazio europeo dei dati sanitari: come circoleranno le informazioni sulla salute nell’Unione Europea
Servizi digitali
PNRR e PA digitale: non dimentichiamo la dematerializzazione
Digital Healthcare transformation
La trasformazione digitale degli ospedali
Governance digitale
PA digitale, è la volta buona? Così misure e risorse del PNRR possono fare la differenza
Servizi digitali
Comuni e digitale, come usare il PNRR senza sbagliare
La survey
Pnrr e digitale accoppiata vincente per il 70% delle pmi italiane
Missione salute
Fascicolo Sanitario Elettronico alla prova del PNRR: limiti, rischi e opportunità
Servizi pubblici
PNRR: come diventeranno i siti dei comuni italiani grazie alle nuove risorse
Skill gap
PNRR, la banda ultra larga crea 20.000 nuovi posti di lavoro
Il Piano
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUMPA2022
PNRR e trasformazione digitale: rivedi i Talk di FORUM PA 2022 in collaborazione con le aziende partner
I contratti
Avio, 340 milioni dal Pnrr per i nuovi propulsori a metano
Next Generation EU
PNRR, a che punto siamo e cosa possono aspettarsi le aziende private
Fondi
Operativo il nuovo portale del MISE con tutti i finanziamenti per le imprese
Servizi comunali
Il PNRR occasione unica per i Comuni digitali: strumenti e risorse per enti e cittadini
Healthcare data platform
PNRR dalla teoria alla pratica: tecnologie e soluzioni per l’innovazione in Sanità
Skill
Competenze digitali, partono le Reti di facilitazione
Gli obiettivi
Scuola 4.0, PNRR ultima chance: ecco come cambierà il sistema formativo
Sistema Paese
PNRR 2, è il turno della space economy
FORUM PA 2022
FORUM PA 2022: la maturità digitale dei comuni italiani rispetto al PNRR
Analisi
PNRR: dalla Ricerca all’impresa, una sfida da cogliere insieme
Innovazione
Pnrr, il Dipartimento per la Trasformazione digitale si riorganizza
FORUM PA 2022
PA verde e sostenibile: il ruolo di PNRR, PNIEC, energy management e green public procurement
Analisi
PNRR, Comuni e digitalizzazione: tutto su fondi e opportunità, in meno di 3 minuti. Guarda il video!
Rapporti
Competenze digitali e servizi automatizzati pilastri del piano Inps
Analisi
Attuazione del PNRR: il dialogo necessario tra istituzioni e società civile. Rivedi lo Scenario di FORUM PA 2022
Progetti
Pnrr, fondi per il Politecnico di Torino. Fra i progetti anche IS4Aerospace
Analisi
PNRR, Colao fa il punto sulla transizione digitale dell’Italia: «In linea con tutte le scadenze»
La Svolta
Ict, Istat “riclassifica” i professionisti. Via anche al catalogo dati sul Pnrr
Analisi
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUM PA 2022
Ecosistema territoriale sostenibile: l’Emilia Romagna tra FESR e PNRR
Il Piano
Innovazione, il Mise “centra” gli obiettivi Pnrr: attivati 17,5 miliardi
Analisi
PNRR: raggiunti gli obiettivi per il primo semestre 2022. Il punto e qualche riflessione
Analisi
PNRR: dal dialogo tra PA e società civile passa il corretto monitoraggio dei risultati, tra collaborazione e identità dei luoghi
Webinar
Comuni e PNRR: un focus sui bandi attivi o in pubblicazione
Analisi
Formazione 4.0: cos’è e come funziona il credito d’imposta
PA e Sicurezza
PA e sicurezza informatica: il ruolo dei territori di fronte alle sfide della digitalizzazione
PA e sicurezza
PNRR e servizi pubblici digitali: sfide e opportunità per Comuni e Città metropolitane
Water management
Water management in Italia: verso una transizione “smart” e “circular” 
LE RISORSE
Transizione digitale, Simest apre i fondi Pnrr alle medie imprese
Prospettive
Turismo, cultura e digital: come spendere bene le risorse del PNRR
Analisi
Smart City: quale contributo alla transizione ecologica
Decarbonizzazione
Idrogeno verde, 450 milioni € di investimenti PNRR, Cingolani firma
Unioncamere
PNRR, imprese in ritardo: ecco come le Camere di commercio possono aiutare
I fondi
Industria 4.0: solo un’impresa su tre pronta a salire sul treno Pnrr
Formazione
Trasferimento tecnologico, il Mise mette sul piatto 7,5 milioni
Strategie
PSN e Strategia Cloud Italia: a che punto siamo e come supportare la PA in questo percorso
Dispersione idrica
Siccità: AI e analisi dei dati possono ridurre gli sprechi d’acqua. Ecco gli interventi necessari
PNRR
Cloud, firmato il contratto per l’avvio di lavori del Polo strategico
Formazione
Competenze digitali, stanziati 48 milioni per gli Istituti tecnologici superiori
Iniziative
Digitalizzazione delle reti idriche: oltre 600 milioni per 21 progetti
Competenze e competitività
PNRR, così i fondi UE possono rilanciare la ricerca e l’Università
Finanziamenti
PNRR, si sbloccano i fondi per l’agrisolare
Sanità post-pandemica
PNRR, Missione Salute: a che punto siamo e cosa resta da fare
Strategie
Sovranità e autonomia tecnologica nazionale: come avviare un processo virtuoso e sostenibile
La relazione
Pnrr e PA digitale, l’alert della Corte dei conti su execution e capacità di spesa
L'editoriale
Elezioni 2022, la sfida digitale ai margini del dibattito politico
Strategie
Digitale, il monito di I-Com: “Senza riforme Pnrr inefficace”
Transizione digitale
Pnrr: arrivano 321 milioni per cloud dei Comuni, spazio e mobilità innovativa
L'analisi I-COM
Il PNRR alla prova delle elezioni: come usare bene le risorse e centrare gli obiettivi digitali
Cineca
Quantum computing, una svolta per la ricerca: lo scenario europeo e i progetti in corso
L'indice europeo
Desi, l’Italia scala due posizioni grazie a fibra e 5G. Ma è (ancora) allarme competenze
L'approfondimento
PNRR 2, ecco tutte le misure per cittadini e imprese: portale sommerso, codice crisi d’impresa e sismabonus, cosa cambia
Servizi digitali
PNRR e trasformazione digitale: ecco gli investimenti e le riforme previste per la digitalizzazione della PA
Legal health
Lo spazio europeo dei dati sanitari: come circoleranno le informazioni sulla salute nell’Unione Europea
Servizi digitali
PNRR e PA digitale: non dimentichiamo la dematerializzazione
Digital Healthcare transformation
La trasformazione digitale degli ospedali
Governance digitale
PA digitale, è la volta buona? Così misure e risorse del PNRR possono fare la differenza
Servizi digitali
Comuni e digitale, come usare il PNRR senza sbagliare
La survey
Pnrr e digitale accoppiata vincente per il 70% delle pmi italiane
Missione salute
Fascicolo Sanitario Elettronico alla prova del PNRR: limiti, rischi e opportunità
Servizi pubblici
PNRR: come diventeranno i siti dei comuni italiani grazie alle nuove risorse
Skill gap
PNRR, la banda ultra larga crea 20.000 nuovi posti di lavoro
Il Piano
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUMPA2022
PNRR e trasformazione digitale: rivedi i Talk di FORUM PA 2022 in collaborazione con le aziende partner
I contratti
Avio, 340 milioni dal Pnrr per i nuovi propulsori a metano
Next Generation EU
PNRR, a che punto siamo e cosa possono aspettarsi le aziende private
Fondi
Operativo il nuovo portale del MISE con tutti i finanziamenti per le imprese
Servizi comunali
Il PNRR occasione unica per i Comuni digitali: strumenti e risorse per enti e cittadini
Healthcare data platform
PNRR dalla teoria alla pratica: tecnologie e soluzioni per l’innovazione in Sanità
Skill
Competenze digitali, partono le Reti di facilitazione
Gli obiettivi
Scuola 4.0, PNRR ultima chance: ecco come cambierà il sistema formativo
Sistema Paese
PNRR 2, è il turno della space economy
FORUM PA 2022
FORUM PA 2022: la maturità digitale dei comuni italiani rispetto al PNRR
Analisi
PNRR: dalla Ricerca all’impresa, una sfida da cogliere insieme
Innovazione
Pnrr, il Dipartimento per la Trasformazione digitale si riorganizza
FORUM PA 2022
PA verde e sostenibile: il ruolo di PNRR, PNIEC, energy management e green public procurement
Analisi
PNRR, Comuni e digitalizzazione: tutto su fondi e opportunità, in meno di 3 minuti. Guarda il video!
Rapporti
Competenze digitali e servizi automatizzati pilastri del piano Inps
Analisi
Attuazione del PNRR: il dialogo necessario tra istituzioni e società civile. Rivedi lo Scenario di FORUM PA 2022
Progetti
Pnrr, fondi per il Politecnico di Torino. Fra i progetti anche IS4Aerospace
Analisi
PNRR, Colao fa il punto sulla transizione digitale dell’Italia: «In linea con tutte le scadenze»
La Svolta
Ict, Istat “riclassifica” i professionisti. Via anche al catalogo dati sul Pnrr
Analisi
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUM PA 2022
Ecosistema territoriale sostenibile: l’Emilia Romagna tra FESR e PNRR
Il Piano
Innovazione, il Mise “centra” gli obiettivi Pnrr: attivati 17,5 miliardi
Analisi
PNRR: raggiunti gli obiettivi per il primo semestre 2022. Il punto e qualche riflessione
Analisi
PNRR: dal dialogo tra PA e società civile passa il corretto monitoraggio dei risultati, tra collaborazione e identità dei luoghi
Webinar
Comuni e PNRR: un focus sui bandi attivi o in pubblicazione
Analisi
Formazione 4.0: cos’è e come funziona il credito d’imposta
PA e Sicurezza
PA e sicurezza informatica: il ruolo dei territori di fronte alle sfide della digitalizzazione
PA e sicurezza
PNRR e servizi pubblici digitali: sfide e opportunità per Comuni e Città metropolitane
Water management
Water management in Italia: verso una transizione “smart” e “circular” 
LE RISORSE
Transizione digitale, Simest apre i fondi Pnrr alle medie imprese
Prospettive
Turismo, cultura e digital: come spendere bene le risorse del PNRR
Analisi
Smart City: quale contributo alla transizione ecologica
Decarbonizzazione
Idrogeno verde, 450 milioni € di investimenti PNRR, Cingolani firma
Unioncamere
PNRR, imprese in ritardo: ecco come le Camere di commercio possono aiutare
I fondi
Industria 4.0: solo un’impresa su tre pronta a salire sul treno Pnrr

Articolo 1 di 2