intelligenza artificiale

Data, non sempre “big” è meglio: ecco come creare valore anche da pochi dati

L’analisi di Big Data crea valore e di questo ce ne rendiamo conto ogni giorno. Ma i dati devono essere “Big” per essere utili? Solo le grandi società di Internet possono estrarre valore dai dati? Sfatiamo questo mito: I dati devono “solo” essere sufficienti a descrivere il fenomeno che vogliamo analizzare

13 Mag 2022
Emanuele Della Valle

Politecnico di Milano

dati data big data data scraping

Quando ci domandiamo: “che film guardo questa sera?” troviamo la risposta grazie ai suggerimenti del servizio di streaming a cui siamo abbonati. Alla domanda: “come posso migliorare il comfort della mia sala?” Diamo risposta cercando “arredo sala” sul nostro e-commerce preferito. Prima di metterci in viaggio, guardiamo il navigatore. Si tratta di piccoli gesti quotidiani di centinaia di milioni di persone che nell’insieme costituiscono un flusso continuo di decisioni supportate dai dati; nel caso specifico dai “Big Data“.

Che ci piaccia o no, l’analisi di Big Data crea valore. Ma i dati devono essere “Big” per essere utili? Solo le grandi società di Internet possono estrarre valore dai dati? Veramente, a noi non resta che rinunciare ad una fetta della nostra privacy per usufruire dei loro servizi?

Non tutti i dati sono uguali: come uscire dal paradosso dei Big Data

Data, Big non vuol dire migliore

No, assolutamente no. I dati non devono essere per forza “Big”, devono “solo” essere sufficienti, per quantità e qualità, a descrivere il fenomeno che vogliamo analizzare. Per convincersi di questo fatto, basta pensare alle grandi scoperte che si sono susseguite a partire dal XVII secolo.

dIGITAL TALK
Droni, AI, Machine Leraning: l'esperienza di Terna sulla transizione energetica

Galileo Galilei

Galileo Galilei formulò il “principio di relatività” [1] che permise a Isaac Newton di formulare la “teoria della meccanica classica” [2] su un “pugno” di dati facilmente riproducibili da chiunque adottando il metodo sperimentale. Sono certo che vi ricordate di quando a scuola avete ripetuto gli esperimenti di Galileo facendo rotolare biglie d’acciaio su un piano inclinato e prendendo nota dei tempi che impiegavano a scendere. A fare la differenza, infatti, è proprio il metodo scientifico: la raccolta di dati empirici (le “sensate esperienze” di Galileo) da analizzare in modo rigoroso tramite la matematica (le “dimostrazioni necessarie” di Galileo).

La cometa di Halley

Il metodo scientifico, infatti, si può applicare a tutto. Tra i primi a capirlo, fu Edmond Halley, astronomo, matematico e fisico inglese contemporaneo di I. Newton. La cometa di Halley si chiama così proprio perché E. Halley ne predisse la ricomparsa nel 1758 basandosi sugli avvistamenti di comete nel 1456, 1531, 1607 e 1682. Là dove i suoi contemporanei avevano visto quattro eventi isolati, lui vide un pattern che si ripeteva. Lo stesso E. Halley, nel 1693 aiutò il governo britannico a stabilire il “giusto prezzo” delle rendite vitalizie basandosi sull’età dell’acquirente. Per farlo analizzò in modo rigoroso l’età alla morte dei cittadini di una città polacca (Wroclaw) nota per tenere una documentazione meticolosa. Pochi dati, di alta qualità, analizzati in modo rigoroso possono aiutarci a predire fenomeni naturali e a prendere decisioni.

L‘analisi di dati sportivi

Se la storia di E. Halley non vi ha appassionato, forse vi convincerà il mondo dell’analisi di dati sportivi. La storia racconta che nel 2001, quando ancora non si parlava di “Big Data” e il Machine Learning era ancora nei laboratori delle università, la squadra di baseball degli Oakland Athletics non avrebbe dovuto avere il budget per formare una squadra in grado di competere nel campionato professionistico del 2002, ma riuscì a mettere insieme una squadra che vinse 20 partire consecutive, battendo il record della lega professionistica americana. Billy Beane, general manager degli Oakland Athletics, avevano assemblato la squadra analizzando in modo innovativo le statistiche dei giocatori.

Billy Beane aveva assunto Bill James, noto come il creatore delle sabermetrics [3], che aveva osservato come le statistiche (come la media in battuta), utilizzate a quel tempo per stabilire il valore di mercato dei giocatori, erano scarsamente correlate alla capacità del giocatore di contribuire alla vittoria della squadra. B. James raccomandò a B. Beane di non comprare costosi battitori con alte medie in battuta, ma di concentrarsi su giocatori a basso costo con “alte percentuali in base”, un nuovo indicatore fortemente correlato alla capacità di fare fuoricampo al momento giusto. Appassionante, vero? Se vi è piaciuto, vi consiglio di guardate Moneyball, il film tratto da questa storia.

“Small Data”, come ricavare valore anche da pochi dati

A questo punto, però, potreste obiettare che sto parlando di statistica e non di Machine Learning o Intelligenza Artificiale. Queste tecniche sono effettivamente voraci di dati, ma vorrei sfatare il falso mito che le si possa usare solo con i Big Data. Gartner ha di recente coniato il termine “Small Data” [4] proprio per catturare una tendenza crescente nell’impiego di tecniche capaci di ricavare valore anche da pochi dati. In parte, Gartner usa il termine “Small Data” per fare riferimento proprio al rinnovato entusiasmo per le tecniche statistiche illustrate nella prima parte di questo articolo, ma nel contesto degli “Small Data” annovera anche tecniche di Machine Learning e Intelligenza Artificiale.

Normalmente un sistema di Machine Learning addestra un’Intelligenza Artificiale a compiere un certo task mostrandogli un numero estremamente grande di campioni. Ad esempio, nel riconoscimento di immagini si raccolgono milioni di immagini che ritraggono decine di migliaia di oggetti e si addestra un “modello” che data un’immagine restituisce il nome dell’oggetto mostrato. Potrà stupirvi, ma se a tale modello chiedete di classificare un’immagine che ritrae un oggetto per cui non lo avete addestrato, il modello restituisce comunque il nome di uno degli oggetti che conosce. Se ad esempio avete addestrato un modello per riconoscere, tra gli altri oggetti, “strisce pedonali” e “cavalli”, vi aspettereste che data una foto di una zebra vi dica almeno che “sembra” un cavallo, invece potrebbe tranquillamente dirvi che è una “striscia pedonale”.

La capacità di generalizzare che manca all’AI

Alle Intelligenze Artificiali costruite sui Big Data manca, tipicamente, la capacità di “generalizzare”. Gli esseri umani, invece, sono molto bravi nel farlo. La ragione sembra essere la nostra capacità di costruire collegamenti tra quello che abbiamo imparato in passato e quello che dobbiamo ancora imparare. Quando da bambini abbiamo imparato la parola “zebra” non l’abbiamo fatto vedendone diverse centinaia in tutte le possibili pose, ma collegando l’idea di cavallo a quella di strisce bianche e nere. Sapevamo riconoscere un cavallo. Avevamo le nozioni di striscia, di bianco e di nero. Le abbiamo “solo” collegate.

Il campo dell’Intelligenza Artificiale prova da oltre 40 anni a realizzare sistemi capaci di “generalizzare” e proprio in questi anni alcune di queste tecniche stanno arrivando ad una maturità sufficiente ad un loro impiego industriale. Semplificando, l’idea dei modelli addestrati con gli “small data” è: prendo un modello addestrato con i Big Data per assolvere ad un certo compito, lo addestro con “pochi” dati, che non ha mai visto, relativi a un compito simile, e ottengo un modello per risolvere il nuovo compito.

Per confronto, l’approccio Big Data avrebbe addestrato il nuovo modello da zero raccogliendo milioni di esempi del nuovo compito. L’approccio Small Data, invece, riutilizza la conoscenza appresa nel risolvere il primo compito e adatta il modello utilizzando centinaia, se non decine, di esempi del nuovo compito.

Se si riesce a trovare un modello già addestrato su Big Data sufficientemente vicino al problema che serve risolvere, i vantaggi delle tecniche Small Data sono chiari. Già dopo pochi esempi, il modello Small Data inizia ad avere una discreta accuratezza. Inoltre, il modello “small data” impara più in fretta di uno addestrato da zero e, di conseguenza, raggiunge accuratezze maggiori a parità di tempo e risorse impiegate.

Casi di successo sono stati riportati nei settori del riconoscimento di immagini, della comprensione del linguaggio naturale e del parlato. Ad esempio, nei corsi di Data Science applicata, che tengo come professore del Politecnico, mostro come sia facile realizzare un modello “Small Data” che riconosce una decina di stili pittorici (come “futurismo”, “impressionismo”, e “neoclassicismo”) a partire da InceptionV3 [5], un famoso modello addestrato su ImageNet (una raccolta di 14.197.122 immagini annotate con 21841 oggetti). Come primo passo, si prende InceptionV3, una modello di Deep Learning, e si elimina l’ultimo strato (la parte finale che effettua la classificazione) per avere accesso allo strato che riconosce le texture. Poi si addestra un classificatore base di Machine Learning (ad esempio un albero di decisione) a riconoscere gli stili. In pochi minuti si ottiene un modello “Small Data” con altissima accuratezza.

In modo molto simile, si possono realizzare in decine di minuti modelli “Small Data” per l’elaborazione del linguaggio naturale a partire da BERT [6], un modello addestrato sull’intera Wikipedia, capace di distinguere il significato delle parole “vecchia” e “porta” in due frasi come “la vecchia porta la bambina a scuola” e “la vecchia porta cigola”. Un altro esempio popolare è quello in cui si mostra come addestrare un modello in grado di riconoscere il tedesco parlato partendo da uno addestrato a riconoscere l’inglese.

Conclusioni

Tra i settori che più stanno beneficiando dei modelli “Small Data” spicca quello della sanità. Sono numerose le applicazioni nel settore del riconoscimento di immagini mediche. Un gruppo di ricerca di Google [7] ha mostrato come modelli “Small Data” addestrati adattando modelli sviluppati per ImageNet raggiungano, a una frazione del costo, accuratezze paragonabili a modelli “Big Data” addestrati da zero.

A limitare l’applicabilità di queste tecniche sono la possibile mancanza di modelli già addestrati su problemi sufficientemente simili a quello per cui li si vuole adattare e l’alto rischio di addestrare modelli troppo sensibili ai pochi esempi forniti. La strada per le applicazioni industriali per gli “Small Data” sembra, però, aperta e sta attraendo un crescente interesse. Se ne avete l’opportunità, vi invito a percorrerla. Gli Small Data sono alla portata di tutti.

Note

[1] G. Galilei. Dialogo sopra i due massimi sistemi del mondo. 1639

[2] I. Newton. Philosopiae Naturalis Principia Mathematica. 1687

[3] John T. Saccoman; Gabriel R. Costa; Michael R. Huber (2009). Practicing Sabermetrics: Putting the Science of Baseball Statistics to Work. United States of America: McFarland & Company. ISBN 978-0-7864-4177-8.

[4] https://www.gartner.com/en/newsroom/press-releases/2021-05-19-gartner-says-70-percent-of-organizations-will-shift-their-focus-from-big-to-small-and-wide-data-by-2025

[5] https://keras.io/api/applications/inceptionv3/

[6] https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html

[7] https://ai.googleblog.com/2019/12/understanding-transfer-learning-for.html

WHITEPAPER
Come gestire in maniera efficiente i dati nel Finance?
Big Data
Finanza/Assicurazioni
@RIPRODUZIONE RISERVATA

Speciale PNRR

Tutti
Incentivi
PA
Sostemibilità
Analisi
Formazione
Salute digitale
Sicurezza
Sostenibilità
Digital Economy
Formazione
Trasferimento tecnologico, il Mise mette sul piatto 7,5 milioni
Strategie
PSN e Strategia Cloud Italia: a che punto siamo e come supportare la PA in questo percorso
Dispersione idrica
Siccità: AI e analisi dei dati possono ridurre gli sprechi d’acqua. Ecco gli interventi necessari
PNRR
Cloud, firmato il contratto per l’avvio di lavori del Polo strategico
Formazione
Competenze digitali, stanziati 48 milioni per gli Istituti tecnologici superiori
Iniziative
Digitalizzazione delle reti idriche: oltre 600 milioni per 21 progetti
Competenze e competitività
PNRR, così i fondi UE possono rilanciare la ricerca e l’Università
Finanziamenti
PNRR, si sbloccano i fondi per l’agrisolare
Sanità post-pandemica
PNRR, Missione Salute: a che punto siamo e cosa resta da fare
Strategie
Sovranità e autonomia tecnologica nazionale: come avviare un processo virtuoso e sostenibile
La relazione
Pnrr e PA digitale, l’alert della Corte dei conti su execution e capacità di spesa
L'editoriale
Elezioni 2022, la sfida digitale ai margini del dibattito politico
Strategie
Digitale, il monito di I-Com: “Senza riforme Pnrr inefficace”
Transizione digitale
Pnrr: arrivano 321 milioni per cloud dei Comuni, spazio e mobilità innovativa
L'analisi I-COM
Il PNRR alla prova delle elezioni: come usare bene le risorse e centrare gli obiettivi digitali
Cineca
Quantum computing, una svolta per la ricerca: lo scenario europeo e i progetti in corso
L'indice europeo
Desi, l’Italia scala due posizioni grazie a fibra e 5G. Ma è (ancora) allarme competenze
L'approfondimento
PNRR 2, ecco tutte le misure per cittadini e imprese: portale sommerso, codice crisi d’impresa e sismabonus, cosa cambia
Servizi digitali
PNRR e trasformazione digitale: ecco gli investimenti e le riforme previste per la digitalizzazione della PA
Legal health
Lo spazio europeo dei dati sanitari: come circoleranno le informazioni sulla salute nell’Unione Europea
Servizi digitali
PNRR e PA digitale: non dimentichiamo la dematerializzazione
Digital Healthcare transformation
La trasformazione digitale degli ospedali
Governance digitale
PA digitale, è la volta buona? Così misure e risorse del PNRR possono fare la differenza
Servizi digitali
Comuni e digitale, come usare il PNRR senza sbagliare
La survey
Pnrr e digitale accoppiata vincente per il 70% delle pmi italiane
Missione salute
Fascicolo Sanitario Elettronico alla prova del PNRR: limiti, rischi e opportunità
Servizi pubblici
PNRR: come diventeranno i siti dei comuni italiani grazie alle nuove risorse
Skill gap
PNRR, la banda ultra larga crea 20.000 nuovi posti di lavoro
Il Piano
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUMPA2022
PNRR e trasformazione digitale: rivedi i Talk di FORUM PA 2022 in collaborazione con le aziende partner
I contratti
Avio, 340 milioni dal Pnrr per i nuovi propulsori a metano
Next Generation EU
PNRR, a che punto siamo e cosa possono aspettarsi le aziende private
Fondi
Operativo il nuovo portale del MISE con tutti i finanziamenti per le imprese
Servizi comunali
Il PNRR occasione unica per i Comuni digitali: strumenti e risorse per enti e cittadini
Healthcare data platform
PNRR dalla teoria alla pratica: tecnologie e soluzioni per l’innovazione in Sanità
Skill
Competenze digitali, partono le Reti di facilitazione
Gli obiettivi
Scuola 4.0, PNRR ultima chance: ecco come cambierà il sistema formativo
Sistema Paese
PNRR 2, è il turno della space economy
FORUM PA 2022
FORUM PA 2022: la maturità digitale dei comuni italiani rispetto al PNRR
Analisi
PNRR: dalla Ricerca all’impresa, una sfida da cogliere insieme
Innovazione
Pnrr, il Dipartimento per la Trasformazione digitale si riorganizza
FORUM PA 2022
PA verde e sostenibile: il ruolo di PNRR, PNIEC, energy management e green public procurement
Analisi
PNRR, Comuni e digitalizzazione: tutto su fondi e opportunità, in meno di 3 minuti. Guarda il video!
Rapporti
Competenze digitali e servizi automatizzati pilastri del piano Inps
Analisi
Attuazione del PNRR: il dialogo necessario tra istituzioni e società civile. Rivedi lo Scenario di FORUM PA 2022
Progetti
Pnrr, fondi per il Politecnico di Torino. Fra i progetti anche IS4Aerospace
Analisi
PNRR, Colao fa il punto sulla transizione digitale dell’Italia: «In linea con tutte le scadenze»
La Svolta
Ict, Istat “riclassifica” i professionisti. Via anche al catalogo dati sul Pnrr
Analisi
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUM PA 2022
Ecosistema territoriale sostenibile: l’Emilia Romagna tra FESR e PNRR
Il Piano
Innovazione, il Mise “centra” gli obiettivi Pnrr: attivati 17,5 miliardi
Analisi
PNRR: raggiunti gli obiettivi per il primo semestre 2022. Il punto e qualche riflessione
Analisi
PNRR: dal dialogo tra PA e società civile passa il corretto monitoraggio dei risultati, tra collaborazione e identità dei luoghi
Webinar
Comuni e PNRR: un focus sui bandi attivi o in pubblicazione
Analisi
Formazione 4.0: cos’è e come funziona il credito d’imposta
PA e Sicurezza
PA e sicurezza informatica: il ruolo dei territori di fronte alle sfide della digitalizzazione
PA e sicurezza
PNRR e servizi pubblici digitali: sfide e opportunità per Comuni e Città metropolitane
Water management
Water management in Italia: verso una transizione “smart” e “circular” 
LE RISORSE
Transizione digitale, Simest apre i fondi Pnrr alle medie imprese
Prospettive
Turismo, cultura e digital: come spendere bene le risorse del PNRR
Analisi
Smart City: quale contributo alla transizione ecologica
Decarbonizzazione
Idrogeno verde, 450 milioni € di investimenti PNRR, Cingolani firma
Unioncamere
PNRR, imprese in ritardo: ecco come le Camere di commercio possono aiutare
I fondi
Industria 4.0: solo un’impresa su tre pronta a salire sul treno Pnrr
Formazione
Trasferimento tecnologico, il Mise mette sul piatto 7,5 milioni
Strategie
PSN e Strategia Cloud Italia: a che punto siamo e come supportare la PA in questo percorso
Dispersione idrica
Siccità: AI e analisi dei dati possono ridurre gli sprechi d’acqua. Ecco gli interventi necessari
PNRR
Cloud, firmato il contratto per l’avvio di lavori del Polo strategico
Formazione
Competenze digitali, stanziati 48 milioni per gli Istituti tecnologici superiori
Iniziative
Digitalizzazione delle reti idriche: oltre 600 milioni per 21 progetti
Competenze e competitività
PNRR, così i fondi UE possono rilanciare la ricerca e l’Università
Finanziamenti
PNRR, si sbloccano i fondi per l’agrisolare
Sanità post-pandemica
PNRR, Missione Salute: a che punto siamo e cosa resta da fare
Strategie
Sovranità e autonomia tecnologica nazionale: come avviare un processo virtuoso e sostenibile
La relazione
Pnrr e PA digitale, l’alert della Corte dei conti su execution e capacità di spesa
L'editoriale
Elezioni 2022, la sfida digitale ai margini del dibattito politico
Strategie
Digitale, il monito di I-Com: “Senza riforme Pnrr inefficace”
Transizione digitale
Pnrr: arrivano 321 milioni per cloud dei Comuni, spazio e mobilità innovativa
L'analisi I-COM
Il PNRR alla prova delle elezioni: come usare bene le risorse e centrare gli obiettivi digitali
Cineca
Quantum computing, una svolta per la ricerca: lo scenario europeo e i progetti in corso
L'indice europeo
Desi, l’Italia scala due posizioni grazie a fibra e 5G. Ma è (ancora) allarme competenze
L'approfondimento
PNRR 2, ecco tutte le misure per cittadini e imprese: portale sommerso, codice crisi d’impresa e sismabonus, cosa cambia
Servizi digitali
PNRR e trasformazione digitale: ecco gli investimenti e le riforme previste per la digitalizzazione della PA
Legal health
Lo spazio europeo dei dati sanitari: come circoleranno le informazioni sulla salute nell’Unione Europea
Servizi digitali
PNRR e PA digitale: non dimentichiamo la dematerializzazione
Digital Healthcare transformation
La trasformazione digitale degli ospedali
Governance digitale
PA digitale, è la volta buona? Così misure e risorse del PNRR possono fare la differenza
Servizi digitali
Comuni e digitale, come usare il PNRR senza sbagliare
La survey
Pnrr e digitale accoppiata vincente per il 70% delle pmi italiane
Missione salute
Fascicolo Sanitario Elettronico alla prova del PNRR: limiti, rischi e opportunità
Servizi pubblici
PNRR: come diventeranno i siti dei comuni italiani grazie alle nuove risorse
Skill gap
PNRR, la banda ultra larga crea 20.000 nuovi posti di lavoro
Il Piano
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUMPA2022
PNRR e trasformazione digitale: rivedi i Talk di FORUM PA 2022 in collaborazione con le aziende partner
I contratti
Avio, 340 milioni dal Pnrr per i nuovi propulsori a metano
Next Generation EU
PNRR, a che punto siamo e cosa possono aspettarsi le aziende private
Fondi
Operativo il nuovo portale del MISE con tutti i finanziamenti per le imprese
Servizi comunali
Il PNRR occasione unica per i Comuni digitali: strumenti e risorse per enti e cittadini
Healthcare data platform
PNRR dalla teoria alla pratica: tecnologie e soluzioni per l’innovazione in Sanità
Skill
Competenze digitali, partono le Reti di facilitazione
Gli obiettivi
Scuola 4.0, PNRR ultima chance: ecco come cambierà il sistema formativo
Sistema Paese
PNRR 2, è il turno della space economy
FORUM PA 2022
FORUM PA 2022: la maturità digitale dei comuni italiani rispetto al PNRR
Analisi
PNRR: dalla Ricerca all’impresa, una sfida da cogliere insieme
Innovazione
Pnrr, il Dipartimento per la Trasformazione digitale si riorganizza
FORUM PA 2022
PA verde e sostenibile: il ruolo di PNRR, PNIEC, energy management e green public procurement
Analisi
PNRR, Comuni e digitalizzazione: tutto su fondi e opportunità, in meno di 3 minuti. Guarda il video!
Rapporti
Competenze digitali e servizi automatizzati pilastri del piano Inps
Analisi
Attuazione del PNRR: il dialogo necessario tra istituzioni e società civile. Rivedi lo Scenario di FORUM PA 2022
Progetti
Pnrr, fondi per il Politecnico di Torino. Fra i progetti anche IS4Aerospace
Analisi
PNRR, Colao fa il punto sulla transizione digitale dell’Italia: «In linea con tutte le scadenze»
La Svolta
Ict, Istat “riclassifica” i professionisti. Via anche al catalogo dati sul Pnrr
Analisi
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUM PA 2022
Ecosistema territoriale sostenibile: l’Emilia Romagna tra FESR e PNRR
Il Piano
Innovazione, il Mise “centra” gli obiettivi Pnrr: attivati 17,5 miliardi
Analisi
PNRR: raggiunti gli obiettivi per il primo semestre 2022. Il punto e qualche riflessione
Analisi
PNRR: dal dialogo tra PA e società civile passa il corretto monitoraggio dei risultati, tra collaborazione e identità dei luoghi
Webinar
Comuni e PNRR: un focus sui bandi attivi o in pubblicazione
Analisi
Formazione 4.0: cos’è e come funziona il credito d’imposta
PA e Sicurezza
PA e sicurezza informatica: il ruolo dei territori di fronte alle sfide della digitalizzazione
PA e sicurezza
PNRR e servizi pubblici digitali: sfide e opportunità per Comuni e Città metropolitane
Water management
Water management in Italia: verso una transizione “smart” e “circular” 
LE RISORSE
Transizione digitale, Simest apre i fondi Pnrr alle medie imprese
Prospettive
Turismo, cultura e digital: come spendere bene le risorse del PNRR
Analisi
Smart City: quale contributo alla transizione ecologica
Decarbonizzazione
Idrogeno verde, 450 milioni € di investimenti PNRR, Cingolani firma
Unioncamere
PNRR, imprese in ritardo: ecco come le Camere di commercio possono aiutare
I fondi
Industria 4.0: solo un’impresa su tre pronta a salire sul treno Pnrr

Articolo 1 di 4