L’utilizzo dell’intelligenza artificiale (IA) impone agli operatori economici e pubblici un profondo ripensamento delle modalità di raccolta, conservazione, organizzazione e impiego dei dati.
Sistemi basati su modelli quali il machine learning (con cui, sinteticamente, si intende un’attività di apprendimento – e miglioramento – automatico, in assenza di specifica programmazione, assimilabile al comportamento intelligente umano, anche fondato sull’esperienza) e deep learning (una tipologia di machine learning che adotta reti neurali artificiali, con modalità ispirate al funzionamento del cervello umano) implicano un “addestramento” fondato su dataset composti da dati prevalentemente eterogenei, complessi e voluminosi, con profili giuridici e tecnici che richiedono una governance solida e conforme.
Si verte dunque in un contesto di costante rischio sotto il profilo della violazione dei diritti di terzi, del trattamento illecito di dati personali ovvero di effetti impropri a seguito dell’adozione e impiego di dati incompleti, inaccurati o distorti. L’evoluzione del quadro normativo interno ed europeo, in concorrenza con le discipline legali preesistenti, fornisce un sistema articolato di regole che le imprese devono conoscere per progettare processi conformi e sicuri.
Indice degli argomenti
Dataset aziendali per l’addestramento IA: contesto e rischi iniziali
I sistemi di IA si fondano su dataset aziendali che rappresentano la base su cui il modello apprende e migliora le proprie prestazioni. La complessità e l’eterogeneità dei dati utilizzati amplificano i rischi di errore, bias e violazioni normative, imponendo un approccio strutturato alla selezione, alla qualità e alla liceità delle informazioni impiegate.
In assenza di adeguate misure di governo del dato, l’impiego di dataset non corretti, poco rappresentativi o non aggiornati può condurre a decisioni distorte, discriminazioni, trattamenti illeciti di dati personali e, in ultima analisi, a responsabilità legali e danni reputazionali per l’organizzazione che utilizza i sistemi di IA.
Il quadro normativo su IA e dataset aziendali per l’addestramento IA
Il Regolamento UE 2024/1689 (AI Act) introduce per l’Unione Europea un quadro uniforme in materia di IA, partendo dalla classificazione dei sistemi secondo l’approccio del rischio. Abbiamo così le seguenti categorie:
- “Rischio inaccettabile” (art. 5 del Regolamento), dunque vietato, tra cui vi sono – sinteticamente ed esemplificativamente –: i sistemi che adottano tecniche manipolative, anche verso soggetti cosiddetti vulnerabili; i sistemi che “catalogano” le persone o i gruppi di persone in base a condotte sociali o caratteristiche personali laddove tale attività determini specifiche conseguenze pregiudizievoli; i sistemi che “categorizzano” i soggetti in base a dati biometrici o svolgono identificazione biometrica in tempo reale, salvi casi particolari; i sistemi che valutano l’eventualità che una persona commetta un reato; i sistemi che creano database di riconoscimento facciale attraverso attività di scraping.
- “Alto rischio” ossia, in estrema sintesi, quei sistemi che funzionano come componenti di sicurezza rispetto a prodotti disciplinati dalla normativa di armonizzazione dell’Unione – ovvero che costituiscono essi stessi “prodotti di sicurezza” – (articolo 6, paragrafo 1, e allegato I), oppure che presentano rischi significativi per la salute, la sicurezza o i diritti fondamentali delle persone (articolo 6, paragrafo 2, e allegato III). Si tratta di tecnologie che presentano un rischio significativo di arrecare pregiudizio: l’uso e la distribuzione di tali sistemi sono dunque consentiti solo in presenza di specifici controlli di sicurezza e adempimenti che riguardano tanto i fornitori quanto i distributori.
- “Rischio di trasparenza” (Capo IV) per il quale è stabilito un mero obbligo di informare l’utente sulla natura artificiale del sistema (art. 50).
- “Rischio minimo” (Capo X) che interessa sistemi di impatto trascurabile, non soggetti ad ulteriori obblighi al di là di quanto già previsto a livello di regolamentazione preesistente.
La disciplina europea è poi integrata dalla Legge 23 settembre 2025 n. 132, che stabilisce principi nazionali sull’uso dell’IA, affidando all’Agenzia per l’Italia Digitale (AgID) funzioni di coordinamento e monitoraggio e all’Agenzia per la Cybersicurezza Nazionale (ACN) compiti di vigilanza in materia di sicurezza e conformità dei sistemi IA. La legge integra il quadro europeo e introduce deleghe per future norme tecniche anche sull’addestramento dei modelli.
Parallelamente, la stessa recente normativa di settore conferma la cogenza del GDPR (Regolamento UE 2016/679) quale fonte primaria in materia di trattamento dei dati personali. Ancora, di rilievo ai fini dell’addestramento dei sistemi, la disciplina sul diritto d’autore (Direttiva 2019/790 e normativa di settore interna) in relazione alle ovvie problematicità implicate dall’impiego di dati protetti.
Deployer IA e gestione sicura dei dataset aziendali per l’addestramento IA
All’esito della panoramica generale sulla normativa applicabile, è possibile individuare i principali obblighi ai quali operatori e aziende sono tenuti, quali “deployer IA”, termine adottato dal Regolamento per riferirsi ai soggetti che utilizzano, sotto la propria autorità, sistemi di intelligenza artificiale per scopi professionali o istituzionali.
L’art. 26 del Regolamento pone, prima di tutto, norme cautelative e di buon senso quali l’obbligo, in capo al deployer utilizzatore di sistemi ad alto rischio, di adottare “idonee misure tecniche e organizzative per garantire di utilizzare tali sistemi conformemente alle istruzioni per l’uso che accompagnano i sistemi” e di affidare la sorveglianza umana sull’utilizzo dei sistemi a persone dotate di competenza, formazione e “autorità” presso l’organizzazione.
Vi è dunque l’esigenza di monitorare il funzionamento del sistema di IA ad alto rischio e predisporre una struttura interna capace di adempiere, in caso di incidente, alle necessarie comunicazioni informative al fornitore/distributore e alla competente autorità.
Sono poi previsti obblighi operativi quali la conservazione per un periodo minimo di sei mesi dei log (record che documenta le attività e le operazioni all’interno di un sistema informatico) generati automaticamente dal sistema di IA ad alto rischio, nonché obblighi informativi nei confronti dei soggetti, persone fisiche, interessati o destinatari di decisioni adottate o assistite dall’intelligenza artificiale.
Sul luogo di lavoro, è altresì necessario informare le associazioni di rappresentanza dei lavoratori. Un ulteriore obbligo è costituito dalla Fundamental Rights Impact Assessment (FRIA), adempimento necessario per valutare l’impatto del sistema di IA sui diritti fondamentali.
È dunque necessario per gli operatori integrare le previsioni dell’AI Act all’interno dei modelli di compliance aziendale, promuovendo la cooperazione tra diverse funzioni e ruoli aziendali in un contesto di consapevolezza e conoscenza, a partire dall’identificazione dei sistemi utilizzati e dalla loro corretta classificazione sotto il profilo del rischio, fino alla verifica costante degli obblighi giuridici derivanti.
Centrale, pertanto, il ruolo della formazione del personale, imprescindibile nell’ottica di fornire alle singole risorse impegnate nell’utilizzo dei sistemi e nell’attività di addestramento le conoscenze necessarie per garantire la conformità in tutte le fasi dei processi interni.
Provenienza dei dati e costruzione dei dataset aziendali per l’addestramento IA
Venendo al tema specifico, l’addestramento dei modelli di IA ha moltissime applicazioni utili all’impresa per migliorare o controllare la gestione, l’efficienza, la produttività, effettuare previsioni (ad esempio, sulla base dello storico, circa il guasto di un macchinario) o persino assumere decisioni.
La fase rilevante dell’addestramento è caratterizzata dalla selezione e pre-elaborazione dei dati, i quali vanno raccolti e adottati secondo principi di rilevanza, correttezza e liceità. Tali dati vengono dunque forniti al sistema unitamente alle informazioni/indicazioni rilevanti, per l’addestramento vero e proprio e la successiva valutazione sull’efficienza del sistema.
Nel contesto dell’intelligenza artificiale si adotta il termine dataset con cui si intende l’insieme strutturato di dati utilizzati per addestrare, validare o testare un sistema; si tratta dunque della base su cui si sviluppa il comportamento del modello: più è rilevante, corretto e rappresentativo, maggiore sarà la qualità dei risultati.
Il valore dei sistemi di IA dipende dunque strettamente dal dato che li alimenta: un dataset difforme non costituisce solo una criticità tecnica, ma una potenziale fonte di responsabilità civile, amministrativa e reputazionale. Nell’ottica di non incorrere in violazioni normative o criticità tecniche, le organizzazioni devono costituire il dataset secondo criteri di pertinenza, rappresentatività, correttezza e ampiezza, garantendo un controllo sull’intero ciclo del dato tramite processi strutturati volti a garantire la qualità del dataset anche durante gli aggiornamenti.
È dunque necessario attenzionare il profilo della provenienza e liceità delle fonti, distinguendo tra: dati generati internamente, dati provenienti da fornitori (necessari chiarimenti contrattuali), dati pubblici o open data (da verificare rispetto a licenze e condizioni d’uso), applicando a ciascuna categoria i criteri legali dettati dalle varie discipline rilevanti.
Protezione dei dati personali nei processi di addestramento
Sotto il profilo della protezione dei dati personali, valgono i principi generali di liceità del trattamento, in base al quale occorre individuare correttamente la base giuridica – generalmente tra il legittimo interesse (previa valutazione d’impatto), il consenso o l’esecuzione del contratto – ovvero il principio di minimizzazione e limitazione delle finalità, secondo cui i dati raccolti e trattati debbono essere pertinenti e necessari rispetto allo scopo.
Pertanto, l’inserimento di dati personali nell’ambito di operazioni di addestramento dei sistemi di IA in violazione dei suddetti principi costituisce un fatto giuridicamente rilevante, potenzialmente foriero di responsabilità amministrativa (sanzionatoria) o civile (risarcitoria). Per elidere (non certo eliminare) i rischi e potenziali contesti di illiceità, è dunque necessario che l’operatore integri le proprie procedure interne di compliance privacy, sotto il profilo dell’informativa e della gestione del consenso, da implementare tenendo conto dei trattamenti interessati dall’uso dell’intelligenza artificiale.
Diritto d’autore, TDM e informazioni riservate nei dataset aziendali per l’addestramento IA
Sussistono, inoltre, evidenti contesti di rischio connessi alla violazione del diritto d’autore/proprietà intellettuale (marchi, opere protette, ecc.), anche qui con potenziali esposizioni risarcitorie. Molto pertinente il previsto diritto in capo ai titolari di diritti d’autore di esercitare una riserva (c.d. “opt-out”) per impedire l’utilizzo delle proprie opere per l’addestramento dei sistemi di intelligenza artificiale, come originariamente previsto dalla Direttiva UE 2019/790 e confermato dal Regolamento UE 2024/1689.
In particolare, la Direttiva ha introdotto in capo ai titolari la facoltà di riservare l’uso delle proprie opere rispetto alle pratiche di estrazione automatizzata di dati e contenuti (Text and Data Mining – TDM: ossia processi automatizzati di analisi di ampi volumi di dati e testi digitali, spesso utilizzati per addestrare modelli di intelligenza artificiale).
Altamente probabili, inoltre, situazioni di rischio legate a inadempimenti contrattuali in relazione a impegni di riservatezza assunti pattiziamente su determinate informazioni. D’altro canto, nell’ambito dell’attività contrattualistica commerciale, la presenza di informazioni e dati “rischiosi” è inevitabile al di là dell’esistenza di previsioni espresse di segretezza o riservatezza.
Sono dunque raccomandabili prassi finalizzate a procurarsi i diritti di utilizzo dell’informazione o del dato per le finalità di addestramento, così da ridurre le esposizioni al contenzioso e rendere maggiormente trasparente la gestione dei dataset aziendali.
Modelli di governance, controlli e qualità dei dati
Da qui l’importanza della verifica preliminare sulla provenienza del dato, affidata sia a screening automatizzati sia alla successiva verifica da parte di soggetti qualificati e formati, dotati delle conoscenze tecniche necessarie per individuare contesti di potenziale rischio sotto il profilo legale.
Identiche procedure automatizzate, sempre sotto la supervisione e la verifica umana, vanno poi adottate per limitare il profilo della responsabilità in caso di errori, onde verificare incidenti o pregiudizi sotto il profilo della qualità. Invero, errori, duplicazioni o dataset sbilanciati possono compromettere l’affidabilità del modello e viziare la stessa fase di addestramento.
Le organizzazioni dovrebbero dunque istituire team interfunzionali (data scientist, legali, DPO) per implementare le metriche di qualità, documentare i processi di pulizia e normalizzazione dei dataset e dimostrare, anche verso l’esterno, l’adozione di un approccio strutturato alla gestione dei dati.
Sotto il profilo operativo, si impone la necessità di un modello di governance che includa, tra le altre cose: la catalogazione e classificazione dei dati (ossia un inventario centralizzato che consenta di tracciare origine, struttura, rischi e finalità dei dataset); procedure di anonimizzazione e pseudonimizzazione (tecniche che riducono l’esposizione dei dati personali e permettono un uso più sicuro e meno rischioso nei processi di addestramento); audit periodici (verifiche regolari che permettono di identificare errori e difformità); politiche di sicurezza interne e di governo dell’accesso (predeterminazione e chiarezza su ruoli, responsabilità e accessibilità); lifecycle management (ossia gestione dell’intero ciclo di vita dei dati con politiche per l’acquisizione e il trattamento); aggiornamento e formazione continua per il personale sotto il profilo tecnico ed etico.
Conformità by design e benefici per l’IA aziendale
La conformità non è dunque solo un tema giuridico ma una componente del design del sistema di IA e della fase di addestramento: un approccio integrato riduce rischi legali, migliora la qualità dei modelli e rende l’IA aziendale più trasparente, affidabile e sostenibile nel tempo. L’integrazione tra competenze tecniche, legali e organizzative costituisce, in questo scenario, un vero e proprio vantaggio competitivo per le imprese e gli enti che adottano l’intelligenza artificiale.
















