disclosure

AI Act: la trasparenza dei dati diventa un obbligo per le aziende



Indirizzo copiato

La Commissione Europea ha introdotto l’obbligo di disclosure dei dati di addestramento per i modelli di intelligenza artificiale generici. Un passo fondamentale per garantire trasparenza e accountability nel settore

Pubblicato il 1 ott 2025

Federica Giaquinta

Consigliere direttivo di Internet Society Italia



algoritmi trasparenza (1) AI trasparente

L’adozione da parte della Commissione europea di un modello standardizzato per la sintesi dei dati utilizzati nell’addestramento dei sistemi di intelligenza artificiale generici rappresenta uno degli snodi più significativi nell’attuazione concreta dell’AI Act, poiché per la prima volta si impone ai fornitori di tali modelli l’obbligo di rendere pubblicamente conoscibile, in forma strutturata e uniforme, la provenienza e la natura dei dataset che hanno alimentato l’addestramento algoritmico.

Il template obbligatorio: dalla prassi volontaria all’obbligo normativo

In altri termini, ciò che fino ad ora era rimasto opaco, affidato a prassi volontarie e talvolta circonfuso da segreti industriali, diviene oggetto di una disclosure obbligatoria, pensata non soltanto per favorire la trasparenza verso i regolatori e i cittadini, ma anche per consentire a soggetti con interessi legittimi, quali i titolari di diritti d’autore, di esercitare un controllo effettivo sull’utilizzo delle proprie opere nei processi di machine learning: è dunque un documento che non descrive il funzionamento interno del modello, ma riassume l’origine dei dati su cui esso è stato addestrato, enumerando le principali raccolte, segnalando le fonti aperte e fornendo un quadro sintetico ma essenziale di un momento cruciale nella filiera tecnologica: quello in cui l’intelligenza artificiale assimila la materia prima che ne alimenterà le prestazioni.

L’architettura regolatoria dell’estate 2025: il trittico normativo

Tale strumento regolatorio non può essere inteso come un atto isolato, frutto di improvvisa contingenza, bensì come l’esito di un percorso normativo serrato e progressivo che nell’estate del 2025 ha visto Bruxelles articolare un trittico di documenti destinati a imprimere forma e contenuto all’AI Act: dapprima il Codice di Condotta per i sistemi general purpose, approvato il 10 luglio, quindi le Linee guida sui modelli GPAI pubblicate il 18 luglio e infine, il 24 luglio, il modello per la disclosure dei dati di training.

Tre tasselli che hanno completato l’architettura regolatoria giusto in tempo per l’entrata in vigore del 2 agosto, data in cui gli obblighi specifici per i modelli di intelligenza artificiale generica sono divenuti giuridicamente cogenti, inaugurando una fase nuova, in cui la trasparenza dei dati addestrativi non è più un’opzione etica, ma un dovere normativo sanzionabile.

Dall’attesa alla realtà: il diritto vivente dell’AI Act

Non più attese, non più mere proiezioni future, ma la concreta trasformazione di un regolamento che si fa diritto vivente, capace di irradiare i propri effetti tanto sui colossi della tecnologia quanto sulle imprese che, anche senza sviluppare modelli propri, se ne servono quotidianamente per i propri processi produttivi e decisionali, è bene infatti precisare che la centralità del modello di sintesi dei dati di addestramento emerge con chiarezza se lo si colloca in questo scenario: non è un documento secondario, ma il fulcro di un tentativo giuridico senza precedenti, quello di rendere conoscibile e, per quanto possibile, verificabile la materia invisibile dei corpora che nutrono i modelli.

L’articolo 53, paragrafo 1, lettera d) dell’AI Act impone infatti ai fornitori di GPAI l’obbligo di pubblicare un riepilogo dei contenuti utilizzati nell’addestramento, utilizzando proprio quel template predisposto dalla Commissione, mentre, per i modelli già rilasciati prima del 2 agosto 2025, il termine ultimo è fissato al 2 agosto 2027, ma per tutti gli altri l’obbligo è già immediato e la sua inosservanza è presidiata da sanzioni che possono arrivare fino al tre per cento del fatturato mondiale annuo o, alternativamente, a quindici milioni di euro, qualunque cifra sia più alta. Non si tratta dunque di una raccomandazione o di una best practice, ma di un obbligo giuridico la cui violazione può costituire fonte di responsabilità e di enforcement da parte dell’AI Office e delle autorità nazionali.

Oltre le sanzioni: trasparenza come diritto collettivo

La portata del modello, tuttavia, non si esaurisce nella dimensione della sanzionabilità, infatti, il suo significato più profondo è quello di istituire una nuova forma di trasparenza che non riguarda soltanto i rapporti tra fornitori e regolatori, ma si estende a una molteplicità di soggetti con interessi legittimi: i titolari di copyright che vogliano esercitare i propri diritti, le aziende che debbano valutare la qualità dei modelli di terzi, i consumatori che hanno diritto a fidarsi della correttezza dei sistemi utilizzati, gli stessi cittadini che devono poter riconoscere che l’intelligenza artificiale che plasma il loro ambiente digitale si nutre di dati la cui origine non può essere avvolta nel mistero.

Le sfide della disclosure: tra incompletezza necessaria e grammatica condivisa

In tal senso, la disclosure non si esaurisce nella semplice compliance normativa: si configura come un diritto collettivo alla conoscenza, una condizione di legittimità democratica e uno strumento essenziale per ridurre il divario informativo tra chi progetta i modelli e chi ne subisce gli effetti, nonostante sia tuttavia evidente che tale processo porta con sé difficoltà intrinseche: condensare in sintesi pubblica corpora di dimensioni sterminate significa tradurre in linguaggio normativo ciò che per sua natura è eccedente, opaco e difficilmente catalogabile, ogni riassunto sarà (probabilmente, potremmo dire) necessariamente incompleto, ogni disclosure selettiva, ogni rappresentazione più vicina a una verità giuridica accettabile che a una descrizione esaustiva; ma è proprio in questa tensione si rivela il carattere innovativo dell’operazione della Commissione: non si tratta di pretendere l’impossibile, ma di istituire una grammatica condivisa della trasparenza, di definire uno standard uniforme attraverso il quale la società civile e le autorità possano almeno interrogare i fornitori, chiedere ragione, contestare omissioni. È il passaggio dal nulla regolato alla prima forma di giustiziabilità dell’opacità.

Dettagli che contano: dall’analiticità della trasparenza tecnica

È significativo inoltre che il modello chieda informazioni non solo generiche, ma dettagliate, dalle dimensioni dei dataset alla provenienza (pubblica, privata, scraping, dati sintetici), fino ai domini principali da cui è stato effettuato il prelievo automatico, questo dettaglio non è infatti irrilevante: esso sposta il discorso dalla vaghezza delle dichiarazioni programmatiche all’analiticità della disclosure tecnica, pubblicare che un modello si è nutrito per il dieci per cento di contenuti provenienti da determinati domini, ad esempio, significa riconoscere esplicitamente il rapporto di dipendenza dell’intelligenza artificiale da specifici ambienti digitali, con conseguenze in termini di copyright, di bias culturali, di responsabilità contrattuali e in questo senso, il riepilogo diviene al tempo stesso un documento di trasparenza, un registro di accountability e un potenziale campo di battaglia giuridico.

Responsabilità diffusa lungo la catena del valore digitale

Non è un caso che la Commissione abbia costruito questo strumento accanto al Codice di Condotta e alle Linee guida: i tre atti si richiamano reciprocamente e insieme definiscono un regime che non riguarda più soltanto lo sviluppatore, ma tutta la catena del valore.

Le Linee guida hanno infatti chiarito che la responsabilità si estende dall’addestramento fino alla dismissione del modello e che le modifiche significative operano una riqualificazione giuridica dell’attore a valle come nuovo fornitore, ne consegue pertanto che anche un’impresa – che inizialmente sia solo utilizzatrice di un modello di terzi, modificandolo – diventa titolare di obblighi diretti. Il modello di disclosure, in questo quadro, non è solo strumento degli upstream provider, ma può estendersi anche a chi interviene successivamente, segnando una responsabilità diffusa che muta la stessa architettura delle catene di fornitura digitali.

Implicazioni per le aziende utilizzatrici: oltre la semplice compliance

In tale contesto, le implicazioni per le aziende che non sviluppano GPAI sono quindi tutt’altro che marginali: esse dovranno selezionare fornitori capaci di rispettare gli obblighi, analizzare le sintesi dei dati di training per svolgere una due diligence accurata, aggiornare i contratti introducendo clausole di garanzia sulla compliance e, soprattutto, integrare la trasparenza come criterio di valutazione dei modelli. In prospettiva, la disclosure diventerà parametro non solo di legalità, ma di eticità aziendale, strumento per dimostrare responsabilità sociale e attenzione al rischio reputazionale. La pubblicazione dei riepiloghi ogni sei mesi, come imposto dal template, trasforma la compliance in processo dinamico, monitorabile e continuamente rinnovato.

Il parallelo con il GDPR: dall’individuale al collettivo

Qui si inserisce il parallelo, inevitabile ma al tempo stesso rivelatore, con il percorso del GDPR nel 2018, dato che anche allora le aziende si trovarono dinanzi a un obbligo normativo percepito come gravoso e incerto, con un clima di corsa alla conformità e il timore di sanzioni elevate – ma mentre il GDPR disciplinava la gestione dei dati personali, ossia di informazioni identificabili e circoscritte, l’AI Act tenta di regolare l’opacità stessa dei sistemi, imponendo la trasparenza non sui dati individuali ma sui corpora collettivi e sulle modalità di costruzione dell’intelligenza. È quindi un salto di qualità: non più soltanto per la tutela del singolo, ma per la regolazione dell’architettura cognitiva che sorregge i sistemi.

Il significato profondo: intelligenza artificiale situata e pluralismo

La riflessione giuridica deve allora spingersi oltre l’analisi normativa e interrogarsi sul senso più ampio di questo passaggio: che cosa significa chiedere a un fornitore di dichiarare da quali fonti ha nutrito il proprio modello?

Significa riconoscere che l’intelligenza artificiale non è neutra ma situata;

Che porta con sé le tracce dei mondi da cui attinge, che ogni corpus è insieme patrimonio e vincolo, opportunità e rischio;

Significa ammettere che dietro l’apparente universalità dei modelli si nascondono genealogie culturali, lingue privilegiate e prospettive dominanti .

E in questo senso, il riepilogo dei dati diventa specchio di un pluralismo che deve essere difeso e reso visibile, pena la naturalizzazione di un’egemonia invisibile e il diritto, imponendo la disclosure, tenta di ridare voce a questa pluralità, di non lasciare che il silenzio dei dataset diventi silenzio politico.

L’interrogativo finale: accountability effettiva o rituale di conformità

Resta, in conclusione, l’interrogativo sull’efficacia reale del modello: sarà esso strumento di accountability effettiva o mero rituale di conformità? Sarà utilizzato da imprese e cittadini per contestare omissioni e rivendicare diritti o finirà relegato a documento di facciata? La posta in gioco è alta, perché in questo inizio di applicazione dell’AI Act si decide se la trasparenza diventerà un principio vivo o resterà un simulacro.

Se il modello funzionerà, avremo la prima esperienza di giuridificazione della trasparenza algoritmica, un precedente capace di fondare nuove categorie e nuovi strumenti di controllo. Se invece fallirà, il rischio è che l’AI Act stesso perda parte della sua credibilità, trasformandosi in un apparato formale incapace di incidere sulla sostanza.

In ogni caso, è certo che ci troviamo dinanzi a un inedito assoluto, e che il compito della dottrina è di pensarlo senza facili analogie, con il coraggio di riconoscere che qui il diritto europeo sta inventando un nuovo linguaggio, una nuova pratica, una nuova forma di relazione tra potere tecnologico e comunità giuridica. In questo senso, davvero, nessuno ha ancora scritto: il campo è aperto e l’urgenza è alta, perché la trasparenza dei dati di training non è un dettaglio tecnico, ma il cuore stesso della legittimazione dell’intelligenza artificiale nella nostra società.

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati