Biblioteche digitali, più intelligenti grazie al data mining: ecco come

Internet ha sconvolto le tradizionali metodologie di trattamento documentario. Spesso, però, l’informazione a disposizione è troppa, confusa e non attendibile. L’IA può aiutare nella selezione delle fonti rilevanti

L’intelligenza artificiale è un settore particolarmente vivace dell’informatica, ma anche molto mutevole, in quanto segue contemporaneamente molteplici filoni di ricerca: attualmente i settori trainanti sono la robotica e la gestione di informazioni, mentre la parte più tradizionale delle applicazioni, volte a creare sistemi esperti di consulenza ha mostrato limiti nelle realizzazioni concrete.

Su questo cambiamento di indirizzo ha sicuramente influito il fenomeno Internet che ha sconvolto le tradizionali metodologie di trattamento documentario.

Con la rete è cambiato il concetto di sistema informativo, passato da una dimensione locale ad una globale, e si è anche allargato il significato di informazione, non più identificantesi col documento ma, grazie agli ipertesti, con una soggettiva concatenazione di concetti.

Con la rete la tecnologia dell’informazione si trova a fronteggiare problemi diversi; il punto cruciale non è più la raccolta ed organizzazione delle fonti, quanto l’accesso mirato a quelle rilevanti; spesso l’informazione a disposizione è troppa, confusa, non attendibile, disordinata, non strutturata.

L’evoluzione degli studi sull’Intelligenza Artificiale e diritto, in realtà, segue due direzioni, che tendono a distanziarsi sempre più.

Da un lato si è sviluppata l’investigazione di tipo accademico, che si muove su un piano totalmente teorico, volta soprattutto a un confronto fra le ipotesi della teoria generale del diritto ed i modelli dell’Intelligenza Artificiale e delle scienze cognitive. Si vuole verificare se certe metodologie di descrizione dei fenomeni e della conoscenza giuridica sviluppati dall’Intelligenza Artificiale sono coerenti con gli indirizzi della dogmatica giuridica e se possono, in qualche modo, apportare nuovi contributi. I campi di maggiore interesse sono quelli delle logiche argomentative, delle logiche deontiche e non monotoniche.

Dall’altro lato, si tende a potenziare gli aspetti applicativi realizzando sistemi rispondenti a esigenze pratiche dell’attività giuridica. Si è visto che i sistemi esperti furono considerati agli inizi lo sbocco applicativo più importante, ma si è constatato che la realizzazione pratica di tali sistemi è costosa e di impiego limitato. La stessa considerazione può essere fatta per i sistemi basati sui casi, che, nel mondo anglosassone sembravano destinati ad un grande sviluppo, ma richiedono una descrizione della conoscenza a livello profondo, e quindi incappano nei medesimi limiti e difficoltà.

A fronte di questa situazione, emerge dall’attività giuridica e paragiuridica una sempre maggiore esigenza di gestire e analizzare grandi quantità di dati e informazioni e di selezionare quelli pertinenti con maggiore precisione. I nuovi settori di ricerca dell’Intelligenza Artificiale e Diritto hanno quindi tenuto conto sia della necessità di mantenere riferimento diretto alle fonti del diritto, sia di raggiungere metodi di rappresentazione della conoscenza più efficaci e immediati.

I campi di sviluppo più recenti (data mining, document understanding, redazione assistita), sono accomunati da una nuova metodologia di trattamento delle informazioni: il documento viene descritto nel data base applicando un modello più ricco di quelli delle banche dati tradizionali, ma senza arrivare all’onerosa operazione di formalizzare tutto il contenuto. Nelle nuove basi di dati strutturate gli elementi rilevanti vengono esplicitati secondo criteri dipendenti dagli scopi (informazione, diagnosi, classificazione, funzione normativa…), sino ai sistemi di redazione assistita in cui il modello precede il documento, anzi costituisce lo schema vuoto da cui verrà prodotto il documento digitale.

Attualmente grazie ai grandi progressi ottenuti a seguito della strutturazione dei documenti digitali è possibile costruire una biblioteca digitale intelligente che si fonda su un sistema informatico che dispone di una serie di modelli di documento.

Il modello di documento è composto dalla struttura logica, dalla struttura di layout e testuale, e dalle corrispondenze fra le due. Confrontando il documento nuovo con i modelli, il sistema individua il modello più probabile, quindi prosegue confrontando le componenti del modello (o attributi) con i segmenti di testo.

Le ‘etichette’ agganciate ai segmenti di testo sono i nomi assegnati agli attributi delle classi di documenti: nome degli autori, titolo, provenienza, parole chiave, sono, ad es., sia attributi della classe articoli scientifici, sia etichette agganciate ai blocchi: via via che sono identificati e aggiunti alla banca dati, ogni documento che sta nella biblioteca è una istanza di uno dei modelli di documento.

La relativa attività di ricerca dei documenti si fonda sulle tecniche di data mining e knowledge discovery.

Letteralmente mining è l’attività del minatore, cioè lo scavo, l’estrazione di materiali preziosi da materiali di scarto: nel data mining il materiale prezioso da rintracciare è la conoscenza, cioè informazioni nuove e originali su determinati fenomeni, estratte da grandi quantità di dati. La conoscenza scoperta con il data mining è qualcosa di più del risultato di analisi statistiche, in quanto dovrebbe evidenziare non solo la frequenza di certi fenomeni, ma i modi in cui vengono a concatenarsi circostanze o fattori (association rules). Data una grande quantità di dati, si tratta di individuare combinazioni di dati o attribuzioni di valori che si ripetono con continuità, per stabilire dipendenze o connessioni (ad es., dai dati sulle vendite di un prodotto è possibile individuare le classi di consumatori, dai dati sugli utenti di un servizio è possibile individuare classi sociali che necessitano di altri servizi, dai dati sui consumi e i redditi è possibile individuare classi di possibili evasori, ecc.).

In informatica il KDD (knowledge discovery in databases) viene utilizzato per l’acquisizione semi-automatica di conoscenza da grandi masse di dati esistenti. Un perfezionamento dunque dei processi induttivi di apprendimento automatico tipici proprio delle biblioteche digitali intelligenti.

La conoscenza che viene ‘scoperta’, è come ho già detto, sotto forma di relazioni di dipendenza e correlazione fra dati.

Requisito fondamentale del data mining è che sia possibile descrivere i dati (fenomeni, situazioni) attraverso le loro caratteristiche; altri requisiti sono: che esistano o si fissino dei criteri di analisi (frequenza, ripetitività, uniformità, omogeneità, sequenzialità, ecc.); che esistano a priori, o siano ricavabili a posteriori relazioni fra le caratteristiche. Il primo aspetto è metodologicamente indispensabile. Come abbiamo visto in tema di riconoscimento di documenti, è necessario individuare la struttura del documento; qui lo stesso vale a proposito delle componenti del dato o fenomeno: altrimenti il confronto fra ‘ blocchi impenetrabili’ non darà alcun risultato, né sarà possibile alcuna classificazione di essi.

Mentre in settori commerciali o sociali è semplice classificare i dati in base ai risultati (oggetti acquistati, servizi usufruiti, redditi denunciati) ed esplicitare i fattori coinvolti (ad es., l’età, il sesso. il reddito, la residenza, la professione, il titolo di studio, ecc.), nel dominio giuridico, essendo astratto, si rende necessaria una teoria preventiva in base a cui classificare i dati e stabilire relazioni fra essi. Sono necessari modelli teorici delle norme, dei sistemi normativi, dei processi decisionali, ma, a differenza dei problemi incontrati nella rappresentazione della conoscenza, per il data mining sono sufficienti rappresentazioni simboliche molto generali.

Ciò premesso, la metodologia del data mining può essere applicata per:

individuare indirizzi giurisprudenziali su temi specifici. Gli indirizzi giurisprudenziali indicano la tendenza ad uniformare le decisioni in un settore ad una certa linea, in modo che non è così forte e vincolante nel nostro sistema come è lo stare decisis del diritto comune, ma che sta diventando sempre più rilevante. Spetta alla teoria giuridica esplicitare e dare sistematicità a tali formazioni giurisprudenziali, spesso collegandole a teorie giuridiche consolidate. Il data mining consente di monitorare il mantenimento o l’evoluzione di tali indirizzi, e di conseguenza, delle teorie giuridiche sottostanti. La più tipica applicazione in questo settore riguarda l’interpretazione giurisprudenziale di concetti giuridici vaghi (negligenza, stato di necessità, legittima difesa, ecc.) o dipendenti dall’evoluzione storico-sociale (il comune senso del pudore, l’ordine pubblico, la tutela dalla privacy);
verificare l’aderenza di provvedimenti a linee guida. Si tratta di verificare se nella emissione di decisioni, anche di tipo amministrativo, o procedurale, si è seguito criteri espressi altrove; in questo caso i criteri guida non sono sviluppati all’interno del processo decisionale, ma definiti all’esterno; poiché una delle caratteristiche principali del data mining è quella di esplicitare relazioni intercorrenti fra i vari fattori presi in considerazione nel formarsi della decisione, si tratta di verificare se tali concatenazione di fattori è coerente con le direttive previste dalle linee guida.