L’applicazione degli strumenti di intelligenza artificiale (AI) al patrimonio culturale è la nuova frontiera nella gestione e interrogazione di contenuti in ambito digital humanities.
L’applicazione di flussi di lavoro tecnologici, combinando la digitalizzazione e gli strumenti di intelligenza artificiale, infatti, mira a rendere la gestione e l’interrogazione dei contenuti culturali molto più rapidi ed efficienti.
Questo progresso tecnologico consente di ridurre drasticamente il tempo necessario per valutare le fonti e di rafforzare la ricerca con studi quantitativi che prima richiedevano tempi di esecuzione molto lunghi.
Indice degli argomenti
Intelligenza artificiale e patrimonio culturale: il contesto progettuale
Nell’ambito di I.PaC, un progetto infrastrutturale nazionale volto alla digitalizzazione del patrimonio culturale italiano e alla creazione di una biblioteca digitale, finanziato dal PNRR e promosso dal Ministero della Cultura[1], Cineca è stato coinvolto in una estesa attività di scouting tecnologico per mappare le tecnologie AI Open Source più avanzate ed inserirle in un flusso che renda il patrimonio nazionale più accessibile a tutti i pubblici, dai ricercatori specializzati al grande pubblico. Il processo non può che presentarsi come una attività in continua evoluzione, che coinvolge sia l’attività di selezione e valutazione di nuovi strumenti, sia la loro messa a punto e Cineca, grazie alle sue risorse di supercalcolo, fornisce un ambiente ideale per l’addestramento delle reti neurali.
Il presente contributo, a partire dal lavoro di scouting realizzato fino ad ora, introduce una panoramica degli strumenti selezionati e di alcuni casi d’uso.
Strumenti di intelligenza artificiale per il patrimonio culturale
Le aree di ricerca considerate includono[2]:
- Object detection: rilevamento di elementi specifici all’interno di risorse digitali visive.
- NER (Named Entity Recognition): classificazione dei contenuti testuali in base a categorie come nomi di persone, organizzazioni e luoghi.
- OCR (Optical Character Recognition): riconoscimento automatico dei caratteri stampati.
- HCR (Handwritten Character Recognition): trascrizione automatica di testi manoscritti e dattiloscritti.
- Speech to text: trascrizione automatica del parlato in testo scritto.
- Text to speech: riproduzione artificiale della voce umana per leggere un testo scritto.
- Geocoding: estrazione di informazioni geografiche da descrizioni testuali di luoghi.
- Language translation: traduzione automatica dei metadati testuali da una lingua all’altra.
- AI image enhancement: miglioramento della risoluzione delle immagini digitali.
Gli strumenti, una volta selezionati i più promettenti, sono stati adattati alle esigenze specifiche del patrimonio culturale con azioni di fine tuning a partire da alcuni casi d’uso. I casi d’uso hanno permesso di valutare sul campo l’efficacia delle soluzioni e l’ottimizzazione nella preparazione dei data set prima del loro processamento.
Intelligenza artificiale applicata ai quotidiani storici
Il primo dei due casi d’uso approfonditi ad ora si è concentrato sul riconoscimento di testo a stampa da giornali quotidiani e da manoscritti [3].
Nel lavoro svolto per la trascrizione e meta datazione automatica di quotidiani, il processo ha applicato le seguenti attività:
- Parsing del layout: analisi delle immagini per suddividere pagine in diverse aree, identificando titoli, paragrafi, immagini e tabelle.
- Rilevamento di entità nominate (NER): identificazione e classificazione di parole e frasi all’interno di documenti.
Per l’analisi della pagina stampata è stato scelto Layout Parser per la sua capacità di rilevare layout documentali attraverso modelli di deep learning pre-addestrati e API ottimizzate. Offre funzioni come il rilevamento delle aree di layout, l’applicazione di OCR e la visualizzazione dei risultati. A tale proposito vale la pena ricordare l’importanza di un addestramento dei modelli su dataset curati e specifici per l’obiettivo che si desidera raggiungere.
Durante i test su dataset locali, come quello del progetto Storia e Memoria di Bologna, sono emersi problemi di riconoscimento dovuti alle differenze tra i layout dei documenti originali e quelli dei dataset di addestramento. Tuttavia, il modello addestrato con il dataset Newspaper Navigator, addestrato su più di 16 milioni di pagine, ha prodotto i risultati migliori, dimostrando l’importanza di utilizzare dati di addestramento simili ai documenti analizzati.
Intelligenza artificiale per il riconoscimento della scrittura manuale
Per il secondo caso di studio, quello dedicato al riconoscimento della scrittura manuale, Cineca ha curato la creazione di un dataset per la trascrizione automatica di testi manoscritti, basato sui copialettere di Isabella d’Este. Questo progetto mira a ridurre i tempi di analisi dei materiali e a rendere più accessibili le risorse culturali. La formazione delle reti neurali ha utilizzato modelli come TrOCR e strumenti per l’analisi delle linee di testo, affrontando sfide legate a irregolarità nella scrittura e abbreviazioni complesse.
I risultati ottenuti rappresentano un passo importante verso la creazione di una biblioteca digitale nazionale e lo sviluppo di tecnologie per l’analisi automatica di risorse documentarie complesse.
intelligenza artificiale e riconoscimento di immagini nel patrimonio culturale
Ci si è concentrati poi sulla rilevazione di oggetti (Object Detection) e sul riconoscimento di entità nominate (Named Entity Recognition, NER).[4]
Le sfide nel raggiungimento di risultati soddisfacenti nell’object detection vanno di pari passo alla rapidissima evoluzione nel settore, con l’esplosione dell’AI generativa e l’obsolescenza di molte tecnologie di elaborazione di immagini, testi e linguaggi nel giro di pochi mesi.
La rilevazione di oggetti è una tecnologia informatica nel campo della visione artificiale. Gli strumenti utilizzati forniscono indicazioni sugli oggetti presenti nell’immagine analizzata, come il tipo di oggetto, la misura di confidenza dell’algoritmo nell’aver riconosciuto correttamente gli elementi presenti e la loro posizione nell’immagine.
Intelligenza artificiale e riconoscimento di entità nominate
Il riconoscimento di entità nominate è un compito di elaborazione del linguaggio naturale (NLP) che identifica e classifica entità all’interno di un testo in categorie predefinite come nomi, organizzazioni, luoghi e date. Gli autori hanno sperimentato diversi strumenti NER applicandoli a dati culturali, come le schede descrittive disponibili in Storia e Memoria di Bologna, un database relazionale su contenuti storici e artistici. Per migliorare la confidenza nei risultati, gli autori hanno combinato i risultati di WikiNEuRal e it_core_news_lg, ottenendo un’accuratezza del 90%.
Potenzialità e limiti dell’intelligenza artificiale nel patrimonio culturale
Gli strumenti di AI si dimostrano un valido supporto per il processo di catalogazione del patrimonio culturale attraverso l’estrazione automatica di informazioni da immagini, video e testi. Queste informazioni aggiuntive arricchiscono la metadatazione del patrimonio culturale, migliorando la ricerca delle risorse catalogate e l’identificazione di beni simili.
Tuttavia, gli algoritmi di AI non sempre forniscono risultati corretti e possono presentare problemi di “allucinazione” quando applicati a contesti diversi da quelli appresi durante la fase di addestramento. Proprio per contrastare questi problemi, per ottenere un livello di accuratezza soddisfacente, è necessario prestare particolare cura nella preparazione dei data set per affinare i modelli in relazione ai diversi ambiti di applicazione.
Nonostante ciò, gli strumenti di AI rappresentano un aiuto significativo e possono essere considerati come un superpotere al nostro servizio.
Note
[1] L. Cerullo, A. Negri (2024), A Data Space for Italian culture, in Cineca HPC Report 2023-2024, pp. 83-83, https://www.hpc.cineca.it/wp-content/uploads/2024/07/REPORT20232024_.pdf
[2] A. Guidazzoli, S. Caraceni, R. Pansini, M.C. Liguori (2024), A Research Methodology for the Evaluation of Open Science Solutions for Cultural Heritage, in A. Guidazzoli, M.C. Liguori (Eds.), AI, Cultural Heritage and Art. Workshop proceedings, 9-10 Feb 2024, pp. 15-28. doi: 10.1388/IIIWORKSHOPAIBC
[3] S. Imboden, G. Cardano, C. Consiglio (2024), New Perspectives in Managing Heritage Documents, in A. Guidazzoli, M.C. Liguori (Eds.), AI, Cultural Heritage and Art. Workshop proceedings, 9-10 Feb 2024, pp. 29-52. doi: 10.1388/IIIWORKSHOPAIBC
[4] D. Sforzini, G. Fatigati, L. Mattei (2024), Advanced Solutions for Automatic Image and Text Analysis and Enrichment, in A. Guidazzoli, M.C. Liguori (Eds.), AI, Cultural Heritage and Art. Workshop proceedings, 9-10 Feb 2024, pp. 53-68. doi: 10.1388/IIIWORKSHOPAIBC