trasparenza e accessbilità

Dataset per i Language Model: i problemi che l’archivistica aiuta a superare



Indirizzo copiato

Il campo del Natural Language Processing (NLP) è sempre più attento alla documentazione dei dataset utilizzati per il pre-training dei Language Model. Nonostante l’applicazione di pratiche derivate dalle scienze archivistiche, questioni come la trasparenza e l’accessibilità delle risorse rimangono irrisolte. Il punto su problemi e progressi della ricerca

Pubblicato il 22 nov 2023

Marco Antonio Stranisci

Università degli Studi di Torino



nlp

Negli ultimi anni, l’attenzione di un numero crescente di ricercatori in Natural Language Processing (NLP) studia i potenziali elementi di criticità presenti nei dataset usati per il pre-training dei Language Model. Uno dei temi principali riguarda la scarsa o assente documentazione di queste risorse computazionali, che spesso vengono descritte in modo generico in molti paper di presentazione dei Language Model.

Continua a leggere questo articolo

Articoli correlati