Negli ultimi anni, l’attenzione di un numero crescente di ricercatori in Natural Language Processing (NLP) studia i potenziali elementi di criticità presenti nei dataset usati per il pre-training dei Language Model. Uno dei temi principali riguarda la scarsa o assente documentazione di queste risorse computazionali, che spesso vengono descritte in modo generico in molti paper di presentazione dei Language Model.
trasparenza e accessbilità
Dataset per i Language Model: i problemi che l’archivistica aiuta a superare
Il campo del Natural Language Processing (NLP) è sempre più attento alla documentazione dei dataset utilizzati per il pre-training dei Language Model. Nonostante l’applicazione di pratiche derivate dalle scienze archivistiche, questioni come la trasparenza e l’accessibilità delle risorse rimangono irrisolte. Il punto su problemi e progressi della ricerca
Università degli Studi di Torino

Continua a leggere questo articolo
Argomenti
Canali
Con o Senza – Galaxy AI per il business











