Il valore del progresso tecnologico si misura davvero quando costruisce ponti tra le persone. Per molte comunità non udenti, tuttavia, questi ponti non sono sempre attraversabili. L’esperienza quotidiana è fatta di attese, mediazioni e adattamenti continui: schermi da avvicinare, labbra da decifrare, segni da interpretare. In uno spazio pubblico progettato intorno alla voce, le Lingue dei Segni diventano spesso la condizione di accesso al mondo circostante.
La tecnologia promette di colmare questa distanza, ma proprio mentre accelera non sempre mantiene la promessa. In questa prospettiva emerge il ruolo sempre più centrale delle Digital Humanities: osservare criticamente come gli strumenti digitali incorporino modelli comunicativi impliciti. Le Lingue dei Segni non costituiscono un caso marginale, bensì un banco di prova che rivela se l’innovazione contemporanea sia davvero pensata per la pluralità delle forme di comunicazione.
Indice degli argomenti
Il paradosso dell’innovazione: progresso tecnico e regressione dell’accessibilità
La questione non è soltanto tecnologica, ma sociale: l’evoluzione degli strumenti digitali può ampliare il divario comunicativo invece di ridurlo. Ciò diventa evidente nella mediazione attraverso agenti artificiali quando la comunicazione non si fonda sulla voce, ma sulla dimensione visivo-gestuale delle Lingue dei Segni. In questo contesto la sfida non consiste unicamente nel costruire sistemi di riconoscimento automatico funzionanti, bensì nel progettare tecnologie capaci di rispettare la complessità linguistica e culturale della comunità sorda, evitando nuove forme di marginalizzazione prodotte dall’automazione stessa.
Il nodo emerge con particolare chiarezza nell’attuale fase di sviluppo tecnologico: mentre Intelligenza Artificiale e Robotica progrediscono rapidamente in precisione, autonomia e prestazioni, l’inclusività non segue lo stesso ritmo. Si configura così un paradosso sociale: più innovazione, ma non necessariamente più accesso, poiché molte tecnologie continuano a presupporre un utente normativo, vocale e uditivo.
Dalla robotica relazionale alle macchine operative: cosa si perde
La Robotica contemporanea ne offre un esempio emblematico. Le piattaforme progettate negli anni scorsi per l’interazione sociale incorporavano dispositivi comunicativi espliciti: uno spazio visivo stabile per lo scambio simbolico, gestione dell’attenzione condivisa, segnali di turno conversazionale e feedback leggibili. Occhi espressivi, indicatori luminosi e fattezze facciali stilizzate costituivano marcatori di stato relazionale, permettendo all’utente di comprendere quando il robot ascoltava, attendeva o rispondeva. Robot come Pepper (oggi fuori produzione) rappresentano un esempio paradigmatico di questa visione: con il loro design amichevole e antropomorfo, proprio perché il valore dell’interazione non risiede nella perfezione esecutiva del segno ma nella leggibilità dell’intenzione comunicativa, risultano di fatto assistenti preziosi per l’interazione in lingua dei segni, grazie a caratteristiche tecniche specifiche: capacità di tracciare l’utente attraverso telecamere e sensori integrati, feedback visivi e testuali tramite tablet incorporato, spazio relazionale non dominante o invasivo.
Alle forme morbide pensate per sostenere la relazione si stanno progressivamente sostituendo macchine dall’estetica dichiaratamente meccanica: modelli quadrupedi come il Go2 di Unitree, orientati a mobilità e ispezione, o umanoidi come il G1, progettati per destrezza ed efficienza motoria. Questi sistemi restano percepibili nei loro movimenti, ma non sono concepiti come interlocutori: il comportamento è orientato all’operatività, non al dialogo. Scompaiono schermi stabili, segnali interazionali, rendendo difficile, se non impossibile, sostenere modalità di interazione accessibili per utenti segnanti. La maggiore sofisticazione tecnica coincide così con una minore disponibilità comunicativa.
L’accessibilità come requisito originario, non come adattamento
Questo scollamento rivela un problema di progettazione prima ancora che di implementazione: l’accessibilità viene trattata come adattamento successivo e non come requisito originario. Qui emerge la responsabilità critica delle Digital Humanities: non limitarsi ad applicare tecnologie alla comunicazione segnata, ma interrogare i presupposti culturali incorporati negli artefatti tecnici.
Le Lingue dei Segni non rappresentano soltanto un ambito applicativo, ma una lente analitica capace di rendere visibile quando il progresso tecnico si disallinea dall’accessibilità. Quando piattaforme progettate per l’interazione prossemica e inclusiva vengono abbandonate, mentre quelle orientate alla performance prosperano, non assistiamo a una scelta neutra, bensì all’emersione di priorità implicite. In questo senso la lingua segnata funziona come un rivelatore: mostra il punto in cui l’innovazione cresce senza aumentare la partecipazione sociale.
La LIS: un simbolo identitario, un focus di ricerca
Per affrontare operativamente queste criticità è necessario individuare un contesto concreto. Le Lingue dei Segni, come anticipato, costituiscono un caso di studio privilegiato: sistemi linguistici completi, visivo-gestuali e simultanei, che mettono in crisi modelli computazionali tradizionalmente costruiti attorno alla linearità della lingua parlata (Stokoe 2005; Sandler & Lillo-Martin 2006).
Il riconoscimento della LIS come lingua naturale è relativamente recente. Per lungo tempo la cultura occidentale ha interpretato il segno come surrogato imperfetto della parola, secondo un paradigma gerarchico sancito simbolicamente dal Congresso di Milano del 1880, che privilegiava l’oralismo e relegava la segnazione alla sfera privata (Lane 1989; Sacks, O. et al 2009). La svolta avviene quando la ricerca linguistica, anche in Italia, dimostra che non si tratta di un insieme di gesti ausiliari, ma di un sistema strutturato dotato di grammatica autonoma (Volterra, V., & Pizzuto, E. 2002). Il cambiamento non è solo scientifico: è culturale, perché consente alla comunità sorda di riconoscere nella lingua il proprio principale spazio identitario (Padden, C. A., & Humphries, T. L. 1988).
La struttura simultanea della LIS e la sfida per i modelli computazionali
Come ogni lingua naturale, la LIS è regolata da convenzioni formali ed è indipendente dall’italiano parlato, pur interagendo con esso e condividendo proprietà con altre lingue dei segni (Bertone, 2011). Presenta variazioni diastratiche, diatopiche e diacroniche, ma la sua peculiarità fondamentale riguarda la modalità di articolazione: mentre le lingue vocali organizzano l’informazione in sequenze temporali, la LIS la distribuisce simultaneamente nello spazio visivo-gestuale (Sandler & Lillo-Martin 2006).
Questa simultaneità rappresenta il principale punto di attrito per la modellizzazione computazionale (Koller, 2020). I parametri fonologici, i cheremi, non si susseguono, ma operano insieme: configurazione e movimento delle mani, luogo di articolazione, orientamento, espressioni facciali, postura, direzione dello sguardo e componenti labiali concorrono nello stesso istante alla costruzione del significato (Stokoe 1960; Volterra 2004). Non sono semplici elementi distintivi: svolgono anche funzioni morfosintattiche (Sandler & Lillo-Martin 2006). Una variazione nella velocità del movimento può codificare aspetti temporali o quantitativi; il sollevamento delle sopracciglia può trasformare un enunciato in interrogativo (Bertone 2011).
La LIS rende dunque esplicito un presupposto spesso implicito nelle tecnologie linguistiche: l’idea che il linguaggio sia fondamentalmente lineare (Carreiras, M. 2010). Laddove la parola si dispiega nel tempo, il segno costruisce significato nello spazio. Per questo la sua elaborazione automatica non costituisce soltanto un problema di riconoscimento visivo, ma richiede un ripensamento dei modelli con cui la macchina rappresenta il linguaggio (Koller 2020). Progettare tecnologie capaci di interagire con esse significa confrontarsi non soltanto con un diverso codice, ma con una diversa organizzazione dello scambio linguistico, distribuita nello spazio, coordinata nello sguardo, costruita nella compresenza dei corpi.
L’AIRHLab di Palermo: la LIS come ambiente sperimentale
Tale impostazione trova applicazione concreta nelle attività dell’AIRHLab (Artificial Intelligence, Robotics for Humanities Lab) del Dipartimento di Scienze Umanistiche di Palermo, dove il caso specifico della Lingua dei Segni Italiana (LIS) è divenuto terreno sperimentale per verificare la possibilità di un’interazione realmente inclusiva. Qui la LIS è impiegata come ambiente di prova per sistemi di interazione uomo-macchina basati su robotica sociale e visione artificiale, con l’obiettivo non solo di affrontare le difficoltà dei modelli di Intelligenza Artificiale nell’interpretazione del segno, ma di riorientare l’uso delle interfacce a partire dalle esigenze comunicative degli utenti segnanti.
In questa prospettiva, tipica delle Digital Humanities, la tecnologia non viene assunta come soluzione neutra, bensì come oggetto da interpretare criticamente attraverso pratiche linguistiche e sociali. L’analisi della lingua, la sua dimensione identitaria e le modalità concrete di accesso ai servizi diventano criteri di valutazione dell’efficacia tecnica: l’innovazione non coincide con l’aumento delle prestazioni, ma con la possibilità per l’utente di comprendere, verificare e governare l’interazione.
La LIS diventa così un dispositivo analitico: obbliga a collocare i modelli di IA nell’ambito di comunicazioni non lineari, corporee e condivise nello spazio, e impone un uso trasparente delle interfacce e degli stessi modelli, rendendone visibile il funzionamento e fornendo feedback comprensibili. In questa prospettiva l’innovazione tecnologica non coincide con l’aumento delle prestazioni, ma con la capacità di restituire agency comunicativa alla persona, trasformando il dispositivo da macchina operativa a mediatore relazionale.
La lingua segnata come vincolo progettuale per la robotica
Se la robotica recente tende a privilegiare prestazioni motorie e autonomia operativa a discapito della leggibilità relazionale, la lingua segnata diventa l’emblema di un paradigma progettuale centrato sull’interazione: non un semplice dominio applicativo, bensì un vincolo che restituisce ai robot la dimensione di interlocutore anche per chi non può accedere a risposte vocali, attraverso output testuali o gestuali (Breazeal 2004).
Sign Language Processing: “vedere” il linguaggio
La complessità delle lingue dei segni rappresenta anche una sfida computazionale. Per affrontarla si è sviluppata una specifica area dell’Intelligenza Artificiale dedicata al processamento automatico delle lingue segnate: il Sign Language Processing (SLP).
Collocato all’incrocio tra Natural Language Processing e Computer Vision, il SLP introduce una trasformazione concettuale per le tecnologie linguistiche: trattare il linguaggio non come sequenza sonora ma come evento visivo e corporeo. La macchina non deve più soltanto riconoscere parole, ma interpretare configurazioni spaziali, movimenti, espressioni facciali e dinamiche temporali simultanee.
Il primo obiettivo è il riconoscimento dei segni (Sign Language Recognition), che può avvenire in forma isolata (ISLR), analizzando un singolo segno alla volta, oppure continua (CSLR), all’interno di un flusso comunicativo. Nel primo caso il problema è assimilabile a una classificazione di gesti; nel secondo, invece, emerge la dimensione linguistica: il sistema deve segmentare, disambiguare e ricostruire la struttura dell’enunciato. Per questo il CSLR conduce naturalmente verso la traduzione automatica tra lingua segnata e lingua parlata (Sign Language Translation), dove l’obiettivo non è più riconoscere un gesto corretto ma comprendere un’intenzione comunicativa.
Questa differenza è cruciale: mentre nelle lingue vocali l’informazione è distribuita nel tempo, nella lingua segnata è distribuita nello spazio. Il sistema deve quindi apprendere non soltanto cosa viene prodotto, ma come il corpo organizza simultaneamente più livelli di significato. Il problema computazionale diventa così anche rappresentazionale: modellare un linguaggio multidimensionale con strumenti pensati per sequenze lineari.
Dataset e lingue dei segni: chi viene rappresentato e chi no
Come in gran parte dell’Intelligenza Artificiale contemporanea, il vero motore del progresso è costituito dai dati. Le lingue dei segni maggiormente studiate sono quelle per cui esistono corpora ampi e annotati: American Sign Language (ASL) (Newport, E. L., & Meier, R. P. 2017), British Sign Language (BSL) (Schembri, A. et al. 2013), o Chinese Sign Language (CSL) (Jiang, X., et al 2020). Dataset più ricchi consentono di passare da ambienti controllati a contesti comunicativi realistici, permettendo ai modelli di apprendere variabilità individuale, velocità, coarticolazione e rumore visivo.
Molte altre lingue dei segni restano invece sottorappresentate, tra queste la LIS. Nonostante iniziative recenti della ricerca italiana (Micieli, Farinella e Ragusa 2025; Marchisio, Mazzei e Sammaruga 2023), la scarsità di dati costituisce ancora il principale ostacolo al superamento del riconoscimento isolato e all’accesso a forme di traduzione automatica più avanzate. L’effetto non è soltanto tecnico: una lingua con pochi dati rimane difficile da modellare, quindi difficile da integrare nei sistemi interattivi, quindi meno presente negli spazi digitali.
In questo senso il problema tecnologico torna a coincidere con quello sociale: senza dati non esiste accessibilità computazionale. La disponibilità di corpora non determina solo le prestazioni dei modelli, ma anche quali comunità linguistiche possono effettivamente diventare interlocutori delle tecnologie intelligenti.
Progettare la prossimità: un robot sociale per la LIS
La progettazione di sistemi automatici per la lingua dei segni pone due vincoli principali: da un lato la natura visivo-gestuale e simultanea del segno, difficilmente trattabile da modelli linguistici lineari; dall’altro la necessità di un’interazione trasparente, in cui l’utente possa comprendere e verificare il comportamento del sistema. Il progetto sviluppato presso l’AIRH Lab affronta entrambe le dimensioni integrando riconoscimento automatico e interfaccia fisica in un unico ambiente di dialogo.
In questo contesto il robot umanoide Pepper viene utilizzato come piattaforma di interazione. La presenza corporea, l’orientamento verso l’interlocutore e il tablet integrato stabilizzano la scena comunicativa e rendono visibili le fasi del processo. Si tratta tuttavia di una piattaforma appartenente a una generazione di robot sociali oggi progressivamente dismessa: nonostante l’efficacia relazionale, dispositivi di piccole dimensioni e poco invasivi nello spazio interpersonale, come Pepper, non sono più prodotti, mentre piattaforme più recenti privilegiano prestazioni motorie o funzioni operative.
Prossimità, interazione verificabile e trasparenza del sistema
Questo aspetto non è marginale. Nella Human-Robot Interaction la distanza prossemica influisce direttamente sulla disponibilità dell’utente a interagire: robot più alti e voluminosi, come piattaforme di servizio di nuova generazione, occupano lo spazio sociale in modo più marcato e tendono a essere percepiti come strumenti operativi piuttosto che interlocutori. Il risultato è un paradosso progettuale: il robot più tecnologicamente avanzato non coincide necessariamente con quello più adatto alla comunicazione.
Anche quando la meccanica non consente un’esecuzione precisa dei segni, il robot sostiene lo scambio attraverso feedback visivi, testo e gestione dell’attenzione condivisa. L’obiettivo non è riprodurre perfettamente la segnazione, ma rendere interpretabile l’intenzionalità del sistema.
Il funzionamento complessivo è articolato in tre moduli coordinati:
- il robot acquisisce i dati visivi dell’utente;
- il modello di riconoscimento elabora la sequenza esoscheletrica e interpreta i segni;
- l’interfaccia restituisce l’interpretazione e la risposta, permettendo all’utente di verificarla e confermarla.
Durante l’elaborazione il robot mostra in tempo reale, sul suo tablet, l’esoscheletro rilevato sull’utente: quest’ultimo osserva quindi il processo, può correggere l’esecuzione e conclude lo scambio tramite conferma esplicita. Il riconoscimento diventa così un’interazione verificabile. L’Intelligenza Artificiale non opera come meccanismo opaco, ma come processo leggibile e accessibile.
La lacuna dei dataset LIS, un’opportunità, non un gap
Affinché l’interazione presentata possa avvenire, la leggibilità del robot deve essere accompagnata da una leggibilità simmetrica della lingua per il sistema. Il problema si sposta quindi dal dispositivo all’apprendimento: il robot può diventare interlocutore solo se dispone di dati adeguati a interpretare il segno nel suo contesto d’uso.
I dataset esistenti per la LIS, come detto, risultano spesso generici o insufficienti rispetto a situazioni reali di orientamento e richiesta di informazioni. Per questo, presso l’AIRH Lab è stato costruito un dataset specifico per l’interazione negli spazi universitari.
Il sistema è stato progettato inizialmente entro tale dominio circoscritto, per garantire coerenza tra dati linguistici, contesto d’uso e risposte generate. L’interazione è quindi orientata a richieste logistiche tipiche della vita accademica (orari delle lezioni, localizzazione di aule e uffici, informazioni sui docenti e sui servizi disponibili) evitando la pretesa di una copertura linguistica generale. Questa scelta non rappresenta una limitazione, ma una condizione metodologica: restringere il campo semantico consente di costruire scambi completi e verificabili, in cui il riconoscimento del segno produce una risposta pertinente. Il sistema diventa così un assistente situato, progettato per un ambiente reale e non per un repertorio astratto di segni.
Il vocabolario include segni e strutture necessari a simulare domande tipiche di uno studente: richieste di orientamento, localizzazione di servizi, informazioni logistiche. I dati provengono dall’integrazione di risorse esistenti (come A3LIS-147 (Fagiani et al, 2012) e SpreadTheSign (Cardinaletti, A. 2016)) con registrazioni originali, orientate al dominio accademico.
Per rendere il dataset coerente e computazionalmente efficiente, i video vengono convertiti in rappresentazioni esoscheletriche: coordinate bidimensionali dei punti di riferimento corporei estratti tramite modelli di pose estimation (MediaPipe (Lugaresi, C., et al. 2019)). In questo modo l’informazione visiva viene ridotta agli elementi linguistici essenziali di movimento, posizione ed espressione, mantenendo la struttura del segno ma eliminando il rumore dell’immagine. La lingua dei segni diventa così una sequenza di configurazioni corporee interpretabili in tempo reale, adatte a un sistema robotico con risorse limitate di elaborazione delle immagini.
Non si tratta di una semplificazione del linguaggio, ma di una sua formalizzazione operativa: una rappresentazione compatta che conserva le proprietà linguistiche rilevanti rendendole computabili.
I dati normalizzati alimentano un modello di riconoscimento basato su architettura ibrida CNN-GRU. La rete convoluzionale interpreta la configurazione spaziale del corpo, mentre il meccanismo ricorrente ne cattura l’evoluzione temporale. Il sistema non identifica solo posture, ma transizioni: non un gesto isolato, bensì l’azione che si sviluppa nel tempo.
Questo passaggio è cruciale, perché nella lingua dei segni il significato emerge dalla dinamica e non dal singolo fotogramma; il modello deve quindi apprendere traiettorie e simultaneità, non semplici configurazioni statiche.
In questo senso la carenza di risorse disponibili non si è configurata come limite, ma come condizione progettuale favorevole. La necessità di costruire un corpus mirato ha permesso di definire un modello addestrato su un dominio controllato e successivamente raffinabile: nuovi segni e nuove strutture possono essere integrati progressivamente senza ricostruire l’intero sistema. Il dataset diventa così una base modulare, su cui effettuare operazioni di fine-tuning orientate a contesti applicativi differenti, estendendo il vocabolario e adattando l’interazione a nuovi domini mantenendo la coerenza del riconoscimento.
Pensiero robotico e accessibilità: oltre il canale acustico
Un ulteriore sviluppo di questa prospettiva emerge dalla ricerca sull’inner speech robotico (Pipitone, A. & Chella, A. 2021). Tali studi hanno dimostrato che dotare Pepper di un sistema di dialogo interno esternalizzato (un monologo reso percepibile durante l’elaborazione) migliora significativamente la fiducia dell’utente e la leggibilità del processo decisionale della macchina. Finora, tuttavia, questo “pensiero ad alta voce” del robot è rimasto un fenomeno acustico: una voce che spiega, commenta, si interroga. Per chi non sente, tale trasparenza resta inaccessibile, e non si tratta di una limitazione laterale: i modelli computazionali dell’inner speech potrebbero aprire prospettive di ricerca proprio sulle persone sorde dalla nascita, che non possono generare le forme ordinarie di dialogo interiore.
L’integrazione tra inner speech robotico e interazione in LIS apre allora uno spazio di ricerca inedito e profondamente coerente con le premesse di entrambi i filoni: tradurre il dialogo interno della macchina in output visivi (testo, gesto, esoscheletro animato sul tablet) significa non soltanto rendere accessibile la trasparenza del robot, ma costruire una forma di reciprocità comunicativa tra sistemi che pensano senza voce e persone che comunicano senza suono. In questa prospettiva Pepper non è soltanto un assistente situato, ma un interlocutore la cui intenzionalità diventa leggibile indipendentemente dal canale sensoriale: un dispositivo che, anziché presupporre l’udito come condizione di accesso alla relazione, lo rende finalmente opzionale.
Resta tuttavia aperta una questione strutturale: l’evoluzione hardware non segue necessariamente logiche di accessibilità, ma risponde a mercati che privilegiano altri criteri. Per le Digital Humanities questo rappresenta una sfida metodologica concreta: come costruire progetti di ricerca sostenibili quando le piattaforme su cui si basano possono scomparire o evolversi in direzioni che ne compromettono l’applicabilità sociale. Il caso di Pepper, non è un’eccezione ma un fenomeno da attenzionare.
Il futuro che “sapeva” già come parlare
C’è qualcosa di paradossale nel progresso tecnologico. Proprio mentre le macchine acquisiscono capacità visive, motorie e percettive sempre più sofisticate, i dispositivi progettati per sostenere la relazione comunicativa vengono progressivamente abbandonati: non per una scelta consapevole di esclusione, ma come effetto collaterale di priorità orientate all’efficienza operativa. I robot sociali che gestiscono l’attenzione condivisa, che rendono leggibili le fasi dell’interazione, cedono il posto a piattaforme più performanti sul piano motorio, ma meno disponibili sul piano comunicativo e prossemico.
Eppure il passato, in questo caso, conteneva già la risposta. La LIS esisteva prima dei dataset, prima della Computer Vision, prima dei modelli CNN-GRU. Esisteva come lingua completa, identitaria, simultanea, una lingua che distribuisce il significato nello spazio quando tutte le altre lo distendono nel tempo. Chi l’ha sempre parlata sapeva già qualcosa che la tecnologia ha impiegato decenni a capire: che il linguaggio è corpo, è sguardo, è presenza condivisa.
Il vero salto non è quindi in avanti. È il riconoscimento che certi saperi erano già lì, marginalizzati non perché insufficienti, ma perché scomodi per un sistema costruito su un utente normativo, vocale, uditivo. Ripartire dalla LIS significa allora compiere un gesto preciso: tornare indietro abbastanza da raccogliere ciò che è stato scartato, e portarlo dentro i modelli, le interfacce, i robot.
Il dataset costruito all’AIRH Lab non è semplicemente un archivio di segni: è un atto di restituzione. Ogni rappresentazione esoscheletrica, ogni sequenza normalizzata, ogni traiettoria catturata è una lingua che finalmente trova un sistema disposto ad ascoltarla. Non perfettamente (il robot non sa ancora segnare) ma in modo leggibile, verificabile, correggibile. Ed è proprio questa imprecisione trasparente, questa macchina che mostra i propri errori sullo schermo e chiede conferma, a indicare la direzione giusta.
L’innovazione che include non è quella che accelera di più. È quella che sa fermarsi, guardare chi è rimasto indietro, e riconoscere che il problema non era nella loro lingua, era nel modo in cui avevamo costruito le nostre macchine per non doverla capire.












