Le tecnologie di riconoscimento vocale in ambito forense rappresentano oggi una frontiera in rapida evoluzione, offrendo strumenti sempre più sofisticati per le attività investigative e di sicurezza.
Grazie all’intelligenza artificiale, questi sistemi consentono di identificare singoli individui, gestire contesti operativi complessi come ambienti affollati, e affrontare efficacemente le sfide poste dalle intercettazioni multilingue e dialettali.
La capacità di migliorare segnali compromessi, separare voci sovrapposte e trascrivere in tempo reale sta trasformando radicalmente l’approccio alle indagini, richiedendo però sempre una validazione esperta per garantirne la validità probatoria.
Indice degli argomenti
Applicazioni e sfide del riconoscimento vocale forense
Le tecnologie di riconoscimento vocale stanno rapidamente evolvendo, affermandosi come strumenti fondamentali per le attività forensi, investigative e di sicurezza.
L’analisi automatica del parlato consente oggi non solo di identificare singoli individui, ma anche di gestire contesti operativi complessi, come ambienti affollati, intercettazioni multilingue e situazioni caratterizzate dalla presenza di dialetti locali.
La possibilità di intervenire sui segnali fonici compromessi, separare voci sovrapposte, riconoscere comunità linguistiche, trascrivere e tradurre in tempo reale rappresenta un progresso significativo per l’efficienza delle indagini.
L’impiego di sistemi AI addestrati su dataset multilingue e dialettali ha reso queste operazioni più rapide, affidabili e adattabili ai contesti reali.
Tuttavia, l’adozione di tali tecnologie richiede una gestione attenta sul piano probatorio; i risultati generati dai sistemi automatici devono essere sottoposti a verifica da parte di esperti forensi qualificati, nel rispetto della catena di custodia digitale e dei criteri di trasparenza procedurale.
La collaborazione tra laboratori forensi, università e aziende tecnologiche si conferma determinante per migliorare la qualità dei dataset e garantire l’affidabilità dei sistemi in ambito giudiziario.
Guardando al futuro, è prevedibile una crescente diffusione di sistemi di speaker recognition e di trascrizione multilingue in tempo reale, con applicazioni che spazieranno dalla sicurezza pubblica alle indagini transfrontaliere.
Sarà essenziale continuare a investire nella ricerca applicata e nella costruzione di dataset vocali territoriali, per mantenere elevati standard di precisione e ridurre il rischio di errori nei contesti più delicati.
In queste pagine, nell’illustrare lo stato dell’arte sul delicato tema, esploreremo sommariamente lo sforzo di ricerca scientifica che una scale up italiana, Pragma Etimos srl con CEO Gaetano Lo Presti, sta svolgendo su alcuni brevetti e patent pending acquisiti, attraverso la validazione sperimentale del mondo accademico e, più nello specifico, attraverso protocolli d’intesa con l’Università Mediterranea Dipartimento DIIES di Reggio Calabria che prevede la collaborazione scientifica con il gruppo del prof. Francesco Buccafurri, nonché con l’Istituto Italiano di Criminologia ad ordinamento universitario di Vibo Valentia il cui Rettore è il prof. Saverio Fortunato.
Si tratta di una sperimentazione scientifica che, per il verso tecnologico ingegneristico, mira a validare, implementare e sviluppare nuovi modelli neuronali collegati all’Artificial Intelligence e, per il verso umanistico-linguistico e antropologico, è rivolta a mappare le isoglosse di particolare significatività geo politica-commerciale-industriale-culturale-sociale-criminale-terroristica-tattica-strategica, raccogliendo campioni vocali sul territorio per definire con precisione la distribuzione di dialetti, varianti e ogni altra peculiarità linguistica rispetto alla lingua standard.
Un’iniziativa unica nel suo genere, indispensabile per acquisire datipreziosi per perfezionare i modelli AI e costruire una mappatura scientifica accurata delle isoglosse con l’obiettivo di realizzare dataset relativi a micro-macro aree geografiche per sviluppare nuovi modelli AI di Speaker Identification e Speech Transcription a disposizione, in primo luogo, delle autorità governative per esigenze di sicurezza e intelligence ma, anche, per tutto l’indotto che abbraccia industrie, marketing e turismo ad ampio spettro di applicazione, anche in abbinamento ad applicativi di Internet of Things.
Algoritmi di intelligenza artificiale e reti neurali come nuove frontiere tecnologiche
Nei precedenti contributi sullo stato dell’arte del riconoscimento intra e inter parlatore abbiamo trattato “Fondamenti e contesto dell’identificazione vocale” per poi analizzare l’“Identificazione Vocale Vs altre evidenze biometriche”.
In quegli approfondimenti sull’elaborazione del parlato (Speech Processing) avevamo introdotto alcuni concetti di rilievo nella ricerca scientifica e nella sperimentazione tecnologica, indicando lo speech recognition[1], lo speech synthesis[2], lo speech understanding[3], il vocal dialog[4] e lo speaker recognition[5]. In detto scenario avevamo, poi, trattato alcune criticità che possono pesantemente incidere nell’attività di speech processing, come alcune “variabilità” di tipo acustico[6], del parlato[7], del parlante[8], linguistiche[9] e fonetiche.[10]
In questo ambiente operativo hanno sempre più assunto importanza l’impiego di speciali algoritmi di intelligenza artificiale e di reti neurali dedicati che hanno, in parte, modificato l’approccio di analisi forense ancor prima che in un contesto applicativo ad ampio spettro.
Le regole forensi di base secondo le metodologie di approccio tradizionale
Circa venti anni addietro, la studiosa Helen Fraser[11] nel trattare la forensic transcription[12] aveva suggerito agli addetti ai lavori alcune “raccomandazioni” di base, annotando che […] la trascrizione svolge un ruolo importante in molte parti del processo legale. Per esempio: i trascritti forniscono una registrazione pubblica della durata di un procedimento in aula; le trascrizioni forniscono un comoda riferimento alle evidenze raccolte attraverso processi formali, come le interviste di polizia registrate; le trascrizioni forniscono l’interpretazione delle prove assunte dalle registrazioni clandestine, come intercettare un telefono o ascoltare il prodotto di dispositivo di captazione. Tali documenti sono tutti chiamati “trascritti”, ma c’è una differenza significativa nel loro status. Se, da un lato, l’accuratezza delle trascrizioni tribunale è accettata come una pietra miliare del diritto di processo, raramente messo in discussione da una difesa o dell’accusa, dall’altro, la corretta trascrizione delle prove audio può essere oggetto di vigoroso ma alla fine irrisolvibile dibattito […]”[13].
L’esperta si era soffermata su alcuni aspetti dei reperti fonici che affrontavano le criticità correlate al rapporto segnale/rumore (S/R) ed alla durata complessiva del reperto[14], tematiche di cui abbiamo già diffusamente trattato, evidenziando in sintesi che, secondo un approccio tradizionale, non sarebbe meritevole di attenzione forense un reperto con un disturbo del segnale superiore a 1/10 e/o con una durata inferiore a 10 secondi[15].
Nelle sue Iusses in transcription, Fraser aveva evidenziato i “factors affecting the reliability of transcripts as evidence in legal cases”, rilevando che:[16]
1. La trascrizione di materiale sonoro di bassa qualità non deve essere affidata a chi ha, o potrebbe avere, un interesse nell’interpretarne il contenuto.
2. Quando la trascrizione potrebbe essere contestata, la trascrizione deve essere affidata a persona con esperienze linguistiche fonetiche.
3. Quando vi sono dubbi su una particolare parola o frase della trascrizione, questi non possono essere risolti sulla base della sola analisi acustica ma richiedono di esaminare il contesto con attente analisi linguistiche fonetiche da parte di esperti.
4. In una trascrizione di materiale di bassa qualità il trascrittore deve indicare il livello di confidenza e le possibili interpretazioni alternative per ciascuna parte del trascritto.
5. Quando il livello di confidenza è molto basso, ad esempio quando la registrazione è sia di bassa qualità sia molto corta, o la parola contestata risulta isolata o anche se la qualità complessiva non è uniformemente bassa ma sono presenti inconsistenze nella registrazione, è opportuno dichiarare il materiale audio non trascrivibile.
6. Nessuna trascrizione dovrebbe essere presentata ad una giuria prima che la sua attendibilità sia stata controllata da un esperto adeguatamente qualificato nella fonetica e nella linguistica.
7. In generale l’indizio “trascrizione” di una registrazione di bassa qualità non è sufficiente a supportare da solo una condanna; si tratta di indizi che si usano solo insieme ad altre evidenze.
Di segno analogo era risultato, alcuni anni dopo, il “decalogo” annotato dal “gruppo di lavoro presso la Polizia Scientifica” [17]:
1. I tempi necessari alla trascrizione sono in funzione della qualità del segnale, oltre che alla durata dello stesso (si riportino i dati sulla qualità).
2. Consegnare, con la trascrizione, una relazione che riguardi la qualità del segnale, le modalità utilizzate per l’eventuale trattamento dello stesso (es: filtraggio) e tutte le informazioni disponibili.
3. Trascrivere nella stessa lingua o dialetto che si ascolta, eventualmente fornendo una interpretazione in italiano.
4 . La lingua o dialetto deve essere nota al trascrittore.
5. Dichiarare, nella relazione, le informazioni utilizzate per la trascrizione dei nomi.
6. Inserire una legenda con la descrizione della simbologia adottata per segnalare le principali caratteristiche sovra segmentali, tratti incomprensibili, dubbi e altro.
7. Temporizzare accuratamente l’intera trascrizione, con quantificazione delle pause e dei tratti incomprensibili. Segnalare e descrivere i fenomeni acustici ambientali.
8. Procedere alla trascrizione solo se la qualità del segnale supera i requisiti minimi di accettabilità.
9. Segnalare nella trascrizione quando sono presenti inconsistenze linguistiche nel messaggio.
10. Descrivere le procedure di trattamento del segnale (tra cui il filtraggio) per renderle esattamente riproducibili.
I principali disturbi di un reperto fonico
I reperti di interesse forense presentano frequentemente molteplici interferenze e rumori che condizionano l’intellegibilità complessiva del reperto[18]; si tratta di problematiche connesse al fading[19], muffling[20], riverbero ambientale, rumori di fondo, coda GSM[21], interferenze R/F[22], frequentemente oggetto di particolareggiata disamina nelle perizie foniche[23].
“[…] Il canale di trasmissione utilizzato per le intercettazioni – precisano al riguardo Loredana Cerrato e Andrea Paoloni – può provocare distorsioni sul segnale vocale, causando spesso rumori di vario tipo. Di conseguenza il segnale registrato, che a causa del particolare sistema di ripresa, presenta anche una banda di frequenza ristretta e subisce spesso effetti di fading e di muffling, risulta spesso di pessima qualità e praticamente inintellegibile. Anche l’ambiente in cui vengono effettuate le registrazioni influisce sul segnale sia con la riverberazione (eco) sia con la presenza di rumori di fondo[…]” [24].
I rumori si distinguono essenzialmente secondo due macro categorie: la prima classifica i rumori cosiddetti “additivi” e la seconda quelli “convolutivi”.
“Additivi” sono dei rumori generati da sorgenti indipendenti che vanno a sommarsi con il segnale fonico di interesse investigativo, come i “rumori a frequenze definite”[25], quelli “a frequenze continue”[26] e quelli “a frequenze variabili nel tempo”.[27]
I rumori detti di tipo “convolutivo” sono, ancora, quelle riflessioni o risonanze che vanno ad interagire in modo dinamico con la struttura del segnale, come nel caso del riverbero ambientale e dell’eco.
Detti rumori che, spesse volte “sporcano” il segnale rendendolo non integralmente intelligibile, possono essere attenuati, lo vedremo adesso, da varie tecniche[28] di “speech enhancement”. [29]
Così come vedremo le dinamiche collegate al cosiddetto “effetto cocktail party” che, in sintesi, consiste nella naturale predisposizione umana di adattare, ad esempio come in un locale affollato ove è in corso un party, le proprie capacità uditive riuscendo a filtrare attraverso meccanismi fisiologici le voci dai rumori”[30].
Pulizia e miglioramento del segnale fonico
La qualità di un segnale audio rappresenta un elemento determinante per la validità e l’affidabilità delle analisi foniche in ambito forense e investigativo. Le registrazioni utilizzate nelle indagini, spesso ottenute in ambienti non controllati, sono soggette a una serie di disturbi che ne compromettono la chiarezza e la leggibilità. Rumori di fondo, riverbero ambientale, sovrapposizione di suoni e interferenze elettromagnetiche costituiscono variabili che possono ostacolare sia l’ascolto umano sia l’elaborazione automatica tramite intelligenza artificiale.
Per questo motivo, l’eliminazione o la riduzione dei disturbi è una fase preliminare fondamentale. I software di elaborazione audio moderni utilizzano algoritmi di denoising, dereverberation e signal enhancement per migliorare la qualità del segnale senza alterarne le caratteristiche biometriche rilevanti. Tecniche come il noise gating, la riduzione adattiva del rumore e i filtri passa banda consentono di sopprimere interferenze indesiderate mantenendo intatte le componenti utili del parlato.
In ambito forense, il processo di pulizia deve essere effettuato seguendo criteri rigorosi, poiché qualsiasi intervento di elaborazione potrebbe essere contestato in sede giudiziaria se non debitamente documentato e validato. La catena di custodia digitale del file audio e la conservazione del reperto originale, non modificato, rappresentano requisiti imprescindibili per garantire la trasparenza e la ripetibilità delle analisi.
Le moderne tecnologie basate su AI integrano modelli di speech enhancement capaci di distinguere automaticamente tra voce umana e rumore ambientale, adattando i parametri di pulizia in base alle caratteristiche specifiche del segnale.
Questo approccio consente di recuperare informazioni da registrazioni altrimenti inutilizzabili, aumentando la probabilità di attribuzione corretta in fase di speaker recognition.
Inoltre, l’analisi spettrografica avanzata rimane uno strumento essenziale per verificare la presenza di alterazioni, tagli o manomissioni all’interno di una registrazione. L’integrazione di queste tecniche con l’intelligenza artificiale permette di migliorare l’affidabilità delle prove foniche e di valorizzarne l’uso sia in ambito investigativo sia processuale, riducendo sensibilmente il rischio di falsi positivi o esclusioni errate.
Per queste ragioni, la fase di pulizia e miglioramento del segnale non è soltanto una questione tecnica, ma una procedura a forte valenza probatoria, che richiede competenze interdisciplinari e il rispetto di protocolli riconosciuti a livello internazionale, andando a superare lo scoglio della soglia minima di utilizzabilità di un reperto solo se caratterizzato da S/R maggiore a 10 dB e con una durata di almeno 10 sec.
Identificazione del parlante in ambienti affollati (scenario “cocktail party”)
Una delle condizioni più critiche per il riconoscimento vocale in ambito forense è rappresentata dal cosiddetto scenario “cocktail party“, in cui più persone parlano contemporaneamente in un ambiente condiviso, generando sovrapposizioni vocali e rumori di fondo difficili da separare.
Questa situazione, tipica di intercettazioni ambientali o luoghi pubblici affollati, rappresenta una sfida tecnica di primo piano sia per l’ascolto umano sia per i sistemi automatici di speaker recognition.
In condizioni di parlato sovrapposto, il segnale acustico registrato contiene componenti provenienti da più sorgenti vocali, con livelli variabili di interferenza.
Per affrontare questo problema, le moderne tecnologie di intelligenza artificiale utilizzano sistemi di speech separation e speaker diarization[31], capaci di segmentare una registrazione multipla individuando chi sta parlando e quando. I modelli più recenti impiegano reti neurali profonde addestrate a riconoscere pattern acustici specifici di ciascun individuo, riuscendo a isolare le voci anche in condizioni di forte rumore.
L’approccio si basa sulla creazione di embeddings vocali[32] distintivi per ogni parlante e sull’applicazione di algoritmi di clustering che raggruppano i frammenti di segnale appartenenti alla stessa persona, ricostruendo così l’intervento vocale individuale. In questo modo è possibile separare le voci sovrapposte, attribuirle ai rispettivi soggetti e procedere con l’identificazione biometrica.
Dal punto di vista investigativo, la risoluzione di scenari complessi è cruciale per individuare i responsabili di comunicazioni illecite o identificare interlocutori sconosciuti all’interno di una conversazione ambientale.
In ambito giudiziario, la capacità di separare accuratamente le voci in una registrazione diventa essenziale per garantire la correttezza delle attribuzioni e l’affidabilità delle prove.
Tuttavia, l’efficacia di questi sistemi dipende dalla qualità del segnale audio e dalla disponibilità di dati di confronto.
Pertanto, anche in presenza di tecnologie AI avanzate, il supporto dell’esperto forense resta determinante per valutare la consistenza dei risultati e verificarne la compatibilità con le esigenze probatorie.
Trascrizione e traduzione automatica in tempo reale
Le tecnologie di trascrizione e traduzione automatica in tempo reale rappresentano una delle evoluzioni più rilevanti per l’ambito investigativo e di sicurezza. La possibilità di convertire istantaneamente il parlato in testo, e di tradurlo in altre lingue senza ritardi operativi, offre vantaggi operativi decisivi in contesti di sorveglianza, intercettazione ambientale e gestione di emergenze multilingue.
I sistemi moderni si basano su modelli di automatic speech recognition (ASR)[33] addestrati su dataset multilingue e multiregionali[34], capaci di riconoscere e trascrivere la voce anche in presenza di rumore di fondo o parlato informale.
Integrando moduli di machine translation (MT), queste piattaforme consentono di tradurre simultaneamente i contenuti trascritti in diverse lingue, mantenendo la struttura semantica e contestuale del discorso.
Dal punto di vista tecnico, la sfida principale è rappresentata dalla variabilità del parlato naturale: accenti, velocità irregolari, espressioni colloquiali e codice misto.
I sistemi più avanzati impiegano reti neurali sequenziali e modelli Transformer che gestiscono il contesto linguistico e riducono il tasso di errore, anche in condizioni operative critiche.
In ambito forense e investigativo, queste tecnologie permettono di monitorare comunicazioni sospette in tempo reale, di supportare le operazioni sotto copertura e di trascrivere e tradurre velocemente reperti audio in lingue minoritarie o dialettali.
Ciò consente alle autorità di intervenire con tempestività su contenuti rilevanti e di acquisire elementi probatori senza attendere la trascrizione manuale o la mediazione di interpreti.
Tuttavia, come per tutte le tecnologie automatiche, è indispensabile che i risultati vengano validati da esperti forensi, soprattutto in sede giudiziaria, per evitare interpretazioni errate dovute a trascrizioni imprecise o traduzioni non contestualizzate. La presenza di un perito specializzato consente di confermare la correttezza della trascrizione e di verificarne la coerenza con l’audio originale.
Riconoscimento multilingue e gestione dei dialetti
L’evoluzione delle tecnologie di riconoscimento vocale ha reso possibile l’identificazione e la trascrizione automatica di contenuti audio in oltre un centinaio di lingue standard e di numerose varianti dialettali. Questa capacità è particolarmente rilevante in ambito forense e investigativo, dove le comunicazioni intercettate possono avvenire in contesti linguistici misti o minoritari, spesso non contemplati dai sistemi convenzionali.
I moderni modelli di automatic speech recognition (ASR) basati su reti neurali profonde vengono addestrati su dataset multilingue e dialettali, migliorando progressivamente la loro capacità di riconoscere pronunce diverse, accenti regionali e varianti colloquiali[35].
Tecnologie recenti, come i modelli multilingual transformer e i sistemi self-supervised basati su grandi corpora vocali non annotati, consentono di ottenere trascrizioni accurate anche in lingue a bassa risorsa o dialetti locali.[36]
In contesti operativi reali, è frequente che i parlanti alternino più lingue o combinino espressioni dialettali con il linguaggio standard, rendendo difficile l’interpretazione automatica. I sistemi AI di nuova generazione riescono a gestire codice misto e passaggi interlinguistici senza compromettere la coerenza della trascrizione.
Questo approccio offre un supporto cruciale nelle intercettazioni ambientali, nelle comunicazioni internazionali e nelle indagini su reti transfrontaliere.
Dal punto di vista forense, la possibilità di riconoscere non solo la lingua ma anche la variante dialettale di un parlante consente di restringere il campo d’indagine, fornendo indicazioni preziose sull’origine geografica e sociale del soggetto. Tale funzionalità risulta inoltre determinante per garantire la comprensione corretta di frasi idiomatiche, espressioni regionali e riferimenti culturali contenuti nei dialoghi.
Per assicurare affidabilità in ambito probatorio, è necessario che questi sistemi vengano validati su corpus locali rappresentativi e che i risultati siano sottoposti a verifica da parte di esperti linguistici e forensi. L’integrazione di modelli AI multilingue con dataset dialettali costruiti attraverso progetti di ricerca accademica garantisce una copertura linguistica adeguata e riduce il rischio di errori interpretativi.
Riconoscimento di comunità linguistiche e tratti vocali regionali (isoglosse)
L’analisi forense della voce non si limita alla semplice identificazione individuale, ma può estendersi alla rilevazione di tratti comuni all’interno di una comunità linguistica o di un gruppo di parlanti caratterizzati da specifiche peculiarità regionali. In ambito investigativo, la possibilità di individuare la provenienza geografica di un parlante o di associarlo a una determinata comunità può fornire indicazioni preziose per il restringimento del campo d’indagine.
Il concetto di isoglossa, mutuato dalla linguistica, identifica il confine geografico entro cui una determinata caratteristica fonetica, lessicale o sintattica viene condivisa da una comunità di parlanti[37]. Nella pratica forense, il riconoscimento di tali tratti vocali distintivi permette di associare un individuo a una specifica area linguistica o a una rete sociale ristretta.
Le tecnologie di intelligenza artificiale applicate a questo ambito si basano su modelli di classificazione acustica addestrati a riconoscere variazioni fonetiche, intonazioni e ritmi di parlato tipici di determinate zone geografiche o gruppi etnici. Tali sistemi consentono, ad esempio, di discriminare tra diverse varianti di una lingua nazionale o di rilevare la presenza di dialettismi e accenti locali.
In contesti investigativi, queste analisi possono supportare l’attribuzione di un file audio a un gruppo criminale localizzato, individuare comunicazioni intercorse tra soggetti appartenenti alla stessa area o verificare la compatibilità linguistica di un sospettato con una registrazione.
Dataset vocali locali e ruolo delle università nel riconoscimento vocale forense
Il riconoscimento vocale automatico e le applicazioni forensi basate sull’intelligenza artificiale dipendono strettamente dalla disponibilità di dataset vocali rappresentativi e diversificati.
Tuttavia, i principali corpus internazionali attualmente impiegati, come VoxCeleb o Common Voice, risultano spesso inadatti per contesti investigativi locali o per l’analisi di varietà dialettali e accenti regionali.
Questo limite è particolarmente evidente in paesi come l’Italia, caratterizzati da una forte frammentazione linguistica e da un patrimonio di dialetti e parlate locali.
Per superare questa criticità, è essenziale promuovere iniziative di raccolta di parlato reale in contesti territoriali specifici[38].
Le università, grazie alla loro rete di ricerca e alla capacità di accesso alle comunità linguistiche, rappresentano i partner ideali per la costruzione di questi dataset.
Progetti di registrazione sul campo, condotti nel rispetto della normativa sulla privacy e con il consenso informato dei partecipanti, permetterebbero di documentare le varietà linguistiche regionali, creando risorse utili sia per la ricerca scientifica sia per le applicazioni forensi.
Tali corpus vocali locali consentirebbero di addestrare modelli AI più precisi e adatti ai contesti investigativi nazionali, migliorando le performance dei sistemi di speaker recognition e di identificazione linguistica in situazioni operative reali. Inoltre, favorirebbero lo sviluppo di strumenti di speech enhancement e di separazione vocale più efficaci per i dialetti meno standardizzati.
La collaborazione tra laboratori forensi, università e aziende tecnologiche è quindi strategica per costruire dataset aggiornati, scientificamente validati e legalmente utilizzabili in ambito giudiziario. Queste iniziative contribuiscono non solo a rafforzare la capacità investigativa nazionale, ma anche a tutelare il patrimonio linguistico minoritario, documentandone le specificità acustiche in modo strutturato.
Tecniche di ricerca sociale per la raccolta fonica nei progetti forensi
L’acquisizione di reperti fonici necessari per la realizzazione di idonei dataset secondo criteri di acquisizione prestabiliti è la base di partenza di questa attività di ricerca scientifica che abbraccia il core business di Pragma Etimos srl che da oltre dieci anni ha dedicato sforzi e risorse intellettuali nella ricerca del riconoscimento della voce attraverso le scienze neuronali, così da determinare una “rivoluzione scientifica”, usando il lessico di Thomas Kuhn[39].
“[…] Il passaggio da una visione teorica all’altra – scrive Piergiorgio Corbetta – è così globale e ha conseguenze così radicali sulla disciplina coinvolta, che Kuhn non esita ad usare il termine <<rivoluzione>> e parla per l’appunto di <<rivoluzione scientifica>>. Che cosa cambia, in una determinata disciplina, a seguito di una di queste rivoluzioni? Si produce <<un cambiamento dei problemi da proporre all’indagine scientifica e dei criteri con i quali la professione stabiliva che cosa si sarebbe dovuto considerare come un problema ammissibile o come una soluzione legittima ad esso>> […]”[40].
L’attività di setaccio che l’osmosi tra il mondo accademico e quello della ricerca informatica sta effettuando, si fonderà su un approccio di tecnica della ricerca sociale, che avrà come obiettivo quello di proporre un’intervista quale forma di interazione comunicativa finalizzata alla ricerca sociale[41] con un approccio non standardizzato, con il solo obiettivo di acquisire reperti fonici[42] slegati da query prefissate, che avranno il solo scopo di campionare rispetto al parlante:
Uomo (giovane/anziano)
Donna (giovane/anziana)
Bambino (maschio/femmina)
Comunità linguistica di appartenenza
Lingua standard parlata e provenienza geografica
Dialetto parlato e provenienza geografica
Switch linguistici
Hyper-hypo articulation[43]
Varianti e pattern significativi
Linguaggi settoriali e codici nell’analisi di riconoscimento vocale forense
La lingua, intesa come sistema dinamico e stratificato, si configura come uno strumento comunicativo altamente variabile, soggetto a trasformazioni determinate da fattori storici, geografici, culturali e relazionali.
Essa si adatta costantemente al contesto situazionale in cui si manifesta, riflettendo non soltanto l’ambiente esterno ma anche le caratteristiche dell’interazione comunicativa: lo scopo dell’enunciazione, il rapporto tra emittente e destinatario, il grado di formalità richiesto.
A parità di contenuto informativo, un medesimo messaggio può essere veicolato attraverso scelte linguistiche differenti, che variano in funzione del contesto e della relazione interpersonale. Tale fenomeno si manifesta attraverso l’impiego dei cosiddetti registri linguistici.
Nel quadro della sociolinguistica, i registri rappresentano livelli espressivi che riflettono il grado di formalità della comunicazione.
Essi si articolano lungo un continuum fluido che non conosce confini netti, ma piuttosto transizioni graduali tra tre principali polarità: il registro formale, neutro e informale. Il registro formale si caratterizza per un uso sorvegliato del lessico, una sintassi articolata e una marcata distanza stilistica. Esso è tipico dei contesti istituzionali, accademici, giuridici e ufficiali, dove si privilegia la chiarezza espositiva, la precisione terminologica e l’impersonalità.
Il registro neutro, o medio, si colloca in posizione intermedia e trova applicazione nella comunicazione quotidiana tra interlocutori che intrattengono rapporti non confidenziali ma nemmeno rigidamente codificati: è il registro della didattica scolastica, dei media, del linguaggio lavorativo standard. Infine, il registro informale si attiva nei contesti familiari e confidenziali, assumendo forme più flessibili, colloquiali e connotate da elementi emotivi e culturali condivisi.
L’uso di idiomatismi, dialettismi e gergalismi, così come la presenza di impliciti e costruzioni ellittiche, segna l’appartenenza a un gruppo sociale e la volontà di rafforzarne l’identità.
La padronanza dei registri non si limita a un esercizio stilistico: essa rappresenta un dispositivo di posizionamento sociale, un marcatore di ruolo, status e intenzione comunicativa.
Tale consapevolezza si rivela centrale non solo nell’ambito dell’educazione linguistica, ma anche in contesti più sensibili come l’intelligence, la sicurezza nazionale, la criminologia e la linguistica forense, dove l’analisi delle scelte linguistiche può fornire indizi preziosi sull’identità del parlante, la sua provenienza o appartenenza ideologica.
Il concetto di variazione linguistica si estende anche sul piano geografico, dove si osserva un continuum dialettale privo di confini netti. In Italia, la distribuzione dei tratti fonetici, morfologici e sintattici non segue una logica di cesure nette, bensì una graduale transizione che rende complesso delimitare con precisione i confini tra le diverse varietà.
Per rispondere a tale esigenza, la dialettologia si avvale dello strumento dell’isoglossa, linea immaginaria che delimita l’area di diffusione omogenea di un determinato fenomeno linguistico. Sebbene il tracciato delle isoglosse non coincida mai perfettamente, esse consentono di visualizzare e analizzare la geografia delle variazioni.
In questo contesto, si ricorre spesso all’isoglossa caratterizzante, ovvero quella che viene considerata più significativa nel definire una determinata area linguistica.
Un esempio è rappresentato dalla distinzione tra la vocale finale –u e –o nei sostantivi maschili nell’area umbro-marchigiana, o dal vocalismo tonico a cinque vocali tipico dei dialetti meridionali estremi. Quest’ultimo, insieme al vocalismo atono in posizione finale ridotto a tre vocali (-a, -i, -u), costituisce uno dei tratti distintivi dei dialetti centro-meridionali, comprendenti la Calabria meridionale, la penisola salentina e la Sicilia, aree fortemente influenzate dal sostrato e dal parastrato greco.
L’utilizzo delle isoglosse va ben oltre l’interesse della dialettologia descrittiva: esse si configurano come strumenti operativi per la localizzazione dei parlanti in ambito investigativo. In situazioni criminali o terroristiche, la presenza di determinati tratti linguistici può contribuire a restringere il campo d’indagine.
Ad esempio, l’uso di un termine come “vadduni” (valle) può indicare una provenienza siciliana orientale; un’espressione come “scazzariato” può localizzare il parlante nel Salento. Incrociare tali marcatori con l’uso di slang, socioletti o criptolett consente una profilazione linguistica di estrema precisione, utile per individuare affiliazioni, provenienze, o reti ideologiche sommerse.
Nel contesto contemporaneo, caratterizzato da minacce ibride e criminalità transnazionale, la lingua si trasforma in uno strumento di potere, affiliazione e protezione. Le organizzazioni criminali e terroristiche fanno uso sistematico di codici linguistici chiusi, strutture semiotiche opache, gerghi settoriali e linguaggi criptati.
Lo slang, inteso come varietà non standard fortemente marcata socialmente, viene impiegato per rafforzare l’identità del gruppo e per escludere i non affiliati. Nel contesto mafioso o carcerario, lo slang si evolve in criptolett, una forma di linguaggio deliberatamente ermetico, composto da metafore, abbreviazioni, ellissi semantiche e termini allusivi.
Basti pensare all’uso del termine “punciutu” per indicare un affiliato alla mafia, o “marenna” per riferirsi a un furto riuscito nel gergo napoletano. Questi codici non solo rafforzano l’identità interna, ma rendono difficile l’accesso agli estranei.
Studiare questi linguaggi significa mappare reti, affiliazioni, ideologie e a volte anche gerarchie interne.
Allo stesso modo, nei canali di comunicazione del terrorismo, come il dark web o le app criptate, lo slang si fonde con elementi religiosi, codici ideologici, e prestiti linguistici multipli (dall’arabo, dal francese, dall’inglese)[44], generando un linguaggio ibrido, mutevole e difficilmente accessibile dall’esterno.
Nella macroarea geografica calabrese ad esempio, ma anche in altre regioni come la Puglia o la Sicilia, vi è una forte influenza greca nella cultura, e quindi, nella lingua, come nel caso di diversi termini dialettali che, ancora oggi, “[…] vengono utilizzati correntemente nel dialetto della provincia di Reggio Calabria, la cui origine é riconducibile, oltre che al greco[45], anche al latino[46], l’arabo[47], al francese[48], allo spagnolo[49]e al tedesco[50]. […]”[51].
La decodifica di tali linguaggi richiede competenze altamente specializzate, in grado di integrare conoscenze fonetiche, linguistiche, culturali e tecnologiche.
Il riconoscimento della voce rappresenta uno degli ambiti più promettenti e, al contempo, più delicati della linguistica forense.
La voce, infatti, non è soltanto un mezzo di espressione, ma un biomarcatore individuale, potenzialmente in grado di identificare un soggetto in modo univoco. Tuttavia, la sua analisi implica una serie di difficoltà legate a variabili fisiologiche (età, stato di salute), contestuali (rumore di fondo, distanza dal microfono), psicologiche (emozione, stress) e tecniche (qualità del segnale, strumenti di registrazione).
Anche in ambito commerciale e strategico, la conoscenza delle isoglosse e dei codici linguistici locali assume valore operativo. Il marketing linguistico e il neuromarketing sfruttano le varianti regionali per creare campagne persuasive, ridurre i fraintendimenti culturali e costruire narrazioni più empatiche. L’analisi del parlato, inoltre, consente di segmentare i mercati, individuare target specifici e adattare contenuti pubblicitari sulla base delle peculiarità linguistiche locali.
In definitiva, lo studio congiunto di slang, isoglosse e codici settoriali si configura oggi come una risorsa strategica per l’intelligence, la giustizia, la sicurezza e il marketing.
In un mondo caratterizzato da criminalità organizzata, terrorismo transnazionale e manipolazione dell’informazione, la lingua non è solo un mezzo espressivo, ma un indicatore identitario, un segno geosociale, un codice cifrato e, soprattutto, una chiave operativa per leggere e decifrare i linguaggi dell’ombra.
Attraverso una griglia sperimentale di ricerca[52] da delineare al termine dell’acquisizione dei dataset, sarà possibile campionare, anche, “[…] le difformità e le distorsioni di più ascoltatori, ad esempio attraverso il loro bagaglio culturale e professionale, le loro pregresse esperienze di ascolto, la loro provenienza etnolinguistica, il loro stato emozionale, e così via […]”[53].
Una miriade di esplicitazioni “[…] attraverso le tante espressioni gergali come quella, ad esempio, ricorrente ogni qual volta le ‘ndrine, ricevuta sotto banco la soffiata di un’operazione delle forze dell’ordine, segnaleranno agli altri sodali la previsione di una “rrumuràta”[54].
Interpretazioni gergali che, conseguentemente, devono presupporre anche una conoscenza di base della criminalistica di contesto, così da poter dare “voce” semantica a logatomi apparentemente insignificanti come “i stàcchi”[55], “i nìgri”[56], “i càstani”[57], “i tiradrittu”[58], “i ti màngiu”[59], “i manìgghja”[60], “i ficarèddi”[61], “i paddèchi”[62] e, ancora, “u ballerìnu”[63], “facciazza”[64], “u signurìnu”[65], “giù la maschera”[66], “nanu feroci”[67], “micu u pacciu”[68], “micu gingomma”[69], “il supremo”[70], “cavallino”[71], “u sciòrbu”[72], “Totò scupetta”[73], “ddù nasi”[74], tutta una sfilza di nomignoli attraverso cui è possibile individuare l’appartenenza criminale di un soggetto o la sua stessa identificazione non equivocabile, così come “’ncavallàtu”[75], “tùfa”[76], “a molla”[77] o, ad ultimo esempio “mismùzzu” e “mastròssu”, indicanti una serie di gerghi che non fanno certo parte dello slang usato dai giovani reggini davanti un panino da Mc Donald.
Proiezioni etnografiche che serviranno […] per spiegare […] che “quatràru” significa ragazzo in quanto si tratta di un’espressione dialettale della provincia reggina, con origine etimologica latina dalla parola quaternarius, cioè bambino di quattro anni; che “tamàrru” è un cafone, il cui termine deriva dallo spagnolo tammâr, significante mercante di datteri, zotico; o che, attraverso il termine papariàri, il mafioso si rifà ad un’accezione spagnola, papelonàr, che significa appuntopavoneggiarsi; e quando intimidisce una persona dandole un buffettùni, si tratterà allora di un ceffone, dal francese bufeton, schiaffone; così come il suo tipico atteggiarsi da spaccùni, che è proveniente dal tedesco spachen, rivolto a descrivere un soggetto gradasso […]”[78].
Note
[1] Le informazioni acustiche (come i comandi vocali impartiti ad una macchina) vengono convertite in informazioni di tipo linguistico, descrivibile attraverso trascrizione in un formato di testo o comprese dal sistema informatico.
[2] Consiste nella capacità di un determinato sistema di elaborazione dati, in grado di sintetizzare, quindi simulare, la voce umana con tutte le possibili inflessioni ed aspetti prosodici.
[3] Concerne la comprensione semantica delle frasi che compongono il “parlato”, con l’ausilio di speciali algoritmi di intelligenza artificiale e di reti neurali dedicati.
[4] Attraverso il v.d. è possibile riprodurre in un sistema informatico le caratteristiche dialogiche fra due parlanti e comprenderne i contenuti. Il sistema dovrà poi saper elaborare una risposta, a sua volta tradotta da un sintetizzatore vocale.
[5] Si interessa al riconoscimento del parlatore (l’impronta vocale è, sotto il profilo biometrico, univoca come quella digitale) con l’impiego di algoritmi di analisi numerica dei segnali.
[6] I fonemi sono soggetti alla c.d. coarticulation effect, differenziandosi in base al contesto di pronuncia, producendo effetti acustici diversi tra loro. In buona sostanza, l’impronta sonora è fortemente condizionata dall’ambiente di produzione del suono (come nel caso di disturbi dovuti al fading, cioè l’amplificazione del segnale, al muffling, con cjui si intende l’ovattamento dei microfoni, il riverbero ambientale e i rumori di fondo).
[7] I suoni sono pesantemente condizionati dallo stato emozionale del parlante, ed emessi con tonalità diverse. Più avanti si farà riferimento più articolato ad alcuni condizionamenti fisiologici che in condizione stressorie ed emozionali modificano il pattern abituale e, in particolare, quello vocale, determinato delle forme di microtremore.
[8] I sistemi di riconoscimento vocale devono essere rodati al fine di riuscire a riconoscere l’impronta vocale di un parlante.
[9] Con riguardo al significato, il relativo riconoscimento è condizionato dal fatto che concetti analoghi possono trovare esplicazione attraverso frasi diverse, e ancora differente interpretazione.
[10] Una stessa parola trova rappresentazione fonetica differente, diversificandosi nella pronuncia a seconda della provenienza geografica del soggetto parlante.
[12] www.forensictranscription.com.au.
[13] Fraser H., Trascrizioni nel sistema giuridico, (capitolo 100), eds. Ian Freckelton e Hugh Selby. Sydney: Thomson Reuters (2010), pag.100.
[14] Paoloni A., Note sul riconoscimento del parlante nelle applicazioni forensi con particolare riferimento al metodo parametrico IDEM, Rivista Italiana di Acustica, Vol. 27 n. 3-4.
[15] Di Stefano M., Le trascrizioni nel processo penale. Manuale dei periti, consulenti e polizia giudiziaria, Città del Sole editore, Reggio Calabria (2023), pagg. 114 e ss.
[16] Fraser H., Iusses in transcription: factors affecting the reliability of transcripts as evidence in legal cases (Problemi di trascrizione: fattori che influenzano l’affidabilità delle trascrizioni come prova in casi legali), in z 10(2) 2003, pag. 223.
[17] Fonte: cfr.atti del convegno “Utilizzabilità dell’intercettazione per la trascrizione del parlato”, Camera Penale di Roma16 marzo 2012, intervento di Andrea Paoloni.
[18] Procedimento Penale 4954/04 RGNR DDA, Operazione Prius Reggio Calabria, informativa conclusiva, pagg. 12-13: “[…]I limiti tecnici di intercettazione ambientale con l’impiego di idonei sistemi “anti-bonifica” hanno purtroppo ridotto, conseguentemente, anche la consistenza e qualità dei reperti audio captati, condizionati da tutte quelle problematiche di carattere tecnico che, nel loro insieme, concorrono nella qualificazione delle caratteristiche acustiche di una intercettazione ambientale, ed in particolare: Rumore di fondo, cioè tutti quei rumori presenti nel luogo dove i parlatori hanno dialogato. Le intercettazioni correlate al presente procedimento sono state effettuate a bordo di autovetture ove detto parametro è stato fortemente condizionato dai rumori prodotti dal movimento dell’autovettura, dalla sconnessione del fondo stradale, dall’insonorizzazione dell’abitacolo, dall’effetto “soffio” dei finestrini o dalla musica dell’autoradio. Altre intercettazioni sono state effettuate sulla pubblica via ove, oltre ogni misura, i rumori di fondo hanno condizionato la qualità finale del reperto audio. Ulteriori intercettazioni sono state effettuate all’interno di piccoli monolocali ove erano collocati televisori ed elettrodomestici; Fading, cioè quelle variazioni di intensità del segnale radio prodotte dal sistema e apparato di trasmissione del segnale R.F. Al riguardo, le intercettazioni veicolari sono state effettuate con trasmissione o rilancio dei dati tramite ponte telefonico satellitare; quelle locali e sulla pubblica via con trasmissione in radio frequenza; Canalizzazione M.C.R. : queste ultime intercettazioni ( sulla pubblica via nelle adiacenze della […] di cui si dirà) hanno, inoltre, risentito pesantemente della canalizzazione e compressione dei reperti fonici sul sistema M.C.R. , non consentendo la prosecuzione del servizio, seppure il contesto investigativo attenzionato – ove era stata rilevata e filmata la presenza di personaggi ritenuti di elevata caratura criminale degli schieramenti (omissis) – sarebbe stato meritevole di adeguato approfondimento; Muffling, cioè quei fenomeni di camuffamento, ovattamento e distorsione dovuti al posizionamento dei microfoni ai fini dell’occultabilità del sistema di intercettazione. Nel caso dell’autovettura di (omissis), ad esempio, la necessità di occultare nel migliore dei modi l’apparecchiatura ed i microfoni per garantire l’antibonifica aveva, purtroppo, determinato una minore resa dei reperti audio-fonici acquisiti; Riverberazione ambientale, cioè l’effetto di eco dell’ambiente, alle volte accentuato dall’elevata amplificazione delle postazioni microfoniche che erano state potenziate per compensare, in parte, l’ovattamento dovuto all’occultamento dei microfoni […]”.
[19] Eccessiva amplificazione.
[20] Ovattamento del microfono occultato.
[21] Si tratta di una frequenza di disturbo dovuta alla portante del modulo GSM che, in condizioni di cattiva ricezione, tende ad amplificare automaticamente la trasmissione del reperto fonico.
[22] Come nel caso in cui la trasmissione R/F sia disturbata da campi magnetici nella vicinanza, come motori di elettrodomestici, motorizzazioni a due tempi, inquinamenti elettromagnetici della zona di interesse, ecc.
[23] Di Stefano M., Sociologia della comunicazione quale strumento d’indagine. I dettagli smarriti nelle intercettazioni”, Altalex quotidiano d’informazione giuridica”, 17 aprile 2013: “[…]Sotto il profilo fonetico, poi, l’abilità del tecnico nel definire la qualità del reperto fonico e la sua attendibilità – rilevando o isolando i vari disturbi di acquisizione dovuti al fading ( cioè l’amplificazione del sistema di registrazione), al muffling (l’ovattamento del microfono occultato), al riverbero ambientale e ai rumori di fondo – dovrebbe trovare commisurata rispondenza in fase trascrittiva ed interpretativa del reperto, ove la trasformazione del parlato allo scritto sarebbe meritevole di indispensabili precisazioni di tipo etnolinguistico. Ciò in quanto la situazione comunicativa viene spesso acquisita in forma esclusivamente dialettale, con frequenti code swiching, salti linguistici, cambi d’argomento, sott’intesi ed espressioni gergali. La sua documentazione, a prescindere da possibili precisazioni extralinguistiche sulla cinesica, mimica e postura, non trova, solitamente, adeguata rappresentazione paraverbale, in quanto difficilmente la trasposizione, dal parlato allo scritto[23], di una conversazione di interesse giudiziario reca anche dettagli di tipo prosodico, come l’enfasi, le pause, il ritmo, l’intonazione, o ancora quei microtremori significativi di una situazione di distress tra i conversanti […]”.
[24] Cerrato L., Paoloni A., La situazione comunicativa nelle intercettazioni ambientali, in: Atti delle VII Giornate del Gruppo di Fonetica Sperimentale, Napoli (1996).
[25] Paoloni A., Zavattaro D., Intercettazioni telefoniche e ambientali, cit., pagg. 23: “[…] ronzio di rete (hum), toni telefonici, rumori armonici […]”.
[26] Ivi, pag. 24: “[…] marrone, rosa, bianco. Questi tipici rumori ambientali sono espressi come colore per similitudine con lo spettro della luce visibile, dove appunto il colore determina una banda di frequenza; il cosiddetto rumore bianco è costituito da tutte le frequenze percepibili, quando vengono espresse in egual misura. Rosa e marrone contengono invece una quantità maggiore di basse frequenze […]”.
[27] Ibidem: “[…] traffico, voci sovrapposte, eventi atmosferici, ecc. A questa categoria appartengono molti tra i rumori presenti nelle intercettazioni ambientali e una generalizzazione è pressochè impossibile, perché di volta in volta bisognerebbe valutare l’entità dell’incidenza del disturbo, la stabilità temporale in frequenza, la banda spettrale interessata […]”.
[28] Lim J.S., Oppenheim A. V., Enhancement and Bandwidth Compression of Noisy Speech, in Proceeding of the IEEE, (1979), vol. 67, n.12.
[29] www.univpm.it, Bastari A., abstract, (2012): “[…]Nel corso degli ultimi anni il termine Speech Enhancement ha ampliato il suo significato, tanto che se fino a qualche tempo fa veniva utilizzato esclusivamente come sinonimo di Noise Reduction, di recente sempre più ricercatori lo stanno utilizzato per indicare un’ampia famiglia di algoritmi e/o dispositivi il cui scopo è quello di migliorare alcuni aspetti qualitativi del segnale di speech, attraverso l’impiego di tecniche di processamento del segnale digitale, per l’ascoltatore umano, o in modo tale che possa essere meglio utilizzato da altri algoritmi di speech processing. Questo lavoro di tesi approccia il problema dello Speech Enhamcement da questo nuovo punto di vista, trattando tre argomenti principali. Il primo argomento analizzato è il problema della separazione blind di sorgenti di speech, che comprende un sottoinsieme delle tecniche di separazione blind delle sorgenti progettate in modo specifico sfruttando le proprietà statistiche dei segnali di speech. Solo il caso di modelli di mixing sottodeterminati (ovvero con un numero di sorgenti maggiore del numero di misture a disposizione) è stato preso in considerazione. Per quanto riguarda mixing lineari sottodeterminati, sia istantanei che con ritardi, nuove trasformate tempo frequenza, come la Trasformata di Stockwell (ST), sono state utilizzate in tecniche di ICA geometrica per aumentare la sparsità e la separazione spettrale delle sorgenti. Allo scopo sono anche state ricavate due versioni ridotte della ST discreta. Per mixing non lineari è stato studiato un nuovo approccio basato sulla Gaussianizzazione delle misture per il recupero delle non linearità in modelli di mixing Post Non Lineari sottodeterminati, ottenendo buoni risultati sperimentali. Il secondo argomento su cui si è lavorato è il problema della riduzione del rumore (Noise Reduction). Il contributo principale in questo settore è stato l’impiego di strutture adattative non lineari in uno schema per la riduzione del rumore in sottobande binaurale, che può essere considerato come una evoluzione dello schema classico di Acoustic Noise Cancellation (ANC). Confronti sperimentali con altre recenti architetture adattative multibanda confermano l’efficacia dell’architettura proposta. L’ultimo argomento trattato riguarda l’interessante problema della cancellazione del feedback acustico in ambienti rumorosi. Questo studio ha condotto allo sviluppo ed implementazione di una architettura innovativa, basata su una particolare implementazione di un metodo diretto a norma quadratica per l’identificazione di un sistema a ciclo chiuso (Closed-Loop Identification-CLI), appartenente alla classe dei metodi dell’errore di predizione. Lo schema proposto è risultato estremamante flessibile, permettendo di considerare percorsi acustici di differenti lunghezze, e come dimostrato sia dallo studio teorico che dai risultati sperimentali, permette di ottenere migliori risultati delle altre tecniche presenti in letteratura […].
[30] Di Stefano M., Le trascrizioni nel processo penale. Manuale dei periti, consulenti e polizia giudiziaria, cit., pag.59.
[31] Anguera X., Bozonnet S., Evans N., Fredouille C., Friedland G. and Vinyals O., Speaker Diarization: A Review of Recent Research, in IEEE Transactions on Audio, Speech, and Language Processing, vol. 20, no. 2, pp. 356-370, Feb. 2012, doi: 10.1109/TASL.2011.2125954.
[32] Garcia-Romero, Daniel & Snyder, David & Sell, Gregory & McCree, Alan, Speaker diarization using deep neural network embeddings, (2017), 4930-4934. 10.1109/ICASSP.2017.7953094.
[33] Jansen, Aren & Durme, Benjamin. (2011). Efficient spoken term discovery using randomized algorithms. 10.1109/ASRU.2011.6163965.
[34] Mareček, David & Celikkanat, Hande & Silfverberg, Miikka & Ravishankar, Vinit & Tiedemann, Jörg. (2020). Are Multilingual Neural Machine Translation Models Better at Capturing Linguistic Features? Prague Bulletin of Mathematical Linguistics. 115. 143-162. 10.14712/00326585.009.
[35] Conneau, A., et al. (2020). Unsupervised cross-lingual representation learning at scale. ACL Proceedings.
[36] Lahiri, Rimita & Kumatani, Kenichi & Sun, Eric & Qian, Yao. (2021). Multilingual Speech Recognition using Knowledge Transfer across Learning Processes. 10.48550/arXiv.2110.07909.
[37]Introduction by Boberg C., Nerbonne J. and Watt D., The Handbook of Dialectology, Edited by Charles Boberg, John Nerbonne, and Dominic Watt, Wiley Blackwell editors
[38] Morrison, G. S., Rose, P., & Zhang, C. (2012). Protocol for the collection of databases of recordings for forensic-voice-comparison research and practice. Australian Journal of Forensic Sciences, 44, 155–167.doi:10.1080/00450618.2011.630412.
[39] Kuhn T., La struttura delle rivoluzioni scientifiche, Einaudi editore, Milano (1978), prima edizione The Structure of Scientific Revolutions (1962).
[40] Corbetta P., Metodologia e tecniche della ricerca sociale, Il Mulino editore, Bologna (1999), pag. 18.
[41] Tusini S., La ricerca come relazione. L’intervista nelle scienze sociali, Franco Angeli editore, Milano (2006), pagg. 19 e ss.
[42] Campionando in input file nativi a 8000Hz non compressi, evitando qualsiasi manipolazione in fase di acquisizione.
[43] Lindblom B., Explaining Phonetic Variation: A Sketch of the H&H Theory (1990).
[45] Violi F., La grecità calabrese. Storia e origini, Circolo Apodiafazzi editore, Bova (1997).
[46] L’influenza della lingua latina avvenne a fasi alterne ed in più periodi, in quanto Reggio in epoca romana avrebbe goduto il diritto di mantenere cultura e lingua greca; la latinizzazione più accentuata si registrò non nel successivo periodo normanno e svevo, bensì in quello angioino e aragonese, coincidente con l’erosione della cultura ellenica in Calabria.
[47] Ciò è dovuto alla presenza, in alternanza ai bizantini, del dominio saraceno, che determinarono l’introduzione dell’etimologia araba.
[48] La presenza fino al 1400 degli Angioni, influenzò la lingua con talune terminologie di derivazione francese.
[49] A metà del XV secolo la città di Reggio fu dominata dagli Aragonesi, il cui segno è ancora presente attraverso alcune imponenti fortificazioni; la lingua ufficiale del comprensorio divenne, quindi, lo spagnolo per circa tre secoli.
[50] www.infooggi.it, Il dialetto in Calabria non esiste, pubblicato il 10 gennaio 2011: “[…] Nella Calabria meridionale la presenza e l’influenza della lingua greca è, peraltro, evidentissima. Oltre al latino e al greco, riscontri certi evidenziano anche l’influenza dell’arabo nei dialetti calabresi, sicuramente dovuta alle diverse incursioni saracene sulle coste calabresi e che hanno lasciato tante tracce in alcuni nomi di oggetti ed in diversi cognomi. Altra lingua presente nei vernacoli calabresi è il francese, introdotta dai Normanni e degli Angioini, ma seppur con minore evidenza, sono presenti anche lo Spagnolo ed il tedesco, seppur trascurabili e di difficile interpretazione, queste due lingue hanno “influenzato” i dialetti calabresi. Insomma tanti idiomi sono alla base dei diversi dialetti e vernacoli che attraversano da nord a sud la Calabria e la caratterizzano e la rendono oggetto di curiosità e di grande interesse da parte di studiosi e di cabarettisti […]”.
[51] Di Stefano M., Aspetti sociocomunicativi della ‘ndrangheta. Le intercettazioni nelle scienze forensi, Città del sole editore, Reggio Calabria (2017), pagg. 436 e ss.
[52] Corbetta P., Metodologia e tecniche della ricerca sociale, Il Mulino editore, Bologna (1999).
[53] Di Stefano M., Aspetti sociocomunicativi della ‘ndrangheta. Le intercettazioni nelle scienze forensi, cit. pag. 438.
[54] Cioè forte rumore, clamore.
[55] Si tratta dell’appellativo con cui vengono indicati i componenti della cosca “Romeo la Minore” di San Luca-Bovalino.
[56] Un ceppo criminale di Platì, facente capo alla famiglia Barbaro.
[57] Un secondo ceppo criminale dei platioti aventi lo stesso cognome del precedente.
[58] I sodali di Giuseppe Morabito della cosca di Africo.
[59] I componenti della ‘ndrina dei Labate del quartiere Gebbione a Reggio Calabria.
[60] La famiglia mafiosa degli Ierinò di Gioiosa Jonica.
[61] Un ceppo della famiglia Ficara.
[62] La famiglia Caridi del quartiere San Giorgio Extra di Reggio Calabria.
[63] Pesce Marcello.
[64] Piromalli Giuseppe.
[65] Gangemi Antonio.
[66] Zema Carmelo,
[67] Imerti Antonino.
[68] Condello Domenico cl. 1956.
[69] Condello Domenico cl. 1972.
[70] Condello Pasquale.
[71] Lombardo Giuseppe.
[72] Buda Pasquale (rimasto gravemente ferito a un occhio nel corso di un attentato).
[73] Nucera Antonio (scupetta è il termine dialettale con cui si indica il fucile da caccia).
[74] Nirta Antonio (ddù nasi è inteso a indicare il fucile da caccia con due canne).
[75] Armato.
[76] Pistola.
[77] Il coltello a serramanico.
[78] Di Stefano M., Aspetti sociocomunicativi della ‘ndrangheta. Le intercettazioni nelle scienze forensi, cit.,pagg. 438 e ss.