giustizia predittiva penale

Che cambia se è l’algoritmo a valutare i condannati: i test

Test hanno messo in luce il confronto tra le valutazioni umane e algoritmiche nell’ambito della giustizia predittiva penale, in cui questi due sistemi sono al centro di un acceso dibattito su quale sia più efficace

Pubblicato il 27 Ago 2020

Marco Martorana

avvocato, studio legale Martorana, Presidente Assodata, DPO Certificato UNI 11697:2017

La giustizia predittiva penale si fonda si due sistemi: l’uno basato su specifici algoritmi, l’altro, sulle valutazioni dell’uomo. In entrambi i caso lo scopo è valutare se un individuo è più o meno portato a la recidiva del reato. Valutazione da cui dipende poi la decisione del giudice di concedergli la libertà provvisoria.

Una condizione che porta a un acceso dibattito incentrato sulla questione in ordine alla maggiore o minore accuratezza di risultato degli stessi metodi. In questo contesto, sono interessanti i risultati di specifici test svolti confrontando i risultati ottenuti dalle valutazioni umane e dal software Compas.

Indice degli argomenti

Algoritmi e valutazioni previsionali umane

Se infatti da un lato è innegabile la differenza ontologica delle due differenti modalità di valutazione, dall’altro lato recenti studi evidenziano la sostanziale equivalenza dei risultati ottenuti da valutazioni algoritmiche e valutazioni umane, nell’ambito della giustizia in materia penale.

In generale, la questione fondamentale che si pone al centro del dibattito in materia è se gli algoritmi siano migliori degli umani non addestrati nel predire la recidiva in modo equo e preciso. Gli Studi condotti negli ultimi anni vorrebbero fornire una risposta a tale interrogativo.

In particolare, la verifica è stata svolta in base ai parametri di accuratezza e distorsione nella valutazione umana e nella valutazione algoritmica propria del software COMPAS. I citati Studi hanno dimostrato come il software commerciale ampiamente utilizzato per prevedere la recidiva (Compas) non sia più accurato o equo delle previsioni di persone con poca o nessuna competenza in materia di giustizia penale che hanno risposto a un sondaggio online. Come vedremo a breve lo Studio ha verificato che “i partecipanti e COMPAS sembravano raggiungere un limite di prestazioni con un’accuratezza del 65% circa entrambi”.

I risultati della valutazione umana

Per quanto attiene nello specifico alla valutazione umana si rilevano i seguenti interessanti risultati ottenuti dai menzionati Studi. Degno di attenzione è sicuramente lo Studio basato sulla valutazione previsionale condotta da persone che hanno aderito ad un popolare mercato di crowdsourcing online, di età compresa tra 18 e 74 ed un livello di istruzione da “meno di un diploma di scuola superiore” a “laurea professionale” e, comunque, con un livello di conoscenza della materia penale pari a zero. Al termine di detto Studio si è giunti ad affermare come un piccolo gruppo di persone inesperte, con a disposizione molte meno informazioni rispetto a Compas (solo 7 funzioni rispetto alle 137 di Compas), ottiene valutazioni nel predire la recidive tanto accurate quanto Compas.

Lo comparazione si è svolta nel seguente modo. I partecipanti hanno consultato la descrizione di un imputato relativa a sesso, età e storia criminale dell’imputato ad eccezione della indicazione della razza. I partecipanti hanno predetto se questa persona avrebbe commesso recidiva entro 2 anni dal suo crimine più recente. Lo Studio è stato condotto su un totale di mille descrizioni degli imputati che sono state divise casualmente in 20 sottogruppi di 50 ciascuno. In seguito, ad ogni partecipante è stato assegnato uno di questi 20 sottoinsiemi. Si legge come “La precisione media e mediana di queste previsioni è del 62,1 e 64,0%”.

Successivamente, i risultati così ottenuti sono stati poi confrontati con le prestazioni di Compas su questo sottoinsieme di 1000 imputati. “Poiché gruppi di 20 partecipanti hanno giudicato lo stesso sottoinsieme di 50 imputati, i singoli giudizi non sono indipendenti. Tuttavia, poiché ciascun partecipante ha giudicato un solo sottoinsieme degli imputati, si può ragionevolmente presumere che le accuratezze mediane di ciascun sottoinsieme siano indipendenti”. Da ciò discende che le prestazioni dei partecipanti sui 20 sottoinsiemi possono essere confrontate direttamente con le prestazioni COMPAS sugli stessi 20 sottoinsiemi. “Un test ha messo in evidenza che la media delle 20 accuratezze mediane del partecipante del 62% è di poco inferiore alla precisione Compas del 65,2%”.

Inoltre, il presente Studio precisa come l’accuratezza della previsione possa anche essere valutata utilizzando l’AUC-ROC che per i partecipanti è 0,71 ± 0,03, quasi identico a 0,70 ± 0,04 di Compas. L’esame circa l’accuratezza della previsione può altresì essere condotto con strumenti della teoria del rilevamento del segnale in cui l’accuratezza è espressa in termini di sensibilità (d′) e bias (β). Lo Studio ha indicato i seguenti parametri: “Valori più alti di d ‘corrispondono a una maggiore sensibilità dei partecipanti. Un valore di d ′ = 0 indica che il partecipante non ha informazioni per effettuare identificazioni affidabili, indipendentemente dal pregiudizio che potrebbe avere. Un valore di β = 1,0 indica assenza di parzialità, un valore di β> 1 indica che i partecipanti sono propensi a classificare un imputato come non a rischio di recidiva, e β <1 indica che i partecipanti sono propensi a classificare un imputato come a rischio di recidivare”. “Con una d ′ di 0,86 e una β di 1,02, i partecipanti sono risultati leggermente più sensibili e leggermente meno distorti rispetto a Compas con una d ′ di 0,77 e una β di 1,08”.

Infine, lo Studio in esame pone l’attenzione sull’equità dei partecipanti rispetto alla razza di un imputato in base alle previsioni della folla. L’accuratezza dei partecipanti sugli imputati di colore è del 68,2% rispetto al 67,6% degli imputati bianchi. Un test non rivela alcuna differenza significativa tra le razze (P = 0,87). “Questo è simile a quello di COMPAS che ha un’accuratezza del 64,9% per gli imputati di colore e del 65,7% per gli imputati bianchi, il che non è significativamente diverso (P = 0,80, test t spaiato)”. Con detta misura di equità, i partecipanti e COMPAS sono giusti nei confronti degli imputati in di pelle bianca e di colore.

I risultati della valutazione algoritmica

Lo Studio ha voluto inoltre indagare quale sia la peculiarità, in termini di raffinatezza, dell’algoritmo predittivo Compas, considerato che i non esperti sono precisi quanto il software Compas. Il software Compas di Northpointe lavora con circa 137 funzioni distinte per prevedere la recidiva. Si legge che “con una precisione complessiva di circa il 65%, dette previsioni non sono così precise come potremmo desiderare”. Lo Studio ha paragonato il software Compas ad un semplice predittore lineare – regressione logistica (LR) – dotato delle stesse sette caratteristiche dei partecipanti. Ha così scoperto che esso produce una precisione di previsione simile a quella di COMPAS. “Rispetto alla precisione complessiva di Compas del 65,4%, il classificatore LR fornisce una precisione di prova complessiva del 66,6%”.

Alla luce di quanto precede, lo Studio è pervenuto ad un importante risultato ossia che un predittore lineare standard che utilizza solo 7 funzioni produce risultati simili al predittore Compas con 137 funzioni. In base a tali esiti, è stato possibile ragionevolmente concludere che “Compas non sta usando nulla di più sofisticato di un predittore lineare o suo equivalente”.

Conclusioni

Lo studio in esame è andato oltre. I ricercatori si sono infatti chiesti se l’utilizzo di un sottogruppo ancora più piccolo delle 7 funzionalità sarebbe accurato al pari dell’impiego delle 137 funzionalità di Compas. È stato così elaborato un sistema basato solo su due caratteristiche, età e numero di precedenti. Sebbene la previsione tramite Compas si avvale di 137 funzioni, la medesima precisione predittiva si afferma possa essere raggiunta anche attraverso due sole caratteristiche. Detto Studio pertanto giunge alla conclusione secondo cui i classificatori più sofisticati non migliorano la raffinatezza e neppure l’equità della previsione.

In conclusione, nell’insieme, tali risultati mettono in dubbio la maggior forza di previsione algoritmica della recidiva.

Per completezza espositiva della presente disamina non si può fare a meno di osservare che i sistemi di giustizia predittiva finalizzati all’aumento del grado di affidabilità siano in costante evoluzione. Nonostante quest’ultimo aspetto, la posizione del giudice “persona” è di fondamentale ed irrinunciabile importanza, ciò non solo perché costui rappresenta la garanzia di efficacia ed efficienza della giustizia penale. Indispensabile infatti che l’interessato possa essere messo nella condizione di sottoporre la sua situazione e le sue esigenze specifiche ad un giudice che possa guardare alla persona che ha di fronte, senza che vi sia la possibilità che tale contesto processuale sia degradato da un algoritmo ad una serie di risposte a domande predeterminate.