l'analisi

Test statistici e AI: guida per non confondere gli strumenti

Test statistici e classificazione supervisionata rispondono a domande diverse: i primi valutano se le popolazioni differiscono, la seconda predice l’appartenenza di nuovi individui. Il p-value misura l’incompatibilità con l’ipotesi nulla; i modelli predittivi ottimizzano la generalizzazione. Confonderli porta a errori metodologici gravi

Pubblicato il 10 mar 2026

Aggiungi tra i preferiti su Google

Francesco Calabrò

Professore associato di Analisi Numerica, Dipartimento di Matematica e Applicazioni, Università degli Studi di Napoli "Federico II", fondatore e socio dello Spin-off universitario D3C, socio della Camelia Tech

intelligenza-artificiale-nella-pubblica-amministrazione-agenda-digitale; document management system; AI project management shadow ai pa data driven osmosi cognitiva

Chiedi all'AI

Riassumi questo articolo

Approfondisci con altre fonti

Nella letteratura applicativa è frequente una sovrapposizione concettuale tra test statistici di differenza tra gruppi e metodi di classificazione supervisionata, introdotti nell’ambito dell’Intelligenza Artificiale. Tuttavia, questi strumenti rispondono a obiettivi distinti.

La classificazione supervisionata ha un obiettivo predittivo: costruire una regola decisionale in grado di assegnare correttamente nuove osservazioni a un gruppo. I test statistici, invece, valutano se due o più popolazioni differiscono in senso probabilistico, tipicamente attraverso misure di significatività (il famigerato p-value). Spesso però si fa confusione, perché si fraintende lo scopo dell’analisi pensando che essa serva a capire se le variabili raccolte siano “informative” rispetto alle categorie osservate. Il p-value può suggerire associazioni, mentre la classificazione valuta l’utilità predittiva: confondere i due livelli porta a conclusioni metodologicamente scorrette. Proviamo a fare chiarezza.

Indice degli argomenti

Statistica predittiva e Intelligenza Artificiale: un punto di partenza

Nella grande opportunità che tutti vedono nell’utilizzo di strumenti di Intelligenza Artificiale (IA), ci si imbatte spesso nella definizione di statistica predittiva quando si parla di metodi che, a partire da una raccolta dati, sono in grado di derivare modelli senza una legge nota a priori. I modelli predittivi tradizionali si basano spesso su leggi già codificate, mentre lo scopo perseguito con l’IA è scoprire la legge attraverso i dati, o almeno interpretare i dati con un modello matematico plausibile.

Partiamo dal considerare una raccolta di dati in cui una delle informazioni sia una categoria da imparare (target). Esempi:

Economia: dati dei clienti + etichetta “buon pagante / cattivo pagante”.
Medicina: analisi del sangue (facili da ottenere) + esito citologico (difficile da ottenere) “sano / malato”.

Nel testo chiameremo “individui” le istanze fatte di input, e “output” la categoria. Gli individui con lo stesso output formano le nostre popolazioni.

Le due analisi: assunzioni e principali caratteristiche

Il test statistico di differenza si chiede:
“Esiste una differenza tra le popolazioni?”
(domanda inferenziale, globale, basata su un modello probabilistico)

La classificazione supervisionata si chiede:
“Dato un nuovo individuo, a quale popolazione appartiene?”
(domanda predittiva, individuale)

Questa distinzione è fondamentale perché non cambia solo lo strumento, cambia la nozione di successo: si passa da “esiste una differenza?” a “posso predire?”. Le parole chiave sono inferenza e predizione :

Inferenza: generalizzare dal campione alla popolazione con un margine di errore controllato.
Predizione: assegnare un output a un individuo nuovo, non ancora osservato.

Test di differenze tra popolazioni (statistica classica)
Obiettivo: verificare se due (o più) popolazioni differiscono su una o più variabili.

Domande tipiche:

Le medie sono diverse?
Le distribuzioni sono diverse?

Output: p-value, intervalli di confidenza, effect size.

Punto chiave: è un problema inferenziale, non predittivo.

Un test statistico non stabilisce che due popolazioni sono diverse, ma valuta quanto i dati osservati siano compatibili con un’ipotesi nulla di uguaglianza (o assenza di effetto).

Classificazione supervisionata (Intelligenza Artificiale)
Obiettivo: predire l’etichetta di un nuovo individuo.

Domande tipiche: Quanto bene separo le popolazioni su dati non visti?

Output: accuracy, AUC, sensitivity/specificity, errore di generalizzazione.

Punto chiave: è un problema predittivo, non inferenziale.

La classificazione supervisionata è un metodo per rendere una raccolta dati predittiva, parte quindi da una ipotesi diversa: non riconoscere se all’interno della raccolta le popolazioni siano distinte, ma aiutare ad mettere in una popolazione o in una altra a partire dalle informazioni dell’individuo.

Il p-value risponde a una domanda scientifica; un classificatore a una domanda operativa.

I test statistici

Per capire cosa sia un p-value, consideriamo un esempio semplice. Supponiamo di voler verificare se l’emoglobina media differisce tra sani e malati. Raccogliamo i dati e osserviamo una differenza nelle medie di 0.8 g/dL.

La domanda del test è: “Se in realtà non ci fosse alcuna differenza, quanto sarebbe raro osservare una differenza di 0.8 o più?” Questa rarità è il p-value.

Come si calcola concettualmente un p-value:

Si parte da un’ipotesi di riferimento, detta ipotesi nulla H0 (es.: le due popolazioni hanno la stessa media).
Si sceglie una statistica test che riassume la differenza osservata nei dati. Deve essere grande quando i dati si discostano da H0 (es.: differenza di medie normalizzata).
Si costruisce la distribuzione della statistica sotto H0, a partire dalle assunzioni statistiche (normalità, indipendenza) oppure tramite simulazione o permutazione.
Si confronta il valore osservato con la distribuzione sotto H0: il p-value è la probabilità, sotto H0, di osservare una statistica almeno così estrema.

Esempio: differenza osservata = 0.8; se H0 fosse vera, differenze ≥0.8 si osservano nel 2% dei casi → p-value = 0.02 → i dati sono poco compatibili con H0.

Test comuni: t-test per confronto di due medie (ipotesi di normalità e varianze simili); ANOVA per confronti su più gruppi (ipotesi nulla: tutte le medie uguali; statistica: F).

Attenzione:

Il p-value non misura la probabilità che H0 sia vera, l’ampiezza dell’effetto, la rilevanza pratica o la separabilità delle popolazioni.
Il p-value dipende dal modello, dalla statistica test e dalla numerosità campionaria: con campioni molto grandi anche differenze minime risultano significative.
I test univariati considerano una caratteristica alla volta; l’estensione multivariata è più complessa da interpretare.

Selezione delle caratteristiche: i limiti del p-value

L’uso dei p-value per la selezione delle caratteristiche (feature) è comune ma spesso fuorviante. Spesso si esegue una selezione univariata basata su p-value e si portano le feature “significative” in un classificatore. Tuttavia, un p-value basso indica un’associazione statistica con l’etichetta, non l’utilità predittiva in un contesto multivariato.

Problemi tipici:

Una feature può essere inutile se considerata da sola ma fondamentale in combinazione con altre.
Una feature può risultare altamente significativa ma essere ridondante rispetto ad altre variabili.

Le tecniche di IA che considerano relazioni complesse e interazioni tra variabili sono più indicate per identificare caratteristiche che realmente aiutano a separare le popolazioni.

Classificazione supervisionata: vantaggi, limiti e validazione

La classificazione è un modello matematico che assegna un output discreto (appartenenza a una classe). È spesso risolta con tecniche computazionali che possono essere molto accurate ma meno interpretabili.

Esempi di metodi: Support Vector Machine, Random Forest, boosting, reti neurali, regressione logistica, modelli di sopravvivenza come Cox (per outcome temporali).

Caratteristiche comuni dei modelli di IA:

non testano ipotesi
non producono p-value
ottimizzano direttamente una loss predittiva

Vantaggi:

gestiscono molti features
catturano interazioni e non linearità
spesso predicono meglio su dati non visti

Limiti in ambito clinico:

scarsa trasparenza (black box)
difficoltà a tradurli in semplici regole decisionali
rischio di overfitting “silenzioso” se non validati correttamente

La classificazione valuta la capacità del modello di generalizzare a nuove osservazioni; la validazione (cross-validation, holdout, bootstrap) sostituisce il p-value come strumento di controllo della bontà del modello, usando metriche quali accuracy, AUC, sensibilità/specificità e errore di generalizzazione.

Uno strumento in mezzo: il nomogramma basato sulla regressione logistica

Un modo semplice per costruire una classificazione interpretabile è la regressione logistica, che fornisce una stima della probabilità di appartenenza a una classe. La regressione logistica estende la regressione lineare a un esito binario: invece di modellare la media di una variabile continua, modella il log-odds della probabilità dell’evento.

Dal modello logistico si può costruire un nomogramma, uno strumento grafico di decisione clinica che assegna punti alle variabili in input e converte la somma in una probabilità di esito.

Esempio semplificato: il modello associa punteggi alle variabili (età, colesterolo, emoglobina). La somma dei punti è lo “score” che, tramite il nomogramma, restituisce la probabilità di malattia. Dallo score si comprende anche la possibilità di intervenire: se lo score è alto per colpa del colesterolo si può provare a mettere il paziente in dieta; se lo score è alto per colpa della età c’è poco da fare.

Un nomogramma clinico è una rappresentazione grafica di un modello statistico multivariato che consente di stimare, per un singolo individuo, la probabilità di un determinato esito a partire da un insieme di variabili osservate.

Immediata immagine anche sulla possibilità di “intervenire” su alcune variabili per modificare lo score.

Conclusioni

I test statistici e la classificazione rispondono a domande diverse (inferenza vs predizione).
Il p-value misura l’incompatibilità dei dati con un’ipotesi nulla, ma non garantisce utilità predittiva.
La selezione delle feature per modelli predittivi richiede approcci multivariati e validazione, non solo test univariati.
La regressione logistica e i nomogrammi sono un ponte utile tra interpretabilità e predizione.

@RIPRODUZIONE RISERVATA