l’analisi

Test statistici e AI: guida per non confondere gli strumenti

Test statistici e classificazione supervisionata rispondono a domande diverse: i primi valutano se le popolazioni differiscono, la seconda predice l’appartenenza di nuovi individui. Il p-value misura l’incompatibilità con l’ipotesi nulla; i modelli predittivi ottimizzano la generalizzazione. Confonderli porta a errori metodologici gravi

Pubblicato il 10 mar 2026

Francesco Calabrò

Professore associato di Analisi Numerica, Dipartimento di Matematica e Applicazioni, Università degli Studi di Napoli "Federico II", fondatore e socio dello Spin-off universitario D3C, socio della Camelia Tech

intelligenza-artificiale-nella-pubblica-amministrazione-agenda-digitale; document management system; AI project management shadow ai pa data driven

Nella letteratura applicativa e frequente una sovrapposizione concettuale tra test statistici di differenza tra gruppi e metodi di classificazione supervisionata, introdotti nell’ambito dell’Intelligenza Artificiale.

Tuttavia, questi strumenti rispondono a obiettivi distinti. La classificazione supervisionata ha un obiettivo predittivo: costruire una regola decisionale in grado di assegnare correttamente nuove osservazioni a un gruppo. I test statistici, invece, valutano se due o piu popolazioni differiscono in senso probabilistico, tipicamente attraverso misure di significatività (il famigerato p-value).

Misurare parametri con l’AI: i fattori per farlo bene

Spesso pero si fa confusione, perche si fraintende lo scopo dell’analisi pensando che essa serva a capire se le variabili raccolte siano informative rispetto alle categorie osservate. Il p-value puo suggerire associazioni, mentre la classificazione valuta l’utilita predittiva: confondere i due livelli porta a conclusioni metodologicamente scorrette. Proviamo a fare chiarezza.

Indice degli argomenti

Statistica predittiva e Intelligenza Artificiale: un punto di partenza

Nella grande opportunita che tutti vedono nell’utilizzo di strumenti di Intelligenza Artificiale (IA), ci si imbatte spesso nella definizione di statistica predittiva quando si parla di metodi che, a partire da una raccolta dati, sono in grado di derivare modelli senza una legge nota a priori. I modelli predittivi tradizionali si basano spesso su leggi gia codificate, mentre lo scopo perseguito con l’IA e scoprire la legge attraverso i dati, o almeno interpretare i dati con un modello matematico plausibile.

Partiamo dal considerare una raccolta di dati in cui una delle informazioni sia una categoria da imparare (target). Esempi:

Economia: dati dei clienti + etichetta “buon pagante / cattivo pagante”.
Medicina: analisi del sangue (facili da ottenere) + esito citologico (difficile da ottenere) “sano / malato”.

Nel testo chiameremo “individui” le istanze fatte di input, e “output” la categoria. Gli individui con lo stesso output formano le nostre popolazioni.

Punti affrontati:

Le due analisi: assunzioni e principali caratteristiche
I test statistici
Selezione delle caratteristiche
Classificazione
Uno strumento in mezzo: il nomogramma basato sulla regressione logistica

Le due analisi: inferenza e predizione a confronto

Schema — test di differenze tra popolazioni (statistica classica)

Test statistico di differenza

→ Esiste una differenza tra le popolazioni?

(domanda inferenziale, globale, basata su un modello probabilistico)

Classificazione supervisionata

→ Dato un nuovo individuo, a quale popolazione appartiene?

(domanda predittiva, individuale)

Questa distinzione e fondamentale perche non cambia solo lo strumento, cambia la nozione di successo: si passa da “esiste una differenza?” a “posso predire?”.

Inferenza: generalizzare dal campione alla popolazione con un margine di errore controllato.
Predizione: assegnare un output a un individuo nuovo, non ancora osservato.

Obiettivo: verificare se due (o piu) popolazioni differiscono su una o piu variabili.

Domande tipiche: Le medie sono diverse? Le distribuzioni sono diverse?

Output: p-value, intervalli di confidenza, effect size.

Punto chiave: e un problema inferenziale, non predittivo.

Un test statistico non stabilisce che due popolazioni sono diverse, ma valuta quanto i dati osservati siano compatibili con un’ipotesi nulla di uguaglianza (o assenza di effetto).

Schema — classificazione supervisionata (Intelligenza Artificiale)

Obiettivo: predire l’etichetta di un nuovo individuo.

Domande tipiche: Quanto bene separo le popolazioni su dati non visti?

Output: accuracy, AUC, sensitivity/specificity, errore di generalizzazione.

Punto chiave: e un problema predittivo, non inferenziale.

La classificazione supervisionata e un metodo per rendere una raccolta dati predittiva, parte quindi da una ipotesi diversa: non riconoscere se all’interno della raccolta le popolazioni siano distinte, ma aiutare a mettere in una popolazione o in una altra a partire dalle informazioni dell’individuo.

Il p-value risponde a una domanda scientifica; un classificatore a una domanda operativa.

I test statistici e il p-value: come funzionano davvero

Per capire cosa sia un p-value, consideriamo un esempio semplice. Supponiamo di voler verificare se l’emoglobina media differisce tra sani e malati. Raccogliamo i dati e osserviamo una differenza nelle medie di 0.8 g/dL.

La domanda del test e: se in realta non ci fosse alcuna differenza, quanto sarebbe raro osservare una differenza di 0.8 o piu? Questa rarita e il p-value.

Come si calcola concettualmente un p-value:

Si parte da un’ipotesi di riferimento, detta ipotesi nulla H0 (es.: le due popolazioni hanno la stessa media).
Si sceglie una statistica test che riassume la differenza osservata nei dati. Deve essere grande quando i dati si discostano da H0 (es.: differenza di medie normalizzata).
Si costruisce la distribuzione della statistica sotto H0, a partire dalle assunzioni statistiche (normalita, indipendenza) oppure tramite simulazione o permutazione.
Si confronta il valore osservato con la distribuzione sotto H0: il p-value e la probabilita, sotto H0, di osservare una statistica almeno cosi estrema.

Esempio: differenza osservata = 0.8; se H0 fosse vera, differenze >=0.8 si osservano nel 2% dei casi → p-value = 0.02 → i dati sono poco compatibili con H0.

Test comuni: t-test per confronto di due medie (ipotesi di normalita e varianze simili); ANOVA per confronti su piu gruppi (ipotesi nulla: tutte le medie uguali; statistica: F).

Attenzioni:

Il p-value non misura la probabilita che H0 sia vera, l’ampiezza dell’effetto, la rilevanza pratica o la separabilita delle popolazioni.
Il p-value dipende dal modello, dalla statistica test e dalla numerosita campionaria: con campioni molto grandi anche differenze minime risultano significative.
I test univariati considerano una caratteristica alla volta; l’estensione multivariata e piu complessa da interpretare.

Selezione delle caratteristiche: i limiti del p-value

L’uso dei p-value per la selezione delle feature e comune ma spesso fuorviante. Spesso si esegue una selezione univariata basata su p-value e si portano le feature significative in un classificatore. Tuttavia, un p-value basso indica un’associazione statistica con l’etichetta, non l’utilita predittiva in un contesto multivariato.

Problemi tipici:

Una feature puo essere inutile se considerata da sola ma fondamentale in combinazione con altre.
Una feature puo risultare altamente significativa ma essere ridondante rispetto ad altre variabili.

Le tecniche di IA che considerano relazioni complesse e interazioni tra variabili sono piu indicate per identificare caratteristiche che realmente aiutano a separare le popolazioni.

Classificazione supervisionata: vantaggi, limiti e validazione

La classificazione e un modello matematico che assegna un output discreto (appartenenza a una classe). E spesso risolta con tecniche computazionali che possono essere molto accurate ma meno interpretabili.

Esempi di metodi: Support Vector Machine, Random Forest, boosting, reti neurali, regressione logistica, modelli di sopravvivenza come Cox (per outcome temporali).

Caratteristiche comuni dei modelli di IA

non testano ipotesi
non producono p-value
ottimizzano direttamente una loss predittiva

Vantaggi

gestiscono molte feature
catturano interazioni e non linearita
spesso predicono meglio su dati non visti

Limiti in ambito clinico

scarsa trasparenza (black box)
difficolta a tradurli in semplici regole decisionali
rischio di overfitting silenzioso se non validati correttamente

La classificazione valuta la capacita del modello di generalizzare a nuove osservazioni; la validazione (cross-validation, holdout, bootstrap) sostituisce il p-value come strumento di controllo della bonta del modello, usando metriche quali accuracy, AUC, sensibilita/specificita e errore di generalizzazione.

Il nomogramma: uno strumento tra statistica e predizione clinica

Un modo semplice per costruire una classificazione interpretabile e la regressione logistica, che fornisce una stima della probabilita di appartenenza a una classe. La regressione logistica estende la regressione lineare a un esito binario: invece di modellare la media di una variabile continua, modella il log-odds della probabilita dell’evento.

Dal modello logistico si puo costruire un nomogramma, uno strumento grafico di decisione clinica che assegna punti alle variabili in input e converte la somma in una probabilita di esito.

Esempio semplificato: il modello associa punteggi alle variabili (eta, colesterolo, emoglobina). La somma dei punti e lo score che, tramite il nomogramma, restituisce la probabilita di malattia. Dallo score si comprende anche la possibilita di intervenire: se lo score e alto per colpa del colesterolo si puo provare a mettere il paziente in dieta; se lo score e alto per colpa dell’eta c’e poco da fare.

Scheda — Un nomogramma clinico e una rappresentazione grafica di un modello statistico multivariato che consente di stimare, per un singolo individuo, la probabilita di un determinato esito a partire da un insieme di variabili osservate. Immediata immagine anche sulla possibilita di intervenire su alcune variabili per modificare lo score.