Nella letteratura applicativa e frequente una sovrapposizione concettuale tra test statistici di differenza tra gruppi e metodi di classificazione supervisionata, introdotti nell’ambito dell’Intelligenza Artificiale.
Tuttavia, questi strumenti rispondono a obiettivi distinti. La classificazione supervisionata ha un obiettivo predittivo: costruire una regola decisionale in grado di assegnare correttamente nuove osservazioni a un gruppo. I test statistici, invece, valutano se due o piu popolazioni differiscono in senso probabilistico, tipicamente attraverso misure di significatività (il famigerato p-value).
Spesso pero si fa confusione, perche si fraintende lo scopo dell’analisi pensando che essa serva a capire se le variabili raccolte siano informative rispetto alle categorie osservate. Il p-value puo suggerire associazioni, mentre la classificazione valuta l’utilita predittiva: confondere i due livelli porta a conclusioni metodologicamente scorrette. Proviamo a fare chiarezza.
Indice degli argomenti
Statistica predittiva e Intelligenza Artificiale: un punto di partenza
Nella grande opportunita che tutti vedono nell’utilizzo di strumenti di Intelligenza Artificiale (IA), ci si imbatte spesso nella definizione di statistica predittiva quando si parla di metodi che, a partire da una raccolta dati, sono in grado di derivare modelli senza una legge nota a priori. I modelli predittivi tradizionali si basano spesso su leggi gia codificate, mentre lo scopo perseguito con l’IA e scoprire la legge attraverso i dati, o almeno interpretare i dati con un modello matematico plausibile.
Partiamo dal considerare una raccolta di dati in cui una delle informazioni sia una categoria da imparare (target). Esempi:
- Economia: dati dei clienti + etichetta “buon pagante / cattivo pagante”.
- Medicina: analisi del sangue (facili da ottenere) + esito citologico (difficile da ottenere) “sano / malato”.
Nel testo chiameremo “individui” le istanze fatte di input, e “output” la categoria. Gli individui con lo stesso output formano le nostre popolazioni.
Punti affrontati:
- Le due analisi: assunzioni e principali caratteristiche
- I test statistici
- Selezione delle caratteristiche
- Classificazione
- Uno strumento in mezzo: il nomogramma basato sulla regressione logistica
Le due analisi: inferenza e predizione a confronto
Schema — test di differenze tra popolazioni (statistica classica)
Test statistico di differenza
→ Esiste una differenza tra le popolazioni?
(domanda inferenziale, globale, basata su un modello probabilistico)
Classificazione supervisionata
→ Dato un nuovo individuo, a quale popolazione appartiene?
(domanda predittiva, individuale)
Questa distinzione e fondamentale perche non cambia solo lo strumento, cambia la nozione di successo: si passa da “esiste una differenza?” a “posso predire?”.
- Inferenza: generalizzare dal campione alla popolazione con un margine di errore controllato.
- Predizione: assegnare un output a un individuo nuovo, non ancora osservato.
Obiettivo: verificare se due (o piu) popolazioni differiscono su una o piu variabili.
Domande tipiche: Le medie sono diverse? Le distribuzioni sono diverse?
Output: p-value, intervalli di confidenza, effect size.
Punto chiave: e un problema inferenziale, non predittivo.
Un test statistico non stabilisce che due popolazioni sono diverse, ma valuta quanto i dati osservati siano compatibili con un’ipotesi nulla di uguaglianza (o assenza di effetto).
Schema — classificazione supervisionata (Intelligenza Artificiale)
Obiettivo: predire l’etichetta di un nuovo individuo.
Domande tipiche: Quanto bene separo le popolazioni su dati non visti?
Output: accuracy, AUC, sensitivity/specificity, errore di generalizzazione.
Punto chiave: e un problema predittivo, non inferenziale.
La classificazione supervisionata e un metodo per rendere una raccolta dati predittiva, parte quindi da una ipotesi diversa: non riconoscere se all’interno della raccolta le popolazioni siano distinte, ma aiutare a mettere in una popolazione o in una altra a partire dalle informazioni dell’individuo.
Il p-value risponde a una domanda scientifica; un classificatore a una domanda operativa.
I test statistici e il p-value: come funzionano davvero
Per capire cosa sia un p-value, consideriamo un esempio semplice. Supponiamo di voler verificare se l’emoglobina media differisce tra sani e malati. Raccogliamo i dati e osserviamo una differenza nelle medie di 0.8 g/dL.
La domanda del test e: se in realta non ci fosse alcuna differenza, quanto sarebbe raro osservare una differenza di 0.8 o piu? Questa rarita e il p-value.
Come si calcola concettualmente un p-value:
- Si parte da un’ipotesi di riferimento, detta ipotesi nulla H0 (es.: le due popolazioni hanno la stessa media).
- Si sceglie una statistica test che riassume la differenza osservata nei dati. Deve essere grande quando i dati si discostano da H0 (es.: differenza di medie normalizzata).
- Si costruisce la distribuzione della statistica sotto H0, a partire dalle assunzioni statistiche (normalita, indipendenza) oppure tramite simulazione o permutazione.
- Si confronta il valore osservato con la distribuzione sotto H0: il p-value e la probabilita, sotto H0, di osservare una statistica almeno cosi estrema.
Esempio: differenza osservata = 0.8; se H0 fosse vera, differenze >=0.8 si osservano nel 2% dei casi → p-value = 0.02 → i dati sono poco compatibili con H0.
Test comuni: t-test per confronto di due medie (ipotesi di normalita e varianze simili); ANOVA per confronti su piu gruppi (ipotesi nulla: tutte le medie uguali; statistica: F).
Attenzioni:
- Il p-value non misura la probabilita che H0 sia vera, l’ampiezza dell’effetto, la rilevanza pratica o la separabilita delle popolazioni.
- Il p-value dipende dal modello, dalla statistica test e dalla numerosita campionaria: con campioni molto grandi anche differenze minime risultano significative.
- I test univariati considerano una caratteristica alla volta; l’estensione multivariata e piu complessa da interpretare.
Selezione delle caratteristiche: i limiti del p-value
L’uso dei p-value per la selezione delle feature e comune ma spesso fuorviante. Spesso si esegue una selezione univariata basata su p-value e si portano le feature significative in un classificatore. Tuttavia, un p-value basso indica un’associazione statistica con l’etichetta, non l’utilita predittiva in un contesto multivariato.
Problemi tipici:
- Una feature puo essere inutile se considerata da sola ma fondamentale in combinazione con altre.
- Una feature puo risultare altamente significativa ma essere ridondante rispetto ad altre variabili.
Le tecniche di IA che considerano relazioni complesse e interazioni tra variabili sono piu indicate per identificare caratteristiche che realmente aiutano a separare le popolazioni.
Classificazione supervisionata: vantaggi, limiti e validazione
La classificazione e un modello matematico che assegna un output discreto (appartenenza a una classe). E spesso risolta con tecniche computazionali che possono essere molto accurate ma meno interpretabili.
Esempi di metodi: Support Vector Machine, Random Forest, boosting, reti neurali, regressione logistica, modelli di sopravvivenza come Cox (per outcome temporali).
Caratteristiche comuni dei modelli di IA
- non testano ipotesi
- non producono p-value
- ottimizzano direttamente una loss predittiva
Vantaggi
- gestiscono molte feature
- catturano interazioni e non linearita
- spesso predicono meglio su dati non visti
Limiti in ambito clinico
- scarsa trasparenza (black box)
- difficolta a tradurli in semplici regole decisionali
- rischio di overfitting silenzioso se non validati correttamente
La classificazione valuta la capacita del modello di generalizzare a nuove osservazioni; la validazione (cross-validation, holdout, bootstrap) sostituisce il p-value come strumento di controllo della bonta del modello, usando metriche quali accuracy, AUC, sensibilita/specificita e errore di generalizzazione.
Il nomogramma: uno strumento tra statistica e predizione clinica
Un modo semplice per costruire una classificazione interpretabile e la regressione logistica, che fornisce una stima della probabilita di appartenenza a una classe. La regressione logistica estende la regressione lineare a un esito binario: invece di modellare la media di una variabile continua, modella il log-odds della probabilita dell’evento.
Dal modello logistico si puo costruire un nomogramma, uno strumento grafico di decisione clinica che assegna punti alle variabili in input e converte la somma in una probabilita di esito.
Esempio semplificato: il modello associa punteggi alle variabili (eta, colesterolo, emoglobina). La somma dei punti e lo score che, tramite il nomogramma, restituisce la probabilita di malattia. Dallo score si comprende anche la possibilita di intervenire: se lo score e alto per colpa del colesterolo si puo provare a mettere il paziente in dieta; se lo score e alto per colpa dell’eta c’e poco da fare.
Scheda — Un nomogramma clinico e una rappresentazione grafica di un modello statistico multivariato che consente di stimare, per un singolo individuo, la probabilita di un determinato esito a partire da un insieme di variabili osservate. Immediata immagine anche sulla possibilita di intervenire su alcune variabili per modificare lo score.
Conclusioni
La regressione logistica e i nomogrammi sono un ponte utile tra interpretabilita e predizione.
I test statistici e la classificazione rispondono a domande diverse (inferenza vs predizione).
Il p-value misura l’incompatibilita dei dati con un’ipotesi nulla, ma non garantisce utilita predittiva.
La selezione delle feature per modelli predittivi richiede approcci multivariati e validazione, non solo test univariati.











