Nel campo dell’intelligenza artificiale, misurare similitudini significa definire quanto due elementi — immagini, persone o dati — possano considerarsi vicini. Questa operazione, apparentemente tecnica, è in realtà ciò che determina la capacità dell’IA di comprendere, classificare e imparare dal mondo reale.
Indice degli argomenti
Perché la distanza conta nell’addestramento dei modelli
Nella fase di addestramento delle intelligenze artificiali è cruciale capire come si misurano le distanze tra gli oggetti dell’indagine. Quando possiamo considerare due foto “simili”, due persone “nella stessa condizione”, o due esperimenti “quasi uguali”? Quando invece introduciamo nel modello un “pregiudizio”, assimilando istanze che invece andrebbero distinte? E quando, al contrario, riteniamo “distanti” istanze che invece risultano simili nel contesto di riferimento?
A queste domande non si può rispondere in maniera univoca: è necessaria la conoscenza del fenomeno di fondo per guidare la scelta della strada più opportuna al fine di definire correttamente le distanze. L’addestramento dei modelli dipende infatti in modo significativo da questi concetti, e una scelta superficiale può condurre a previsioni molto errate, oppure ad addestrare il modello soltanto per confermare un preconcetto iniziale. L’utilizzo “cieco” di strumenti efficaci in un ambito diverso rischia di essere inutile o addirittura controproducente. Cerchiamo allora di fare un po’ di chiarezza!
I due volti della classificazione: supervisionata e non supervisionata
Facciamo un passo indietro. Supponiamo di avere a disposizione un insieme di informazioni conservate in forma digitalizzata, che indicheremo genericamente come punti. I due compiti classici dell’intelligenza artificiale sono:
(i) cercare la legge che passa per i punti, per predire i comportamenti in situazioni diverse, oppure
(ii) interpretare l’appartenenza dei punti a categorie, detti cluster in inglese. In termini matematici si parla di interpolazione dei punti nel primo caso, e di classificazione nel secondo. In questo articolo ci concentreremo sul secondo.
La classificazione include due diversi scenari, nei quali il concetto di distanza è sempre centrale, ma è utile tenere presente la distinzione. Nel primo scenario si vuole classificare in maniera cosiddetta supervisionata, cioè conoscendo già la categoria a cui i punti appartengono, così da ricavare regole che determinino l’appartenenza alle categorie. Nel secondo scenario, detto non supervisionato, si cerca invece di capire se i punti a disposizione possano essere suddivisi in categorie. Ogni punto rappresenta un’istanza raccolta, e le sue componenti descrivono come quell’istanza si sia comportata rispetto a una certa misurazione. Le misurazioni possono essere di natura molto diversa, a seconda del contesto e dell’ambito di utilizzo.
Dati reali e categorie: il ruolo delle informazioni chiave
Passando dall’immagine astratta dei punti a una raccolta concreta, possiamo pensare che questi punti siano istanze rappresentative di persone descritte attraverso alcune informazioni che le caratterizzano nell’ambito di interesse. Facciamo qualche esempio. Un primo esempio può essere l’ambito medico/clinico: nella cartella clinica di un individuo si trovano informazioni anamnestiche, dati demografici e i risultati degli esami strumentali. Un secondo esempio è il dossier di una persona che richiede un mutuo in banca: in quel caso prevalgono informazioni socioeconomiche, utili a valutare la capacità di rimborsare le rate. Un terzo esempio è la profilazione, a fini di marketing, di un cliente di una piattaforma on-demand: qui molti dati vengono forniti al momento dell’iscrizione, e ancora di più vengono raccolti attraverso le azioni che l’individuo compie (visioni, acquisti, recensioni, interazioni in generale).
In tutti e tre gli esempi è evidente come avere molte informazioni possa essere utile, ma il più delle volte sono poche quelle che realmente determinano l’appartenenza a una categoria. Per esempio, in ambito bancario prevale il dato della busta paga; nel marketing la propensione alla spesa; in ambito medico, ad esempio cardiologico, il BMI (indice di massa corporea) elevato è considerato un fattore di rischio, indipendentemente da molte altre informazioni.
Non sempre, però, sappiamo con certezza quali fattori determinino l’appartenenza a una classe, perché le variabili in gioco sono numerose e spesso interagiscono in modo non noto. In questi casi entrano in gioco l’intuito o la definizione di nuove regole, che aiutano a mettere “ordine” tra le categorie osservate.
Riconoscere la similitudine: l’intuito dell’intelligenza artificiale
L’intelligenza artificiale mira a mimare processi tipici del ragionamento intelligente, che non sono basati su leggi fisiche note. Ciò che abbiamo chiamato intuito si può reinterpretare come la capacità di riconoscere similitudini, uno dei compiti fondamentali dell’intelligenza umana. Questa capacità consente di non dover ripetere ogni volta un’esperienza, ma di prevedere ciò che accadrà in condizioni simili basandosi su esperienze precedenti. Formalmente, questo equivale a saper riconoscere quando due situazioni sono simili, almeno in relazione al contesto in cui ci interessa cogliere la similitudine.
Metriche per dati numerici: dalla geometria alla statistica
Ed è qui che entra in gioco il concetto di distanza. Per quanto l’apprendimento delle intelligenze artificiali implichi anche scelte casuali, gli algoritmi di addestramento, in particolare quelli di classificazione, devono essere implementati attraverso la definizione di una misura di distanza. Per dare un’idea di quanto questo concetto possa essere vario, ecco alcuni esempi con i rispettivi ambiti di applicazione:
- Distanze per dati numerici
- Distanza euclidea: è la più intuitiva, corrisponde alla “linea retta” che unisce due punti nello spazio. Viene usata ad esempio in algoritmi di clustering come il k-means.
- Distanza di Manhattan (o Taxicab): misura lo spostamento lungo assi ortogonali, come muoversi a blocchi in una griglia cittadina. Si applica spesso in problemi di ottimizzazione logistica o di reti urbane.
- Distanza di Chebyshev: considera la distanza massima lungo una singola dimensione, utile in giochi o griglie (ad esempio negli scacchi, dove il movimento del re segue questa logica).
- Distanza di Minkowski: generalizza le precedenti e permette di scegliere quanto pesare gli scarti.
- Distanza di Mahalanobis: tiene conto delle correlazioni tra variabili, molto usata in statistica multivariata e nel riconoscimento di pattern, ad esempio in diagnosi mediche.
- Distanze per dati binari e categorici
- Distanza di Hamming: conta il numero di posizioni diverse tra due stringhe di simboli. È tipica nelle telecomunicazioni e nella correzione di errori nei codici binari.
- Distanza di Jaccard: misura la similarità tra insiemi, considerando quante caratteristiche hanno in comune rispetto al totale. È ampiamente usata in sistemi di raccomandazione o per analizzare testi (parole in comune tra due documenti).
- Distanze per dati testuali e sequenze
- Distanza del coseno: confronta due vettori in base all’angolo che formano, utile quando conta più la “direzione” che la grandezza. È molto usata nell’elaborazione del linguaggio naturale, ad esempio per valutare la similarità tra documenti.
- Distanza di Levenshtein (o “edit distance”): misura quante operazioni (inserzioni, cancellazioni, sostituzioni) servono per trasformare una stringa in un’altra. È fondamentale nei correttori ortografici, nel riconoscimento vocale e nella bioinformatica (allineamento di sequenze).
- Distanze per dati statistici e distribuzioni
- Divergenza di Kullback-Leibler (KL): misura quanto una distribuzione di probabilità differisce da un’altra. Molto usata in teoria dell’informazione e nell’addestramento di modelli probabilistici (es. reti neurali variational autoencoder).
- Distanza di Hellinger: utile per confrontare distribuzioni di probabilità in maniera più simmetrica e stabile. Ha applicazioni in statistica bayesiana e nel machine learning per modelli probabilistici.
- Distanze per dati sequenziali
- Dynamic Time Warping (DTW): allinea due sequenze che possono avere velocità diverse. È molto utilizzata nell’analisi di serie temporali (per esempio nel riconoscimento vocale o nell’analisi di segnali biologici come l’elettrocardiogramma).
- Distanza per dati misti
- Distanza di Gower: permette di combinare dati di natura diversa (numerici, categorici, binari). È impiegata in contesti reali molto eterogenei, come nelle indagini di mercato o nella medicina personalizzata, dove le informazioni raccolte non sono omogenee.
L‘algoritmo blast: quando la conoscenza del dominio fa la differenza
Un ultimo esempio, con il quale vogliamo concludere, è l’algoritmo BLAST, utilizzato per confrontare sequenze di nucleotidi, ad esempio per il confronto di DNA sequenziati. Dalla sua introduzione a oggi, questo modo di misurare le differenze ha rivoluzionato lo studio del genoma e aperto la strada a indagini biotecnologiche. La misura su cui si basa — che assegna punteggi positivi a corrispondenze e negativi a “salti” o modifiche — non sarebbe mai stata concepita senza una profonda conoscenza del problema di partenza.











