l’approfondimento

Lo spazio latente: il cuore matematico dell’IA generativa



Indirizzo copiato

I modelli di intelligenza artificiale generativa utilizzano spazi latenti per rappresentare parole e concetti. Questi spazi multidimensionali creano embedding che codificano significati semantici e relazioni tra termini diversi

Pubblicato il 30 apr 2025

Vincenzo Ambriola

Università di Pisa



human brain vs IA

Lo spazio latente è un’astrazione matematica che consente di rappresentare la semantica delle parole e, in generale, dei concetti. Studi recenti hanno dimostrato che all’interno del cervello umano, in particolare in alcune zone dell’ippocampo, esistono gruppi di cellule specializzate nella rappresentazione dei concetti. Anche nelle reti neurali sono stati individuati specifici neuroni che reagiscono a stimoli concettuali, in analogia a quanto accade nel cervello umano.

Proviamo allora a presentare i principi che sono alla base dello spazio latente e il loro utilizzo nell’intelligenza artificiale generativa.

Rappresentare la realtà attraverso lo spazio latente

Il metodo scientifico si basa sull’osservazione della realtà, sull’identificazione delle entità che in essa appaiono, sulla loro denominazione. Il passo successivo consiste nell’analisi delle entità, alla scoperta di proprietà e relazioni reciproche. Tale analisi consente la rappresentazione simbolica delle entità mediante la definizione di modelli astratti, cioè privi di dettagli inessenziali, che consentono di spigare la realtà osservata e di anticiparne l’evoluzione nel tempo. La fisica, la chimica, l’astronomia e tutte le altre discipline scientifiche si basano su questo paradigma, perfezionato nei secoli da pensatori e scienziati, fino a quando Galileo Galilei lo descrisse compiutamente nei Discorsi e dimostrazioni matematiche intorno a due nuove scienze attinenti alla meccanica e i moti locali [Galilei 1638].

Anche il racconto biblico può essere visto da questa prospettiva. Nel Libro della Genesi, l’incipit «in principio Dio creò il cielo e la terra» può essere interpretato come l’osservazione della realtà, qualcosa che deve essere “creato” dalla mente umana. Nei passi successivi ricorre l’identificazione delle entità che fanno parte della realtà e la loro denominazione «separò la luce dalle tenebre e chiamò la luce giorno e le tenebre notte», «chiamò il firmamento cielo», «chiamò l’asciutto terra e la massa delle acque mare». Ma la parte che colpisce di più è quella che afferma che «plasmò dal suolo ogni sorta di bestie selvatiche e tutti gli uccelli del cielo e li condusse all’uomo, per vedere come li avrebbe chiamati: in qualunque modo l’uomo avesse chiamato ognuno degli esseri viventi, quello doveva essere il suo nome». Il potere di dare un nome alle cose viene così riservato all’uomo e non al suo creatore.

La storia dell’umanità è marcata dalla nascita del linguaggio e dall’evoluzione del cervello per affrontare le sfide cognitive legate a tale facoltà comunicativa. Il linguaggio ha consentito agli uomini di sviluppare relazioni sociali, trasferire conoscenza con una modalità epigenetica, progredire culturalmente e adattarsi al cambiamento climatico. Il linguaggio è alla base della scrittura e, quindi della crescita di quell’albero della conoscenza del bene e del male il cui frutto aveva causato la cacciata dall’Eden. Il linguaggio è anche alla base della leggenda biblica della torre di Babele, una narrazione metaforica delle innumerevoli differenziazioni tra le tribù che avevano conquistato il pianeta, separandosi e poi ritrovandosi senza parlare lo stesso idioma.

Il linguaggio è alla base della conoscenza e, come tale, non sfugge al metodo scientifico descritto sommariamente in precedenza. Le parole, unità elementari di questa realtà immateriale, sono raccolte, classificate, messe in relazione tra di loro. Le frasi, formate da sequenze di parole, sono analizzate strutturalmente, alla ricerca di schemi ricorrenti, di simmetrie. Le parole e le frasi concorrono alla costruzione della semantica, cioè del legame che hanno reciprocamente ma, soprattutto, con la realtà che descrivono. Questo rapporto, questo contatto tra il “significato” e il “significante” [Vetere 2025], costituisce il miracolo della specie umana, la capacità di creare una realtà virtuale che sostituisce il mondo reale, consentendone la simulazione, la previsione del futuro e l’analisi del passato. Il mondo delle parole è la proiezione del mondo reale nelle mente umana.

Rappresentare la conoscenza è da sempre il “problema” della scienza. La matematica, nata per trattare questioni di natura commerciale, agricola, religiosa, è il linguaggio più elevato per eccellenza. Qualsiasi progresso della matematica diventa automaticamente un progresso per le altre discipline, che la usano per descrivere la loro visione del mondo. Gli assiomi matematici diventano in altre discipline i mattoni di base, come lo sono ad esempio le particelle nella fisica quantistica. I teoremi sono punti di riferimento che non cambiano di validità al cambiare della particolare visione della realtà, le dimostrazioni sono ragionamenti che consentono di capirne le dinamiche.

La conoscenza è stata rappresentata in tanti modi, a partire dalle prime opere enciclopediche di Aristotele per arrivare al Dizionario ragionato delle scienze, delle arti e dei mestieri, pubblicato a partire dal 1751 da Denis Diderot e Jean le Rond d’Alembert, con la collaborazione dei più prestigiosi intellettuali del diciassettesimo secolo [Diderot 1751–1772]. Sarà l’avvento dei calcolatori e la disponibilità delle loro grandi capacità di calcolo e di memoria a dare un’improvvisa e inarrestabile accelerazione al progresso della rappresentazione della conoscenza.

Ontologie appositamente progettate, come WordNet [Miller 1995] e Cyc [Lenat 1995], hanno consentito la catalogazione e l’elaborazione formale di termini e concetti espressi mediante parole e frasi. La cosiddetta GOFAI (Good Old Fashioned Artificial Intelligence) ha favorito ed è cresciuta con il paradigma della rappresentazione simbolica della conoscenza.

La matematica ha dimostrato la sua potenza ed efficacia per la rappresentazione della conoscenza con una tecnica apparentemente semplice: gli spazi multidimensionali. Per capirne il potere espressivo è sufficiente un esempio concreto. Si supponga di osservare edifici e di essere in grado di misurarne l’altezza e la superficie su cui sorgono sul terreno. Per rappresentare un edificio sarà sufficiente una coppia di numeri. Si supponga di riportare queste coppie di numeri in un grafico a due dimensioni in cui nelle ascisse (nell’asse orizzontale, per intendersi) si indica il valore della superficie e nelle ordinate (quello verticale) si indica il valore dell’altezza. Per rendere più leggibile il grafico si supponga di usare una scala logaritmica per i due assi. Si otterrà un grafico in cui molti punti si addensano tra loro, lasciando vuote ampie parti del grafico.

Ad esempio, ci saranno molti edifici con un’altezza di dieci metri e una superficie di qualche centinaio di metri quadrati mentre sarà improbabile, se non impossibile, avere un edificio alto un metro con una superficie di 1.000 metri quadrati oppure alto 100 metri con una superficie di un metro quadrato. Volendo aggiungere altre caratteristiche a questo semplice modello di rappresentazione degli edifici sarà necessario passare da un grafico a due dimensioni a uno con un numero maggiore di dimensioni, ad esempio codificando l’anno di costruzione, la città, la nazione. Lo svantaggio pratico di questa estensione del modello è che oltre tre dimensioni diventa impossibile visualizzare “contemporaneamente” tutti i valori associati a un dato elemento. Si devono usare tecniche che comprimono tutte le dimensioni in un insieme ridotto (due o tre) di dimensioni di visualizzazione.

La crescita del numero delle dimensioni consente al modello di rappresentare sempre più fedelmente le entità del mondo reale. La scelta di codificare ogni caratteristica delle entità mediante numeri ne consente l’analisi simbolica ma anche statistica. Diventa possibile studiare l’evoluzione dinamica del mondo mediante sequenze di spazi multidimensionali, in cui i punti cambiano posizione a seconda di ciò che accade. La scienza diventa predittiva ma anche confutabile. I calcolatori diventano essenziali.

Il ruolo degli embedding nei modelli di spazio latente

Uno spazio latente (latent space), anche chiamato spazio latente delle caratteristiche (latent feature space) o spazio degli embedding[1], è una varietà (manifold) al cui interno elementi che si assomigliano sono posizionati in posizioni vicine tra di loro. Tali elementi sono ottenuti opportunamente incorporando[2] un dato insieme di oggetti. Il concetto di incorporamento può essere spiegato in termini matematici come una funzione iniettiva[3] che mantiene la struttura del dominio di partenza. In parole semplici, ciò significa che due elementi distinti dell’insieme di oggetti di partenza sono proiettati in due elementi distinti della varietà, mantenendo però le proprietà di distanza reciproca. Più complessa è invece la definizione di varietà, uno spazio topologico che localmente intorno a ogni suo punto, ha una struttura simile a quella di uno spazio euclideo. Questa proprietà assicura che per punti vicini tra di loro è valido il concetto intuitivo di distanza geometrica.

Gli embedding, o più precisamente i word embedding, sono di fondamentale importanza per comprendere il funzionamento dei moderni modelli del linguaggio (language model). Nel contesto dell’elaborazione del linguaggio, un embedding è la rappresentazione di una parola mediante un vettore di numeri reali che ne codificano il significato. La dimensione del vettore, il numero dei numeri reali che lo compongono, coincide con il numero delle dimensioni dello spazio latente (la varietà) usato per costruire gli embedding. Questa tecnica matematica è molto potente, perché permette di passare da una parola, formata da pochi caratteri, a un’entità matematica formata da una quantità molto più grande di informazioni, i numeri reali del suo vettore di embedding. Sono proprio i numeri degli embedding che in qualche modo codificano il significato della parola, garantendo che parole con significati simili abbiano valori numerici simili e che, quindi, le loro posizioni nello spazio latente siano geometricamente vicine[4].

L’ipotesi che “una parola è caratterizzata da quelle che le stanno vicino”[5] fu proposta nel 1957 da John Rupert Firth [Firth 1957] ed è diventata la base teorica per la cosiddetta “semantica distribuzionale” [Lenci 2023], ampiamente utilizzata negli attuali modelli del linguaggio. Per calcolare gli embedding di un insieme di parole si possono usare numerose tecniche, tra cui l’analisi della semantica latente (latent semantic analysis) [Deerwester 1990], basata su un metodo di fattorizzazione globale delle matrici del tipo “termine-documento”, o il modello skip-gram di Mikolov, conosciuto come Word2vec, [Mikolov 2013], basato sul metodo della finestra locale di contesto in cui le parole ricorrono.

Un metodo più efficace, chiamato GloVe (Global Vector) [Pennington 2014], si basa sulla matrice di co-occorrenze di parole e su una tecnica di fattorizzazione di questa matrice. L’articolo in cui questo metodo è stato presentato per la prima volta descrive i dettagli matematici utilizzati per la costruzione degli embedding. A differenza di altri metodi usati in precedenza, tra cui Word2vec, GloVe cattura relazioni statistiche tra le parole anche a livello globale e, soprattutto, produce embedding per i quali valgono operazioni simboliche e di confronto. Ad esempio, tra gli embedding delle parole “re”, “uomo”, “donna” e “regina”, vale l’equazione e(re) – e(uomo) ≈ e(regina) – e(donna), secondo la quale la differenza tra gli embedding di “re” e “uomo” è confrontabile con la differenza tra gli embedding di “regina” e “donna”. Questa proprietà rende gli embedding molto efficaci nella rappresentazione del significato delle parole, naturalmente sulla base del corpus utilizzato per calcolare le co-occorrenze. Un’altra importante differenza tra Word2vec e GloVe è che il primo usa una rete neurale artificiale per calcolare gli embedding, mentre il secondo usa una tecnica di ottimizzazione statistica.

Per verificare la bontà degli embedding nella rappresentazione del significato delle parole si utilizzano specifiche attività (word analogy task, word similarity task) e dataset di riferimento (benchmark dataset). Le analogie tra le parole sono verificate utilizzando un dataset formato da 19.544 domande del tipo “a sta a b come c sta a _?”, verificando che il modello fornisca il quarto elemento della domanda a partire dagli altri tre. Ad esempio, la domanda potrebbe essere del tipo “Atene sta alla Grecia come Berlino sta a _?”, in cui la risposta esatta che il modello deve fornire è Germania. Gli esperimenti condotti sugli embedding di GloVe dimostrano la sua capacità di rispondere correttamente a più dell’80% delle domande. Il numero delle dimensioni usate per gli embedding, cioè la grandezza del vettore di embedding, varia a seconda del loro uso. Si passa da 50 – 300 dimensioni di GloVe fino ad arrivare a 4.096 dimensioni utilizzate da GPT-4. Sorprendentemente, il tempo di calcolo degli embedding non è molto elevato, rispetto a quello necessario per addestrare un moderno modello del linguaggio. Per elaborare il contenuto di Wikipedia del 2018, formato da 16 miliardi di token e da un vocabolario di 400.000 parole, sono state utilizzate non più di sei ore di calcolo. Per calcolare gli embedding di un corpus decisamente più ampio, il Common Crawl, formato da 42 miliardi di token e da un vocabolario di circa due milioni di parole, sono stati necessari tre giorni di calcolo. Va detto che queste risorse, ad esempio gli embedding di GloVe, sono pubblicamente disponibili e periodicamente aggiornati.

Abbiamo già detto che lo spazio multidimensionale usato dagli embedding è chiamato spazio latente. Secondo la Treccani, il significato di latente è “che rimane nascosto”, “che non appare esternamente”. In effetti, rappresentare il significato di una parola con un vettore di numeri ha proprio l’effetto di nasconderlo alla vista esterna. A differenza delle ontologie, in cui ogni entità è associata a ben precise proprietà ed è in relazione con entità che hanno simili significati, gli embedding esibiscono la capacità di rappresentazione della conoscenza solo mediante operazioni di somma, sottrazione e confronto. Inoltre, l’uso di un numero molto grande di dimensioni rende molto difficile il collegamento tra uno spazio latente e uno spazio di visualizzazione, limitato a due o tre dimensioni. Le tecniche di visualizzazione comunemente usate, tra cui t-SNE (t-distributed stochastic neighbor embedding), riescono a dare un’idea della posizione delle parole nello spazio latente ma non associano alcun valore “fisico” alla distanza geometrica calcolata nello spazio latente.

In conclusione, è opportuno riportare ciò che Francis Bacon [Bacon 1620] scrisse nel Novum Organum «Il processo latente di cui parliamo è tutt’altro che evidente alla mente umana, oggi più che mai distratta. Non si tratta di misure, sintomi o gradi di un fenomeno visibile nei corpi, ma di un cambiamento continuo che, nella maggior parte dei casi, sfugge ai sensi».

Embedding nei modelli del linguaggio

Gli embedding svolgono un ruolo fondamentale nell’architettura di un modello del linguaggio di grandi dimensioni (large language model). Si potrebbe dire che, se i modelli generativi sono le celebrità nel mondo dell’intelligenza artificiale generativa, gli embedding sono le sue tubature. Non sono affascinanti ma costituiscono la parte critica dell’infrastruttura.

Un autoencoder [Hinton 2006] è un particolare classe di rete neurale artificiale in grado di apprendere la codifica efficiente di dati non etichettati in modalità non supervisionata, senza aiuto umano. Un autoencoder apprende due funzioni: una funzione di codifica (encode) che trasforma i dati in ingresso e una funzione di decodifica (decode) che ricostruisce i dati di ingresso dalla rappresentazione di codifica. Un caso particolare di autoencoder si ha quando la funzione di decodifica è l’inversa di quella di codifica, facendo sì che l’intera funzione calcolata dall’autoencoder per ogni valore di ingresso lo restituisca inalterato in uscita. Per avere una sua utilità, l’autoencoder deve invece produrre in uscita dati diversi da quelli in ingresso, ad esempio traducendo una frase da una lingua a un’altra.

Gli autoencoder possono essere usati per diverse classi di dati: testo, immagini, suono, dati in formato tabellare. Per prima cosa l’autoencoder calcola l’embedding corrispondente ai dati di ingresso per poi passare alla vera e propria codifica in cui il numero di dimensioni del vettore di embedding è ridotto significativamente. In altre parole, lo spazio latente iniziale viene trasformato in un altro spazio latente di dimensioni inferiori. Come detto in precedenza, se lo spazio latente di codifica avesse un numero maggiore di dimensioni di quello iniziale, la decodifica diventerebbe una funzione identità, perdendo quindi di interesse pratico. È proprio la diminuzione dimensionale dello spazio latente a far emergere le caratteristiche rilevanti, necessarie per la successiva decodifica.

Una versione modificata di autoencoder è il transformer [Vaswani 2017], in cui i dati di ingresso sono embedding, a cui sono aggiunti speciali embedding posizionali. Il transformer è formato da un codificatore che usa la tecnica dell’auto-attenzione (self-attention) per creare la rappresentazione nello spazio latente e da un decodificatore che ricostruisce il testo originale a partire dallo spazio latente. La differenza sostanziale tra un autoencoder e un transformer è sia l’ampiezza dei dati di ingresso, la cosiddetta finestra di contesto (context window), molto più grande rispetto a quella di un autoencoder, che la possibilità di analizzare in parallelo gli embedding, aumentando così la potenza di calcolo e, di conseguenza, le capacità cognitive. Un’altra significativa caratteristica del transformer è l’assenza di unità ricorrenti, neuroni che ricevono in ingresso dati di uscita di altri neuroni situati a valle. Ciò semplifica drasticamente la rete neurale, rendendo possibile ed efficace l’uso della back-propagation.

I dettagli matematici alla base del funzionamento di un transformer sono molto complessi, anche se è possibile darne una spiegazione intuitiva. Il concetto di attenzione, e di auto-attenzione, fa sì che la finestra di contesto sia analizzata individuando le parole più significative, quelle appunto degne di attenzione, in modo da utilizzare solo queste parole per costruire embedding sempre più complessi, che catturano il significato profondo della finestra di contesto. Rimane ancora da capire “come” concetti ricchi di dettagli siano codificati all’interno dello spazio latente. La rappresentazione del significato delle parole, ma anche di sequenze arbitrariamente lunghe di parole, avviene mediante vettori di numeri di grandi dimensioni, costruiti dagli strati nascosti della rete neurale del transformer, che può avere dimensioni gigantesche, proporzionali al numero dei parametri. Ad esempio, sebbene OpenAI non abbia rivelato pubblicamente il numero di parametri, alcune fonti hanno ipotizzato che per GPT-3.5 sia pari a 1.800 miliardi [Bastian 2023] con il possibile uso di un’architettura basata sulla Mixture of Experts [Jacobs 1991, Jiang 2024], mentre altre fonti si spingono a ipotizzare per GPT-4 addirittura 100.000 miliardi di parametri [Raghunath 2024], un numero che si avvicina alla complessità del cervello umano.

Neuroni concetto e spazio latente nelle reti neurali

Una cellula della nonna (grandmother cell) è un particolare neurone che reagisce esclusivamente a uno stimolo specifico, complesso e con un particolare significato. Reagisce, cioè, a una singola percezione o a un singolo concetto [Gross 2012]. Un neurone con queste particolari proprietà è chiamato multimodale. Nel 1969, Jerry Lettvin usò per la prima volta questa definizione durante una lezione del suo corso tenuto al Massachusetts Institute of Technology di Boston e intitolato Biological Foundations for Perception and Knowledge. Spiegando ai suoi studenti come i neuroni possono rappresentare specifici oggetti, raccontò una storia in cui il neurochirurgo Akakij Akakhievitch[6] aveva localizzato un gruppo di neuroni che reagivano unicamente a una “madre”, indipendentemente dalla sua rappresentazione. A quel punto Lettvin introdusse il personaggio ossessionato dalla madre presente nel racconto di Philip Roth intitolato Il lamento di Portnoy (Portnoy’s Complaint) e ipotizzò che Akakhievitch potesse rimuovere chirurgicamente tutti i neuroni di Portnoy specializzati nel concetto di madre. Nel suo racconto, Lettvin ipotizzò che dopo questo intervento Portnoy non avesse più alcun ricordo di sua madre, con il suo letterario sollievo. Per completezza va detto che Lettvin non pubblicò questa sua ipotesi in alcun articolo scientifico e che, invece, lo scienziato è universalmente conosciuto per un articolo sul riconoscimento di caratteristiche visive nell’occhio della rana [Lettvin 1959].

Il concetto di cellula della nonna fu ripreso molte volte nel dibattito sulle funzioni dei neuroni fino a quando, nel 2005, Quiroga riportò i risultati di uno studio effettuato su otto pazienti affetti da epilessia intrattabile, ai quali erano stati impiantati in profondità nel cervello elettrodi per localizzare il focus dell’insorgenza delle crisi. Quiroga e i suoi colleghi analizzarono le risposte dei neuroni dell’ippocampo, dell’amigdala, della corteccia entorinale e del giro paraippocampale a immagini mostrate su un computer portatile in diverse sessioni di registrazione. In una di queste sessioni furono presentate ai pazienti un gran numero di immagini di personalità pubbliche, animali e oggetti di vario tipo.

Per una paziente, Quiroga notò che le risposte rilevate da un ben preciso elettrodo, impiantato nella parte posteriore sinistra dell’ippocampo, mostravano valori significativi solo ed esclusivamente per tutte le immagini in cui l’attrice Jennifer Aniston compariva da sola. Per altri volti di persone famose, panorami, animali e oggetti lo stesso elettrodo non rilevava alcuna attività cerebrale ma, inaspettatamente, non forniva valori significativi neanche quando l’immagine presentata alla paziente raffigurava Jennifer Aniston insieme a Brad Pitt. In pratica si trattava del primo esperimento clinico, eseguito in maniera scientifica, che dimostrava l’esistenza di neuroni sensibili a un particolare stimolo percettivo.

Nel settore delle reti neurali artificiali la ricerca di neuroni specializzati nel riconoscimento di determinati stimoli, anche chiamati neuroni concetto (concept neuron), è molto attiva. Uno studio recente di Bereska e Gavves [Bereska 2024] passa in rassegna le tecniche utilizzate per analizzare il comportamento sia di singoli neuroni che di intere reti neurali. Si tratta di un approccio meccanicistico che intende interpretare oggettivamente i risultati ottenuti in letteratura. L’individuazione dei neuroni concetto nelle reti neurali artificiali può essere effettuata mediante diverse tecniche:

  • Analisi dell’attivazione: si prendono in esame gli schemi di attivazione di alcuni neuroni durante l’elaborazione di specifici stimoli. In particolare, si perturbano i dati di ingresso per valutare la differenza di reazione dei neuroni presi in considerazione oppure si cercano i neuroni che hanno un’elevata attivazione e poi, retroattivamente, si individuano gli stimoli che hanno causato tale attivazione.
  • Tecniche di visualizzazione: si usano mappe di salienza, per individuare le regioni di un’immagine che contribuiscono maggiormente alla risposta della rete. In questo modo è possibile risalire ai neuroni che hanno elaborato queste aree.
  • Analisi degli strati nascosti: nei sistemi basati sull’attenzione si analizzano le teste di attenzione che indicano le parole sulle quali il modello si concentra per elaborare la finestra di contesto. Se una particolare testa di attenzione è fortemente focalizzata su un concetto, si può risalire ai neuroni che la gestiscono e che, probabilmente, sono specializzati a trattare tale concetto.
  • Analisi di sensitività e ablazione: si perturbano specifici neuroni, eventualmente rimuovendoli dalla rete, per osservare gli effetti sul comportamento della rete, mantenendo invariati i dati di ingresso. Se la rimozione di uno o più neuroni causa una drastica riduzione delle prestazioni della rete, si può ipotizzare che tali neuroni siano preposti all’elaborazione di qualche concetto presente nei dati di ingresso.

Bereska e Gavess ritengono che l’interpretabilità meccanicistica potrebbe prevenire effetti catastrofici con il progredire dei sistemi di intelligenza artificiale, destinati a diventare sempre più potenti e imperscrutabili.

Le implicazioni dello spazio latente nell’intelligenza artificiale generativa

L’intelligenza artificiale generativa ha aperto la strada a numerose attività di ricerca, mostrando l’importanza di un approccio scientifico multidisciplinare. Lo studio dei modelli del linguaggio di grandi dimensioni LLM si basa su una gran messe di risultati ottenuti nel campo della linguistica, dell’informatica, delle neuroscienze. Sono tuttavia necessarie profonde competenze matematiche statistiche per capire a fondo il funzionamento delle reti neurali artificiali, evitando di cadere nella trappola delle metafore che semplificano i concetti profondi utilizzati a favore di una divulgazione rapida e superficiale. Infine, non si devono dimenticare le implicazioni etiche e sociali dell’intelligenza artificiale generativa, per evitare che una tecnologia potenzialmente benigna provochi danni irreparabili all’uomo e alla società.

Bibliografia

Bacon, F. (1620), Novum Organum, London, John Bill.

Bastian, M. (2023), GPT-4 has more than a trillion parameters, The Decoder.

Bereska, L., Gavves, E. (2024), Mechanistic Interpretability for AI Safety. A Review, Transactions on Machine Learning Research.

Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., Harshman, R. (1990), Indexing by latent semantic analysis, Journal of the American Society for Information Science, 41.

Diderot, D., le Rond d’Alembert, J. éditeurs (1751–1772), Encyclopédie, ou Dictionnaire raisonné des sciences, des arts et des métiers, par une société de gens de lettres, 35 vols., Paris, Briasson, David l’aîné, Le Breton, Durand.

Firth, J. R. (1957), A synopsis of linguistic theory 1930–1955, Studies in Linguistic Analysis: 1–32. Reprinted in F. R. Palmer, ed. (1968). Selected Papers of J. R. Firth 1952–1959, Longman, London.

Galilei, G. (1638), Discorsi e dimostrazioni matematiche intorno a due nuove scienze attinenti alla meccanica e i moti locali, Leiden, Elsevier.

Gross, C. G. (2012), Genealogy of the “Grandmother Cell”, History of Neuroscience, 512–518.

Hinton, G. E., Salakhutdinov, R. R. (2006), Reducing the dimensionality of data with neural networks, Science, 313(5786), 504–507.

Jacobs, R. A., Jordan, M. I., Nowlan, S. J., Hinton, G. E. (1991), Adaptive mixtures of local experts, Neural Computation, 3(1), 79–87.

Jiang, A. Q., Sablayrolles, A., Roux, A., Defossez, A., Baumann, G., Goyal, N., Jegou, H., Joulin, A., Kalchbrenner, N., Kharitonov, A., Pino, J., Sadek, A., Susano Pinto, J., Synnaeve, G., Usunier, N. (2024), Mixtral of Experts, arXiv:2401.04088.

Lenat, D. (1995), Cyc: A Large-Scale Investment in Knowledge Infrastructure, Communications of the ACM 38:11, 33–38.

Lenci, A., Sahlgren, M. (2023), Distributional Semantics, Cambridge University Press.

Lettvin, J. Y., Maturana, H. R., McCulloch, W. S., Pitts, W. H. (1959), What the frog’s eye tells the frog’s brain, Proceedings of the IRE, 47(11), 1940-1951.

Miller, G. A., (1995), WordNet: a lexical database for English, Communications of the ACM, 38:11, 39–41.

Mikolov, T., Chen, K., Corrado, G., Dean, J. (2013), Efficient Estimation of Word Representations in Vector Space, in ICLR Workshop Papers.

Pennington, J., Socher, R., Manning, C. (2014), GloVe: Global Vectors for Word Representation, 2014 Conference on Empirical Methods in Natural Language Processing.

Quiroga, R. Q., Reddy, L., Kreiman, G., Koch, C., Fried, I. (2005), Invariant visual representation by single neurons in the human brain, Nature, 435(7045), 1102-1107.

Raghunath, A. (2024), GPT-4 Parameters Explained, HIX.AI.

Vetere, G. (2025), Intelligenze aliene. Linguaggio e vita degli automi, Luca Sassella Editore.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., Polosukhin, I. (2017), Attention is all you need, Advances in Neural Information Processing Systems (NeurIPS), 30, arXiv:1706.03762.


[1] La traduzione letterale di embedding è inclusione. Tuttavia, sia in matematica che in informatica si usa esclusivamente la versione inglese del termine.

[2] In inglese il verbo incorporare è to embed, per cui l’atto di incorporare, cioè l’incorporamento, è tradotto come embedding. Se deve prestare attenzione a non confondere un embedding, un elemento in una varietà, con il suo calcolo.

[3] In Teoria delle categorie, una funzione con queste proprietà è chiamata morfismo.

[4] A essere precisi, per misurare la distanza tra due embedding si usa la similarità del coseno (cosine similarity), una particolare metrica che misura quanto due vettori sono simili tra loro, utilizzando il coseno del loro angolo reciproco.

[5] La versione originale è “a word is characterized by the company it keeps”.

[6] Akakij Akakhievitch in realtà è il protagonista letterario del racconto Il cappotto (Šinel), scritto nel 1842 da Nikolai Vasilievich Gogol.

EU Stories - La coesione innova l'Italia

Tutti
INIZIATIVE
ANALISI
PODCAST
L'ANALISI
Video&podcast
Analisi
VIDEO&PODCAST
Video & Podcast
Social
Iniziative
IL PROGETTO
5GMed, ecco i quattro casi d’uso per la mobilità europea
L'APPELLO
Banda 6GHz chiave di volta del 6G: le telco europee in pressing su Bruxelles
EU COMPASS
Tlc, l’Europa adotta la linea Draghi: ecco la “bussola” della nuova competitività
ECONOMIE
EU Stories, il podcast | Politica industriale in Puglia: attrazione di talenti creativi e investimenti esteri grazie ai fondi di coesione
L'APPROFONDIMENTO
La coesione è ricerca e innovazione. Long form sugli impatti del FESR 2014-2020 nel quadro della Strategia di Specializzazione Intelligente a favore della ricerca e dell’innovazione
L'APPROFONDIMENTO
Pnrr e banda ultralarga: ecco tutti i fondi allocati e i target
L'ANNUARIO
Coesione e capacità dei territori
INNOVAZIONE
EU Stories | Dalla produzione industriale a fucina di innovazione: come il Polo universitario della Federico II a San Giovanni a Teduccio ha acceso il futuro
L'INIZIATIVA
DNSH e Climate proofing: da adempimento ad opportunità. Spunti e proposte dal FORUM PA CAMP Campania
INNOVAZIONE
EU Stories, il podcast | Laboratori Aperti: riqualificazione e innovazione in 10 città dell’Emilia-Romagna
Da OpenCoesione 3.0 a Cap4City: ecco i progetti finanziati dal CapCoe.  Il podcast “CapCoe. La coesione riparte dalle persone”
Capacità amministrativa e coesione: il binomio vincente per lo sviluppo dei territori
FORUM PA PLAY: come unire sostenibilità e investimenti pubblici. Speciale FORUM PA CAMP Campania
Scenari
Il quadro economico del Sud: tra segnali di crescita e nuove sfide
Sostenibilità
Lioni Borgo 4.0: un passo verso la città del futuro tra innovazione e sostenibilità
Podcast
Centro Servizi Territoriali: uno strumento per accompagnare gli enti nell’attuazione della politica di coesione. Il podcast “CapCoe. La coesione riparte dalle persone”
Podcast
EU Stories, il podcast | Politiche di coesione e comunicazione: una sinergia per il futuro
Opinioni
La comunicazione dei fondi europei da obbligo ad opportunità
eBook
L'analisi della S3 in Italia
Norme UE
European Accessibility Act: passi avanti verso un’Europa inclusiva
Agevolazioni
A febbraio l’apertura dello sportello Mini Contratti di Sviluppo
Quadri regolamentari
Nuovi Orientamenti sull’uso delle opzioni semplificate di costo
Coesione
Nuovo Bauhaus Europeo (NEB): i premi che celebrano innovazione e creatività
Dossier
Pubblicato il long form PO FESR 14-20 della Regione Sicilia
Iniziative
400 milioni per sostenere lo sviluppo delle tecnologie critiche nel Mezzogiorno
Formazione
“Gian Maria Volonté”: dalle aule al mondo del lavoro, focus sui tirocini della Scuola d’Arte Cinematografica
TRANSIZIONE ENERGETICA
Il ruolo del finanziamento BEI per lo sviluppo del fotovoltaico in Sicilia
Formazione
“Gian Maria Volonté”: dalla nascita ai progetti futuri, focus sulla Scuola d’Arte Cinematografica. Intervista al coordinatore Antonio Medici
MedTech
Dalla specializzazione intelligente di BionIT Labs una innovazione bionica per la disabilità
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
IL PROGETTO
5GMed, ecco i quattro casi d’uso per la mobilità europea
L'APPELLO
Banda 6GHz chiave di volta del 6G: le telco europee in pressing su Bruxelles
EU COMPASS
Tlc, l’Europa adotta la linea Draghi: ecco la “bussola” della nuova competitività
ECONOMIE
EU Stories, il podcast | Politica industriale in Puglia: attrazione di talenti creativi e investimenti esteri grazie ai fondi di coesione
L'APPROFONDIMENTO
La coesione è ricerca e innovazione. Long form sugli impatti del FESR 2014-2020 nel quadro della Strategia di Specializzazione Intelligente a favore della ricerca e dell’innovazione
L'APPROFONDIMENTO
Pnrr e banda ultralarga: ecco tutti i fondi allocati e i target
L'ANNUARIO
Coesione e capacità dei territori
INNOVAZIONE
EU Stories | Dalla produzione industriale a fucina di innovazione: come il Polo universitario della Federico II a San Giovanni a Teduccio ha acceso il futuro
L'INIZIATIVA
DNSH e Climate proofing: da adempimento ad opportunità. Spunti e proposte dal FORUM PA CAMP Campania
INNOVAZIONE
EU Stories, il podcast | Laboratori Aperti: riqualificazione e innovazione in 10 città dell’Emilia-Romagna
Da OpenCoesione 3.0 a Cap4City: ecco i progetti finanziati dal CapCoe.  Il podcast “CapCoe. La coesione riparte dalle persone”
Capacità amministrativa e coesione: il binomio vincente per lo sviluppo dei territori
FORUM PA PLAY: come unire sostenibilità e investimenti pubblici. Speciale FORUM PA CAMP Campania
Scenari
Il quadro economico del Sud: tra segnali di crescita e nuove sfide
Sostenibilità
Lioni Borgo 4.0: un passo verso la città del futuro tra innovazione e sostenibilità
Podcast
Centro Servizi Territoriali: uno strumento per accompagnare gli enti nell’attuazione della politica di coesione. Il podcast “CapCoe. La coesione riparte dalle persone”
Podcast
EU Stories, il podcast | Politiche di coesione e comunicazione: una sinergia per il futuro
Opinioni
La comunicazione dei fondi europei da obbligo ad opportunità
eBook
L'analisi della S3 in Italia
Norme UE
European Accessibility Act: passi avanti verso un’Europa inclusiva
Agevolazioni
A febbraio l’apertura dello sportello Mini Contratti di Sviluppo
Quadri regolamentari
Nuovi Orientamenti sull’uso delle opzioni semplificate di costo
Coesione
Nuovo Bauhaus Europeo (NEB): i premi che celebrano innovazione e creatività
Dossier
Pubblicato il long form PO FESR 14-20 della Regione Sicilia
Iniziative
400 milioni per sostenere lo sviluppo delle tecnologie critiche nel Mezzogiorno
Formazione
“Gian Maria Volonté”: dalle aule al mondo del lavoro, focus sui tirocini della Scuola d’Arte Cinematografica
TRANSIZIONE ENERGETICA
Il ruolo del finanziamento BEI per lo sviluppo del fotovoltaico in Sicilia
Formazione
“Gian Maria Volonté”: dalla nascita ai progetti futuri, focus sulla Scuola d’Arte Cinematografica. Intervista al coordinatore Antonio Medici
MedTech
Dalla specializzazione intelligente di BionIT Labs una innovazione bionica per la disabilità
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati

Articolo 1 di 4