Per anni il parametro implicito con cui sono stati giudicati i grandi modelli è rimasto quasi sempre lo stesso. Quanto bene sanno scrivere, riassumere, tradurre, spiegare. Oggi, però, quella misura comincia a stare stretta. Nei contesti in cui l’intelligenza artificiale viene inserita dentro processi reali, il valore non dipende soltanto dalla qualità del testo prodotto.
Conta la capacità di trasformare un obiettivo in una sequenza di operazioni, di usare strumenti, leggere lo stato di un ambiente, correggere deviazioni, fermarsi quando serve e arrivare a un risultato verificabile. È in questa zona che il linguaggio dei Large Language Models incontra un lessico nuovo, ancora instabile ma sempre più presente: quello dei Large Action Models.
Indice degli argomenti
Large Action Models tra definizione incerta e uso operativo
La prima cosa da chiarire è proprio questa. LAM non è ancora una categoria compatta e universalmente condivisa come LLM o VLM. Il termine esiste, compare in lavori accademici e in documenti industriali, ma viene usato con una certa elasticità. In alcuni casi indica modelli pensati per tradurre istruzioni in sequenze d’azione. In altri descrive, più in generale, sistemi costruiti attorno a un modello generativo e completati da componenti di pianificazione, osservazione, esecuzione e controllo.
È una distinzione che conviene tenere presente, perché aiuta a non sovraccaricare il termine di una precisione che oggi non possiede ancora. Allo stesso tempo, l’etichetta è utile. Serve a descrivere uno spostamento concreto dell’attenzione tecnica. Il tema non è più soltanto la generazione di linguaggio, ma la possibilità di passare dal linguaggio all’operatività. In questo senso il lavoro di Piccoli, Rodriguez e Mahmoud sulla “programmatic orchestration” coglie un punto cruciale. Quando il sistema deve portare a termine un compito, il nodo vero non è la brillantezza della risposta, bensì il modo in cui vengono coordinate percezione, decisione, strumenti e stato del processo.
Large Action Models e passaggio dalla risposta all’azione
La transizione non nasce dal nulla. Una parte importante della ricerca aveva già mostrato che il linguaggio, da solo, non basta a spiegare il comportamento utile di un sistema. ReAct ha reso esplicita l’idea che ragionamento e azione possano essere intrecciati nello stesso ciclo. Toolformer ha affrontato un problema altrettanto concreto, quello dell’uso degli strumenti esterni come estensione delle capacità del modello. HuggingGPT ha poi allargato il quadro, mostrando come un LLM possa funzionare da coordinatore di modelli specializzati. Con AutoGen, infine, la conversazione fra agenti è diventata una struttura ingegneristica vera e propria, non soltanto un modo suggestivo di descrivere la cooperazione tra moduli.
Presi insieme, questi lavori delineano un cambio di prospettiva piuttosto netto. L’unità di valore non è più solo la risposta finale, ma il percorso che la rende possibile. In molti casi, anzi, il linguaggio finale conta meno del processo che ha permesso al sistema di arrivare a un’azione o a una decisione. Un agente maturo riceve un’intenzione espressa in linguaggio naturale, la scompone, sceglie strumenti, osserva ciò che accade, aggiorna il proprio stato e decide se proseguire o fermarsi. Il testo resta importante, ma spesso agisce come supporto intermedio. Organizza, coordina, spiega. Non coincide più con il prodotto finale.
Architetture di orchestrazione e controllo nei sistemi agentic
Qui si trova uno dei punti più sottovalutati del dibattito. Nei sistemi agentic, la distanza tra una demo impressionante e un’infrastruttura credibile raramente dipende soltanto dal modello di base. Molto più spesso dipende dal modo in cui è stato costruito il circuito operativo che gli sta intorno. Conta il loop decisionale, conta la memoria, contano le regole di uscita, conta la gestione degli errori, e conta soprattutto il grado di osservabilità del sistema.
Le indicazioni pratiche diffuse da OpenAI e Anthropic convergono su una linea prudente e pragmatica. Nella maggior parte dei casi è sensato iniziare con un singolo agente dotato di strumenti ben definiti e passare a configurazioni multi-agent solo quando il dominio lo richiede davvero. È una raccomandazione pragmatica, forse meno appariscente di certe narrazioni sull’autonomia diffusa, ma coerente con i problemi che emergono appena si esce dalle demo. Ogni agente aggiuntivo introduce costi di coordinamento, aumenta l’opacità diagnostica e rende più complessa la valutazione del comportamento complessivo.
Questo non significa che i sistemi multi-agent siano un esercizio di stile. Diventano anzi molto sensati quando esiste una separazione funzionale netta. Un agente può pianificare, un altro recuperare dati, un altro ancora occuparsi della percezione visiva o del controllo di conformità. A quel punto l’orchestrazione assomiglia meno a una pipeline lineare e più a una rete di competenze specializzate, con passaggi di consegne, memoria condivisa e checkpoint intermedi. Il problema tecnico cambia natura. Non riguarda solo ciò che il modello sa generare, ma chi decide il prossimo passo, su quali informazioni e con quali garanzie di controllo.
Large Action Models in ambienti multi-modali reali
La parola ‘multimodale’ è entrata da tempo nel lessico corrente, ma nei sistemi agentici assume un significato molto più operativo di quanto si intenda di solito. Non si tratta semplicemente di accettare input diversi. Si tratta di lavorare in ambienti che non si lasciano descrivere interamente in forma testuale. Un browser, un desktop, una dashboard aziendale, una schermata con elementi dinamici o un braccio robotico non parlano il linguaggio dei prompt. Vanno letti, interpretati e manipolati.
Per questa ragione le architetture più avanzate combinano moduli linguistici, capacità visive e motori di esecuzione. Nei computer-use agents, per esempio, la comprensione di screenshot, accessibility tree e stato dell’interfaccia viene trasformata in click, inserimento di testo, navigazione o modifica di file. In robotica la stessa logica riappare nei Vision-Language-Action model. RT-2 ha dato una forma molto chiara a questa convergenza, trattando le azioni robotiche come token all’interno di un modello unificato. Cambia il contesto applicativo, ma la struttura di fondo resta riconoscibile. C’è un ambiente da percepire, un piano da formulare, un’azione da compiere e un feedback da integrare nel passo successivo.
Protocolli, memoria e interoperabilità dei Large Action Models
Quando gli agenti smettono di essere prototipi isolati e cominciano a entrare in sistemi più ampi, emergono problemi meno spettacolari ma decisivi. Bisogna stabilire come vengono scoperti gli strumenti disponibili, come si descrivono capacità e permessi, come si trasferisce il controllo da un agente all’altro, come si conserva memoria utile senza saturare il contesto e come si mantiene una traccia verificabile di ciò che è accaduto.
In questo scenario il Model Context Protocol ha guadagnato rapidamente attenzione perché prova a standardizzare il collegamento tra applicazioni AI, strumenti esterni e fonti di dati. Non risolve l’orchestrazione nel suo complesso, ma riduce la frammentazione delle integrazioni costruite caso per caso. L’Agent2Agent Protocol affronta un problema diverso e complementare. Il suo obiettivo non è il rapporto tra agente e tool, bensì la comunicazione tra agenti eterogenei, potenzialmente basati su framework differenti e distribuiti su infrastrutture diverse.
È bene, anche qui, mantenere una misura realistica. Questi protocolli non rappresentano ancora un assetto definitivo. Sono infrastrutture giovani, che segnalano però una direzione molto chiara. L’ecosistema si sta spostando da implementazioni verticali e isolate verso forme più esplicite di interoperabilità. Lo stesso vale per la memoria. La letteratura recente insiste sul fatto che, senza meccanismi di memoria ben progettati, gli agenti tendono a ripetere errori, perdere contesto o accumulare informazione irrilevante. Nei sistemi multi-agent la memoria diventa inoltre un problema di sincronizzazione, auditabilità e governance, non soltanto di continuità cognitiva.
Affidabilità e sicurezza nei sistemi agentic multi-modali
Se c’è un punto in cui la distanza tra narrativa e realtà diventa immediatamente visibile, è quello della valutazione. I benchmark dedicati al computer use mostrano con una certa durezza quanto sia difficile passare da competenze linguistiche notevoli a un comportamento operativo robusto. OSWorld, costruito su ambienti realistici e task aperti, ha reso il divario particolarmente evidente. Nel benchmark OSWorld, nella sua prima formulazione, gli esseri umani superano il 72% di successo, mentre il miglior agente riportato nel paper si ferma poco oltre il 12%. Basta questo dato per ridimensionare molte semplificazioni circolate negli ultimi mesi.
OS-Harm aggiunge un secondo livello di lettura, altrettanto importante. Un agente che può operare su un computer o su un’infrastruttura digitale non deve soltanto completare task. Deve anche saper resistere a input ostili, prompt injection, esfiltrazione di dati e altre forme di comportamento indesiderato. Non appena il modello acquisisce capacità d’azione, la sicurezza non è più un tema laterale. Entra dentro il cuore dell’architettura.
È per questo che nelle implementazioni più serie l’orchestrazione include moduli distinti dal planner principale. Validator, policy engine, judge model, monitor di telemetria e sistemi di audit non sono un’aggiunta cosmetica. Servono a rendere l’autonomia osservabile, circoscritta e correggibile. In fondo è questo il passaggio che avvicina davvero i sistemi agentic a una disciplina ingegneristica più matura.
Large Action Models come sistema operativo dell’azione
La formula “dall’LLM al LAM” va quindi letta con cautela, ma non liquidata come semplice slogan. Più che annunciare la sostituzione di una categoria con un’altra, descrive uno spostamento di baricentro. La qualità del modello continua a contare, naturalmente, ma non basta più a spiegare il valore del sistema. Diventa decisiva l’architettura che collega obiettivi, strumenti, memoria, percezione e verifica.
È probabile che il vocabolario resti instabile ancora per qualche tempo. Continueranno a convivere etichette diverse, da LAM a computer-use agent, da agentic systems a Vision-Language-Action model. Al di sotto delle differenze terminologiche, però, la traiettoria è già leggibile. I sistemi più interessanti non saranno necessariamente quelli che parlano meglio, ma quelli che riusciranno a coordinare azione, contesto e controllo in ambienti complessi, con costi sostenibili e margini di errore misurabili. È lì che l’intelligenza artificiale, almeno nella sua forma più applicata, smette di limitarsi alla generazione e comincia a misurarsi con l’operatività.









