Dopo oltre due anni dall’improvvisa popolarità dell’AI generativa si comincia a sentire aria di un certo consolidamento nelle tecnologie fondanti e nelle innovazioni, che sicuramente si susseguono ancora con una certa frequenza, ma sembrano aver ridotto l’impatto sui modelli veri e propri e si cominciano a concentrare su nuovi elementi.
2025, l’anno dell’agentic AI
Non credo sia un caso che il 2025 sia indicato come l’anno dell’agentic AI, riportando in auge il termine “agente” divenuto popolare alla fine degli anni novanta e di fatto spostando l’attenzione dagli aspetti più funzionali dell’AI a quelli più “organizzativi” in cui la capacità di ragionare viene impiegata da un software per perseguire obiettivi, in sostanza si passa dallo sviluppo dei motori e delle ali di un aereo alla gestione degli arredamenti, delle misure di sicurezza e degli aspetti che ne consentano l’uso da parte della gente comune e non solo dai temerari che lo hanno reso possibile.
Sebbene sia sempre difficile predire il futuro, l’impressione che si ha, confermata anche dal ciclo di Hype di Gartner (giugno del 2024), è che le applicazioni intelligenti si stiano avviando a raggiungere il cosiddetto plateau della produttività avendo superato il momento in cui, superato il picco di eccesso di aspettative, si comincia a pensare che di aver sovrastimato la tecnologia.

L’evoluzione dei modelli nel 2025
Per oltre due anni il susseguirsi degli annunci su modelli di AI generativa sempre più capaci ha scandito il tempo, sia per modelli chiusi come quelli di OpenAI, Anthropic, e Google, che per quelli open sostenuti dai rilasci di Meta dei modelli Llama e dalla comunità di Hugging face.
Allucinazioni in calo
La sensazione di chi osserva come me l’evoluzione dei modelli è che ad ogni rilascio i modelli migliorino ma non certo con quella sensazione di sconvolgimento che si aveva quando si passava da GPT-3.5 a GPT-4 o da Bard a Gemini. Oggi diventa sempre più difficile mettere alla prova i nuovi modelli richiedendo prompt sempre più sofisticati per distinguere un modello come o1 da GPT-4o, e si parla sempre meno di allucinazioni, non perché siano sparite ma piuttosto perché abbiamo imparato che nei modelli più affidabili sono ragionevolmente rare e mediamente in calo (anche se l’atteggiamento può creare un falso senso di sicurezza che ci porti ad accettare informazioni false come vere).
Scarsità di informazioni per allenare i modelli
Nell’evoluzione dei modelli domina il tema della scarsità di informazioni per poter migliorare il modello stesso, non perché i vari attori non vi abbiano accesso, ma perché abbiamo già dato una buona parte di tutto lo scibile umano in pasto alla macchina e diviene sempre più difficile trovarne di nuovo ad un ritmo tale da garantire significativi progressi.
Dal mio punto di vista si tratta di una buona notizia, di solito nel settore dell’IT quando ci si avvicina a saturare una qualche dimensione ci si ingegna per trovare nuove direzioni di sviluppo, cosa che sembra essere avvenuta in OpenAI nel passaggio da GPT-4o a o1 dove l’automazione del processo di chain of thought ha portato alla realizzazione di un modello che sembra operare in modo gerarchico ponendo più problemi ad un modello piuttosto che cercando di realizzare un modello che risponda in modo accurato ad input complessi.
I modelli multimodali e l’abilità di generare video
Un altro tema che è emerso nel 2023 ma che sta trovando solo ora una concreta applicazione per tutti è quello dei modelli multimodali, modelli che in qualche modo vanno oltre la sola gestione del testo e sono capaci anche di elaborare audio, immagini e video direttamente. Proprio in questi giorni OpenAI sta rilasciando l’abilità di far “vedere” al modello attraverso la fotocamera e discutere vocalmente su quello che si vede in tempo reale.
Oltre ad un analisi sempre più sofisticata dell’input ed una maggiore capacità di seguire le istruzioni date i modelli hanno mostrato di saper generare informazioni in modo sempre più sofisticato chiudendo il 2024 con l’abilità di generare video resa disponibile da OpenAI con Sora e da Google con Veo 2.
I modelli open
Anche il mondo open dei modelli ha visto un’evoluzione significativa con modelli capaci di esibire comportamenti che solo pochi mesi fa sembravano appannaggio solo dei grandi. L’anno scorso si è concluso con l’annuncio di Microsoft della disponibilità di Phi4, un modello relativamente piccolo capace di una sorprendente capacità di ragionamento date le dimensioni. Sebbene sia apprezzabile la natura Open di questi modelli non dobbiamo dimenticare che il loro addestramento è molto costoso e la comunità sempre più spesso deriva nuovi modelli partendo da quelli rilasciati dai grandi player: non bisogna dimenticare che un addestramento di Llama 70B è stimato costare circa quattro milioni di dollari, e la versione con 405B almeno sette volte tanto.

Un anno di consolidamento e miglioramento
Il 2025 si preannuncia quindi per i modelli come un anno di consolidamento e miglioramento, cercando di migliorare la loro capacità di eseguire le istruzioni, elemento chiave per poterli introdurre in applicazioni, migliorando l’affidabilità degli output soprattutto nel contesto dell’automazione (e quindi della generazione di codice e nella definizione automatica di azioni). In un mondo in cui si assiste ad un certo rallentamento dell’architettura transformers che ha reso possibile molte delle innovazioni di cui parliamo vanno tenuti d’occhio gli approcci alternativi: come testimoniato dagli SLM c’è una forte necessità di modelli piccoli che offrano comportamenti accettabili al fine di supportare l’edge AI in cui i modelli sono eseguiti direttamente nei dispositivi senza dover ricorrere alla rete per aver accesso ai grandi datacenter.
Ingegnerizzare l’AI nelle applicazioni
La stabilizzazione delle funzioni di base dei modelli e una certa consistenza del loro comportamento anche con gli aggiornamenti e l’evoluzione consente finalmente il loro impiego all’interno di software che integrano l’AI tra le proprie funzioni. Se nel 2024 i grandi hanno già arricchito le funzioni dei propri software con la possibilità di avvalersi dei modelli AI, l’introduzione della agentic AI sostanzialmente apre questo approccio a tutti.
Cosa si intende per agentic AI
Ma cosa si intende per agentic AI? Da un certo punto di vista sembra l’introduzione di un termine volto a tenere alta l’attenzione e dare il senso di una nuova rivoluzione per assicurare che l’hype in termini di investimenti continui anche nel 2025. Un agente intelligente sin dai tempi del libro “Artificial intelligence, a modern approach” è un modo di impacchettare le funzioni intelligenti in un modello concettuale che prevede che un software autonomo segua il cosiddetto ciclo di percezione-azione: in ogni momento l’agente acquisisce informazioni e stimoli dall’ambiente in cui è immerso per poi utilizzare queste informazioni unitamente alla propria conoscenza e ai propri obiettivi per determinare la prossima azione da intraprendere.
Quindi una AI ad agenti è semplicemente un modo di vedere, attraverso il software engineering, un modello che diviene proattivo nel senso che ha un obiettivo da perseguire piuttosto che limitarsi ad attendere istruzioni a cui dare seguito. Concettualmente quindi questa nuovo hype sposterà l’AI dal quadrante di una funzione passiva che si consulta ad un componente attivo dei nostri sistemi al centro del quale troviamo il modello.
Ecco che molta ricerca svolta alla fine degli anni novanta e all’inizio del nuovo millennio potrà essere recuperata sostituendo approcci più tradizionali di AI con i nuovi modelli generativi. Assisteremo quindi non solo a singoli agenti, ma a moltitudini di agenti intelligenti (sicuramente più intelligenti che in passato) che interagiscono tra loro per affrontare un problema attraverso l’interazione reciproca e non solo col mondo circostante.
È da sottolineare come già sia difficile determinare completamente il comportamento di un modello AI a causa dell’intrinseca natura stocastica del suo funzionamento, determinare il comportamento di un insieme di agenti che interagiscono in modo non deterministico basati su modelli AI a loro volta non interamente prevedibili aggiungerà un pizzico di ulteriore imprevedibilità ai nostri sistemi. È lecito quindi attendersi che molto dello sviluppo si concentrerà sul più prosaico uso delle API lasciando la ribalta delle news agli agenti.
Ma perché gli agenti sembrano un’astrazione utile e tutti ne annunciano l’arrivo nel corso dell’anno? Il motivo profondo è che si cerca di passare da un modello di AI passiva in cui è l’uomo che la consulta quando ne ha bisogno ad un modello proattivo in cui l’AI ci affianca proponendo soluzioni e anticipando problemi. Magari è la volta che avrò l’assistente interamente digitale che hanno promesso decenni fa ma che ad oggi non abbiamo ancora.
L’AI e il mondo fisico: la robotica intelligente e gli smart devices
L’AI generativa ha avuto un impatto significativo nel mondo della robotica consentendo ai robot di essere decisamente più adattivi al mondo circostante ed esibire comportamenti sempre più articolati che lasciano prevedere l’arrivo di una robotica consumer oltre al robot umanoide annunciato da Tesla. Un robot che mi ha colpito molto è stato il quadrupede unitree b2 i cui video hanno fatto il giro dei social mostrando sostanzialmente un cane capace da scendere da greti sconnessi ed effettuare manovre a cui ci ha abituato Boston Dynamics ma che allo stesso tempo può essere acquistato per soli 1.600 dollari rendendo questa tecnologia decisamente accessibile.
Ma se i robot sono destinati ad essere sempre più presenti nelle nostre vite saranno preceduti nel corso dell’anno da dispositivi smart di uso quotidiano basati su AI. Dopo il lancio due anni fa degli occhiali smart Meta realizzati da Rayban si sprecano ora i progetti di smart glasses che consentono di interagire vocalmente con i modelli di AI per ottenere informazioni mentre si è in giro. Alcuni addirittura aumentano la realtà sovraimprimendo sulle lenti del testo, altri promettendo di origliare quello che facciamo per poi riassumerci cosa abbiamo fatto. Sono tutti segni dell’inizio dell’ingegnerizzazione dell’AI nei prodotti di cui il CES 2025 ha dato abbondante mostra.
Il 2025 vedrà anche la disponibilità (vedremo se effettiva o solo nominale) del supercomputer da tavolo DIGITS di nVidia. Un sistema capace di eseguire software come se fosse un datacenter e con una capacità computazionale straordinaria ad un costo decisamente ridotto per un dispositivo capace di eseguire tutto il software AI. Si tratta di un annuncio molto importante se si pensa al contesto della cosiddetta edge AI: sarà possibile avvicinare l’esecuzione di modelli di AI a sensori ed attuatori sul territorio senza doversi accontentare di modelli piccoli e per molti versi limitati. Nel contesto della robotica e degli smart devices la disponibilità di questa potenza di calcolo che può essere fisicamente più vicina al dispositivo aprirà applicazioni di automazione intelligente sul territorio, anche in condizioni in cui non è realistico utilizzare servizi cloud.
L’impatto nel mondo del lavoro
Il 2025 sembra anche essere l’anno in cui dovremo fare i conti sul vero impatto sul mondo del lavoro di queste tecnologie. Solo pochi giorni fa Mark Zuckerberg ha annunciato che nel corso dell’anno Meta prevede di sostituire il Mid-level engineer, in essenza un programmatore, con l’AI. Vedremo con quali risultati, ma è innegabile che l’introduzione pervasiva delle tecnologie AI sta già cambiando il mondo del lavoro ed è presumibile che nel corso dell’anno quella che finora è stata una previsione cominci a trasformarsi in realtà.
Resta da vedere quali lavori saranno impattati da questa tendenza e come reagirà la società. Quello che sembra abbastanza evidente è che i governi sembrano del tutto impreparati a fronteggiare questa nuova sfida, e in particolare l’Europa sembra essersi concentrata solo sugli aspetti regolatori e non sul problema nel suo complesso.
Un ruolo centrale lo svolgerà la formazione e la sua capacità di consentire a quante più persone possibile di imparare a convivere con l’AI senza diventarne succubi, aumentando al contrario le proprie capacità grazie alle sue funzioni.
Conclusioni
I segnali per il 2025 sono quelli di una AI che da essere una tecnologia disruptive con grande potenziale, incarnata in un numero relativamente limitato di chatbot, diventerà una tecnologia pervasiva in molti dei sistemi che utilizziamo, sia nella sfera digitale che nel mondo reale. Vedremo meno news sui nuovi modelli o sui prompt e più sistemi integrati con questa tecnologia che si sta avviando a raggiungere il suo plateau.
Questa pervasività inevitabilmente alimenterà il dibattito etico/strategico/politico in un mondo che ha ormai un nuovo ospite con cui non potremo non confrontarci per il bene o per il male (anche se da inguaribile ottimista propendo più per il bene).