La sicurezza informatica sta entrando in una fase in cui l’intelligenza artificiale può rendere molto più economica la scoperta di vulnerabilità. Il caso Mythos non riguarda solo un modello di frontiera, ma il rapporto tra software legacy, infrastrutture critiche e tempo disponibile per adattarsi.
Indice degli argomenti
Quando una serratura apre una crisi di sistema
Nel luglio del 1851, un fabbro americano di nome Alfred Charles Hobbs si sedette in una stanza al piano superiore del negozio di Joseph Bramah a Piccadilly con un lucchetto che era rimasto in vetrina per sessantuno anni, sotto una ricompensa permanente di duecento ghinee per chiunque fosse riuscito ad aprirlo senza chiave. Il lucchetto, realizzato nel 1790, era considerato impossibile da scassinare. Hobbs lo aprì in cinquantuno ore di lavoro distribuite su sedici giorni. Due giorni prima aveva già scassinato il lucchetto Chubb’s Detector — il riferimento dell’ingegneria britannica per la sicurezza — su una porta di un caveau a Westminster, in venticinque minuti.
La stampa battezzò l’episodio “la Grande Controversia delle Serrature”. Chubb promise di riprogettarle. I banchieri si accesero in discussioni sulle lettere al Times. I critici si chiesero se fosse responsabile pubblicare, con tale livello di dettaglio, le vulnerabilità delle serrature su cui il Paese faceva affidamento. Secondo Hobbs nel 1853 i malviventi erano molto abili nel loro mestiere e sapevano già molto più di quanto loro potessero insegnargli. Il settore attraversò una fase di crisi e ridefinizione, seguita da innovazione e riprogettazione. Ma tra le due fasi ci fu un periodo di transizione disorientante, prima che il sistema riuscisse ad adattarsi. È questa la parte interessante oggi, perché il settore della cybersecurity si trova davanti a una dinamica molto simile.
Che cos’è in realtà Mythos
Quando il 7 aprile Anthropic ha presentato Project Glasswing, lo ha fatto nel linguaggio che oggi definisce i lanci dell’IA di frontiera: un modello troppo pericoloso per essere reso pubblico, una coalizione che va da AWS a JPMorganChase, 100 milioni di dollari in crediti di utilizzo e la promessa che Claude Mythos Preview non sarà mai disponibile al grande pubblico. È esattamente il tipo di annuncio che invita allo scetticismo, e gran parte dei commenti ricevuti lo merita.
Le affermazioni di Anthropic, in sintesi: nelle ultime settimane Mythos ha individuato migliaia di vulnerabilità zero-day, molte critiche e molte risalenti a uno o due decenni fa, le ha concatenate in exploit funzionanti e ha ottenuto un tasso di successo del 100% su Cybench, un benchmark che nessun modello precedente aveva superato. Il risultato di riferimento è un bug di 27 anni fa in OpenBSD, un codebase sottoposto a revisione professionale continua dal 1996.
Oltre il 99% di questi risultati non è ancora stato patchato; quindi, gli osservatori esterni stanno valutando Mythos attraverso punteggi di benchmark e endorsement dei partner piuttosto che tramite replica indipendente. Se un codebase sottoposto a scrutinio continuo per quasi trent’anni conteneva ancora un bug vecchio di 27 anni, l’implicazione per tutto ciò che è meno controllato è la vera notizia.
Il paragone più immediato è GPT-2. Nel 2019 OpenAI lo definì troppo pericoloso per il rilascio; nove mesi dopo venne pubblicato, i danni temuti non si materializzarono e oggi il modello appare quasi un giocattolo. “Troppo pericoloso da rilasciare” si è già rivelato sbagliato. Ma GPT-2 scriveva paragrafi. Mythos produce exploit funzionanti per codice sopravvissuto a decenni di revisione umana. È una categoria di rischio diversa, e ignorarlo è il modo più probabile per far deragliare il prossimo decennio.
Il decennio di transizione
Nel lungo periodo, lo sviluppo assistito dall’IA produce plausibilmente codice con meno vulnerabilità per impostazione predefinita. I modelli revisionano altri modelli. La sicurezza si sposta a sinistra, dentro il gesto stesso della scrittura. Il software scritto nel 2035 sarà probabilmente più difficile da sfruttare di quello scritto nel 2015.
Nel breve periodo, però, ci troviamo nella finestra peggiore possibile. Decenni di codice legacy scritto sotto modelli di minaccia più deboli si confrontano ora con strumenti di scoperta ordini di grandezza più economici di prima. L’infrastruttura core banking delle più grandi istituzioni mondiali gira ancora su codice degli anni ’80 e ’90, in gran parte COBOL, testato in modo esaustivo sulla logica di business ma raramente sottoposto a audit di sicurezza comparabili a quelli di OpenBSD.
Reti di pagamento, controller di rete, switching fabric: gran parte di questa infrastruttura è stata protetta meno da proprietà formali di sicurezza che dall’oscurità e dal costo dell’accesso. I modelli della classe Mythos erodono entrambe queste difese. E mentre un bug in OpenBSD può spesso essere risolto con una singola riga di codice, un difetto nascosto in un mainframe scritto quarant’anni fa può essere di fatto irrisolvibile, perché nessuno oggi è più in grado di comprenderne tutte le dipendenze. Questa è la parte del problema che non ha una soluzione tecnica in tempi utili.
Il problema del falso comfort
La modalità di fallimento più probabile non è che “l’IA sostituisca i team di sicurezza”. È qualcosa di molto più ordinario, e molto più difficile da contestare in una riunione di sprint planning. Gli strumenti di sicurezza dedicati iniziano a sembrare overhead quando il ciclo dello sviluppatore diventa: scrivi codice → il modello lo verifica → il modello suggerisce una correzione → merge della PR. Lo scanner che interviene dopo la decisione finisce per sembrare un livello di audit, una fonte di rumore, qualcosa da rimandare.
Una ricerca pubblicata all’inizio dell’anno ha rilevato che il miglior modello attuale produce codice contemporaneamente funzionante e sicuro solo nel 56% dei casi. Più i team si affidano esclusivamente a questo ciclo, più vulnerabilità finiscono in produzione. Le analisi di sicurezza di Anthropic suggeriscono che i comportamenti problematici di Mythos derivino dalla brutalità nell’esecuzione del compito più che da obiettivi nascosti — e questo è il problema più generale. Un modello molto efficace nel trovare il percorso più efficiente verso un obiettivo dichiarato può anche trovare percorsi che gli esseri umani non avrebbero mai considerato. Questa dinamica si estende a tutti i fornitori e a tutte le architetture. La scorciatoia si amplifica: vulnerabilità generate dall’IA finiscono in codebase in cui l’IA sarà presto ancora più efficace nel trovarle.
Cosa i modelli di frontiera non sanno ancora fare
Esiste una lista resistente di attività che i modelli di frontiera non sono ancora in grado di svolgere, ed è proprio questa a definire dove gli specialisti restano indispensabili. L’analisi binaria senza codice sorgente rimane un punto debole. Gli ambienti regolamentati non permetteranno — e non dovrebbero permettere — che una conversazione sostituisca uno strumento di scanning certificato e tracciabile.
Il lavoro difensivo più difficile resta fuori portata: monitoraggio in tempo reale della darknet, nuovi indicatori di compromissione, attribuzione degli attori delle minacce, individuazione di backdoor intenzionali nelle supply chain software. Tutto questo si basa su intelligence proprietaria che nessun modello pubblico ha mai visto. Il mercato si stratifica, ma la competenza profonda in cybersecurity diventa più preziosa, non meno. È proprio il livello che i modelli di frontiera non riescono a raggiungere autonomamente.
Ciò che oggi è accessibile solo nel cloud, entro un anno sarà eseguibile su una workstation: il vantaggio duraturo non è l’accesso al modello, ma il metodo e i dati che un team porta con sé.
Il prezzo di ingresso
Le capacità di Mythos sono reali — Cybench e OpenBSD lo dimostrano. La sfida più difficile è capire come attraversare la finestra tra un sistema basato sul presupposto che trovare vulnerabilità sia costoso e uno in cui non lo è più, senza causare guasti a cascata proprio nelle infrastrutture meno riscrivibili.
Il decennio di transizione è il prezzo di ingresso, ed è questo il punto da discutere oggi: non se il lancio di Anthropic sia stato marketing, ma se i sistemi più critici abbiano tempo e budget sufficienti per attraversare questa fase.
La società senza serrature temuta dagli allarmisti nel 1851 non arrivò mai. Bramah e Chubb si adattarono, e il settore emerse più sicuro di quanto la Grande Controversia sulle Serrature avesse lasciato intendere. L’esito finale potrebbe essere lo stesso: software con molte meno vulnerabilità di oggi, e vale la pena lavorare in questa direzione. Se l’infrastruttura sottostante avrà lo stesso periodo di grazia concesso ai fabbri sarà ancora la domanda aperta.













Partecipa alla community