intelligenza artificiale

L’AI scopre vulnerabilità nel codice: cambia tutto per la sicurezza software



Indirizzo copiato

La collaborazione tra Anthropic e Mozilla sulle vulnerabilità di Firefox mostra che l’AI non accelera solo la scrittura del codice ma anche la sua lettura critica. Una buona notizia, rara nel dominio cyber. Ecco come chi si occupa di codice dovranno sfruttare questi sviluppi

Pubblicato il 9 mar 2026

Andrea Tironi

Project Manager – Digital Transformation



Sicurezza codice AI

L’AI generativa, gli llm, stanno dimostrando sul campo di fare la differenza per la scoperta di vulnerabilità.

Notevole l’accordo in tal senso tra Anthropic e Mozilla.

Il modello Claude è stato usato per cercare vulnerabilità reali dentro uno dei software più studiati, controllati e “stressati” del mondo, Firefox.

Anthropic racconta che Claude Opus 4.6, in due settimane di lavoro con Mozilla, ha contribuito a individuare 22 vulnerabilità, di cui 14 classificate da Mozilla come ad alta gravità. Mozilla conferma il dato e aggiunge che tutte queste 22 CVE sono state corrette nell’ultima versione del browser, Firefox 148.

Quando l’AI e sicurezza del software entrano nella stessa stanza

Detta così, potrebbe sembrare “solo” una bella notizia per la cybersecurity. In realtà è anche molto di più: è un segnale forte su dove si sta spostando il lavoro tecnico e, di riflesso, su come potrebbe cambiare il mestiere del programmatore nei prossimi anni.

Un modello riesce a entrare in una codebase enorme, complessa, aperta, mantenuta da anni da una comunità globale, e a trovare bug che erano sfuggiti a revisione umana, fuzzing, static analysis e controlli accumulati in oltre vent’anni. Questo va oltre la scrittura automatica di codice.

Ma allora chi farà il lavoro di lettura profonda, verifica, messa in sicurezza, refactoring, triage e governo del codice quando la generazione diventa commodity?

Mozilla è chiara: Firefox è una delle codebase più scrutinizzate e indurite sul piano della sicurezza; nonostante questo, l’analisi assistita da AI ha fatto emergere molti bug precedentemente sconosciuti, comprese classi di errori logici che gli umani non avevano trovato.

Il nuovo baricentro del valore per chi sviluppa

È qui che cambia il mondo dei programmatori. Non tanto perché “l’AI ci sostituirà”, formula ormai stanca, ma perché cambia il baricentro del valore. Fino a ieri una parte consistente del mestiere stava nella produzione: scrivere, implementare, collegare, correggere, fare andare.

Domani una quota crescente del valore starà nella capacità di orchestrare una produzione automatizzata che sarà molto più veloce di noi, ma non per questo autonoma nel senso pieno del termine. Anthropic, nel suo resoconto, spiega che Claude non si è limitato a segnalare problemi vaghi: ha individuato un bug di tipo use-after-free nel motore JavaScript di Firefox dopo circa venti minuti di esplorazione, ha prodotto descrizioni della vulnerabilità e perfino una patch proposta, poi validata dal team umano prima della segnalazione su Bugzilla. Nello stesso lasso di tempo, mentre i ricercatori validavano il primo caso, il modello aveva già prodotto altri cinquanta input unici in grado di far crashare il software. Alla fine dello sforzo, sono stati passati al setaccio quasi 6.000 file C++ e sono stati inviati 112 report unici.

AI e sicurezza del software: dove si sposta il collo di bottiglia

Questo ci dice una cosa molto concreta: il collo di bottiglia non è più soltanto trovare qualcosa. Il collo di bottiglia diventa capire cosa conta davvero. Triage, priorità, verifica, classificazione, impatto, remediation. In altre parole: meno dattilografi del codice, più direttori tecnici del ragionamento software. Ed è un cambio enorme, perché costringe chi sviluppa a spostarsi da una logica di pura esecuzione a una logica di supervisione cognitiva. Il programmatore che reggerà meglio questa transizione non sarà quello che digita più veloce, ma quello che sa fare le domande giuste alla macchina, leggere i falsi positivi, distinguere il bug cosmetico dal difetto sistemico, e soprattutto collegare il dettaglio tecnico al rischio operativo.

Claude usato per l’hack dei dati fiscali del messico

Una notizia potrebbe allarmarci, in questo ambito. Secondo Gambit Security, nel raid contro dieci enti pubblici messicani e una istituzione finanziaria Claude Code a febbraio sarebbe stato usato con oltre 1.000 prompt per aiutare a trovare vulnerabilità, scrivere exploit, costruire tooling e automatizzare l’esfiltrazione di più di 150 GB di dati, con circa 195 milioni di identità esposte; ed è proprio questo il punto, perché l’episodio si inserisce in una traiettoria in cui i modelli non si limitano più ad assistere il coding ma iniziano a sostenere workflow offensivi e difensivi sempre più complessi.

Anthropic, del resto, segnala che i suoi modelli più recenti riescono ormai, in cyber range realistici, a portare a termine attacchi multistadio su reti con decine di host usando strumenti open source standard, un indicatore chiaro del fatto che la soglia pratica d’impiego si sta abbassando rapidamente.

I framework per il benchmark capacità hacking

Per misurare questa crescita contano sempre di più framework di assessment come le Frontier Capability Assessments del Frontier Model Forum e la Responsible Scaling Policy di Anthropic, pensati per capire quando le capacità cyber di un modello iniziano ad avvicinarsi a profili di rischio più alti; sul piano dei benchmark, invece, i riferimenti più solidi sono Cybench, che valuta agenti su 40 task CTF di livello professionale, CVE-Bench, che misura la capacità di sfruttare vulnerabilità reali in ambienti sandboxati, e CyberSecEval 2, che testa anche prompt injection, code interpreter abuse e il rapporto tra sicurezza e utilità tramite la False Refusal Rate: messi insieme, questi strumenti mostrano che i limiti restano, ma anche che l’aumento delle capacità di coding e agentività sta rendendo gli LLM sempre più rilevanti anche nel dominio cyber.

Il vantaggio temporaneo della difesa

Ma nel contesto c’è aspetto, più interessante, sfuggito ai più.

Una buona notizia, finalmente.

Anthropic ammette apertamente che oggi i suoi modelli sono molto più bravi a trovare e correggere vulnerabilità di quanto non siano a sfruttarle davvero in modo offensivo. Per testare il limite, hanno chiesto a Claude di trasformare alcune delle vulnerabilità trovate in exploit funzionanti. Il test è stato eseguito centinaia di volte, con circa 4.000 dollari di crediti API, e il modello è riuscito a portare a termine un exploit reale solo in due casi. È poco? Sì e no. Sì, perché dimostra che al momento la difesa ha ancora un vantaggio operativo. No, perché dimostra che una barriera che fino a poco fa sembrava lontana è già stata almeno sfiorata: un modello può fare anche questo, seppure in modo grezzo e in un ambiente di test semplificato, privo di alcune protezioni decisive come la sandbox del browser.

Una finestra storica per l’AI e sicurezza del software

Ed è proprio questa asimmetria temporanea a rendere la notizia così importante per chi programma. Siamo in una finestra storica particolare: i modelli, oggi, sembrano più utili ai difensori che agli attaccanti. Anthropic lo scrive chiaramente: la scoperta delle vulnerabilità è di un ordine di grandezza più economica della costruzione di exploit, e Opus 4.6 è “far better” nell’identificare e nel correggere i bug rispetto allo sfruttarli. Ma la stessa azienda avverte che, guardando il tasso di progresso, è improbabile che questo vantaggio duri a lungo.

Tradotto in linguaggio meno diplomatico: il tempo per rimettere in ordine il software accumulato in anni di debito tecnico non è infinito. Chi sviluppa, chi mantiene librerie, chi governa stack applicativi, chi ha sistemi legacy in produzione dovrebbe leggere questa vicenda come si leggono i segnali deboli quando iniziano a diventare forti. Per anni abbiamo pensato alla sicurezza come a un’attività separata, specialistica, spesso relegata a fine ciclo. Qui invece emerge un modello diverso: l’AI entra nella pipeline come lettore instancabile del codice, come ricercatore junior potentissimo, come revisore che non si annoia mai, come fuzzing semantico che non si limita a lanciare input casuali ma prova a capire il senso delle interazioni nel software. Anthropic, presentando Claude Code Security a febbraio 2026, descrive proprio questa differenza: non un motore che confronta pattern noti, ma uno strumento che “legge e ragiona” sul codice come farebbe un ricercatore umano, cercando vulnerabilità complesse e contestuali, e proponendo patch che restano comunque soggette ad approvazione umana.

Il lavoro che perde valore e quello che ne guadagna

Questo, per il mondo dei programmatori, è forse il punto più scomodo ma anche più promettente. Perché abbassa il valore di una parte del lavoro e ne alza un’altra. Abbassa il valore del coding lineare, ripetitivo, formulare. Alza il valore della comprensione architetturale, del dominio, della capacità di validare, della gestione del rischio, della manutenzione intelligente. In sostanza, il programmatore del prossimo ciclo non sparisce: si sposta. Diventa meno esecutore solitario e più coordinatore di sistemi di produzione automatizzata. Meno artigiano della singola funzione e più responsabile del comportamento complessivo del software. Meno “scrivo tutto io”, più “governo un flusso dove umani e modelli producono insieme”.

Metodo, processo e qualità della segnalazione

C’è anche un effetto culturale da non sottovalutare. Mozilla, che non è esattamente l’ultima startup arrivata, riconosce che i report assistiti da AI spesso hanno una cattiva reputazione, perché generano rumore e carico inutile per i maintainer. Lo scetticismo, scrivono, è meritato. Ma in questo caso la differenza l’hanno fatta la qualità dei test minimi riproducibili, la possibilità di verificare rapidamente i problemi e il fatto che il lavoro sia stato inserito in un processo di disclosure responsabile e collaborazione tecnica vera. Anche questo cambia il mestiere: non basta avere un modello potente, bisogna saperlo incastrare in procedure credibili. Quindi il valore professionale non si sposta solo sul sapere tecnico, ma anche sul metodo. Workflow, disciplina, qualità della segnalazione, interoperabilità tra team umani e strumenti AI.

AI e sicurezza del software nella nuova fase industriale

In fondo il messaggio più serio di questa storia è che il software sta entrando in una nuova fase industriale. Non più solo scritto, testato e corretto da esseri umani con strumenti automatici di supporto, ma letto e interrogato da sistemi che iniziano a comportarsi come colleghi anomali: velocissimi, instancabili, capaci di vedere correlazioni che sfuggono, ma ancora bisognosi di guida, giudizio e responsabilità. Ed è qui che il mondo dei programmatori cambia davvero. Non perché l’AI diventi il programmatore. Ma perché costringe i programmatori a fare finalmente il salto da scriventi di codice a governanti del codice.

È un salto che farà male a chi ha costruito la propria identità solo sulla tastiera. Ma può essere una grande opportunità per chi da tempo ha capito che il cuore del mestiere non è battere righe, è capire sistemi. Firefox, in questa vicenda, ci mostra proprio questo: persino nelle codebase migliori esiste un backlog invisibile di problemi che una nuova generazione di strumenti riesce a far emergere. Mozilla parla di una tecnica emergente da integrare nei flussi interni; Anthropic parla di una “urgenza del momento” e invita gli sviluppatori a sfruttare questa finestra per mettere in sicurezza il software prima che i modelli diventino altrettanto efficaci anche sul lato offensivo.

Il programmatore che governa il codice

Quindi no, non è solo una notizia sulla sicurezza di Firefox. È un’anticipazione molto concreta di ciò che sta arrivando nelle software house, nei team IT, nelle community open source e, presto, anche nelle amministrazioni e nelle imprese che vivono di software senza chiamarlo così. Il programmatore del futuro prossimo dovrà continuare a conoscere linguaggi, framework e architetture.

Ma dovrà soprattutto saper convivere con un nuovo soggetto operativo che legge il codice, scova errori, propone fix, accelera il ciclo e sposta il valore verso il discernimento. Il vero upgrade non sarà nella velocità con cui si scrive. Sarà nella maturità con cui si governa ciò che ormai può essere scritto, letto e criticato anche da una macchina.

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati

0
Lascia un commento, la tua opinione conta.x