L’azienda di Dario Amodei, che fa dell’etica il suo punto di forza, ha bloccato la messa in commercio del suo modello più avanzato, Claude Mythos Preview. Ci si è accorti infatti che la sua capacità di rilevare le vulnerabilità dei sistemi potrebbe facilitare gli hackeraggi. Per questo verrà messo a disposizione solo di un consorzio di Big Tech, almeno per ora
A bloccare e rinviare la messa in commercio del modello più avanzato di Anthropic è Anthropic stesso. Gli sviluppatori della startup si sono infatti accorti durante i test che Claude Mythos Preview era troppo potente. Il modello è in grado di rilevare vulnerabilità informatiche “zero-day”, e quindi immediatamente sfruttabili. Come spiega il ceo Dario Amodei, “Claude Mythos Preview rappresenta un salto particolarmente significativo. Non lo abbiamo addestrato specificamente per essere bravo nel cyber. Lo abbiamo addestrato per essere bravo nel codice, ma come effetto collaterale dell’essere bravo nel codice, è anche bravo nel cyber. Per questo, piuttosto che metterlo a disposizione di tutti, abbiamo deciso di metterlo prima nelle mani di chi difende i sistemi, perché le falle vengano scoperte e chiuse prima che modelli di questa classe diventino accessibili a tutti”.
A differenza degli altri modelli, tra le conseguenze negative di Mythos Preview c’è quella di prendere il controllo del sistema operativo e browser che va a controllare. Paradossalmente, se un hacker informatico ne entra in possesso potrebbe servirsi di uno strumento di cybersicurezza per infiltrarsi altrove. Il rischio è troppo alto. Mythos Preview è stato in grado di rintracciare una vulnerabilità vecchia di 27 anni nel sistema di sicurezza OpenBSD; un bug di 16 anni in FFmpeg, uno dei codec video più usati al mondo, che nessun altro era mai riuscito a vedere; è riuscito persino a individuare una falla nella memoria in un Virtual Machine Monitor scritto nel linguaggio Rust, considerato sicuro per la progettazione.
Insomma, Mythos è troppo potente per essere messo alla mercé di tutti. Il pericolo che finisca nelle mani sbagliate è alto e non si può correrlo. Un esempio di quello che potrebbe accadere arriva proprio da Anthropic. A fine anno scorso, l’azienda aveva riconosciuto che un gruppo di hacker sostenuto dalla Cina si era intrufolato nel suo modello Claude per un’operazione di spionaggio.
Per questo Mythos, fanno sapere da Anthropic, verrà rilasciato solo quando sarà davvero sicuro. “Claude Mythos 2 Preview è un modello di frontiera generico, non ancora rilasciato, che rivela un dato di fatto inequivocabile” si legge sul blog dell’azienda. “I modelli di intelligenza artificiale hanno raggiunto un livello di capacità di programmazione tale da poter superare tutti, tranne gli esseri umani più esperti, nell’individuazione e nello sfruttamento delle vulnerabilità del software. Non passerà molto tempo” prima che le capacità di attacco tramite IA “si diffondano con gravi conseguenze, per l’economia, la sicurezza pubblica e nazionale”.
Pertanto, invece di renderlo disponibile per chiunque, Anthropic rilascerà una versione molto simile di Mythos ad alcune aziende attraverso il programma di Anthropic “Trusted Access for Cyber“. Tra i beneficiari si registrano Amazon Web Service, Apple, Broadcom, Cisco, CrowdStrike, JPMorgan Chase, Linux Foundation, Microsoft, Nvidia, Palo Alto Networks. Insieme ad altre quaranta organizzazioni rientrano nel Project Glasswing, un’iniziativa sempre targata Anthropic che punta all’utilizzo dell’intelligenza artificiale come argine degli attacchi informatici. Si tratta di un’alleanza difensiva tra Big Tech, che prende il nome della farfalla dalle ali trasparenti proprio per sottolineare la vulnerabilità dei software di fronte a minacce nascoste. Un’IA in grado di proteggere dall’IA, insomma. Soprattutto, che sia in grado di difendere i software strategici, come quelli che alimentano infrastrutture chiave, ad esempio energetiche. Protagonista del progetto sarà proprio Claude Mythos 2 Preview, ma solo perché ad usarlo saranno persone competenti.
Può sembrare strano che uno strumento pensato come scudo difensivo dalle minacce possa trasformarsi in un cavallo di Troia. Eppure è esattamente così. L’IA sta entrando in una nuova era. Automatizzare la ricerca delle vulnerabilità presenta dei benefici enormi e, al contempo, dei rischi tutt’altro che banali. Anthropic, che fa della moralità e dell’etica i suoi punti fermi, ne è perfettamente consapevole. E per questo, in un momento in cui tutti si apprestano a rilasciare i loro modelli, ha deciso di tirare il freno a mano.
















