La ricerca di Anthropic dimostra che gli agenti AI si stanno avvicinando alla reale capacità di attacco DeFi
I modelli testati da MATS e dal programma Anthropic Fellows hanno generato script di exploit chiavi in mano e identificato nuove vulnerabilità, suggerendo che lo sfruttamento automatizzato sta diventando tecnicamente ed economicamente sostenibile.

Cosa sapere:
- Gli agenti di intelligenza artificiale sono ora in grado di individuare e sfruttare vulnerabilità nei smart contract, rappresentando una potenziale minaccia come dimostrato da ricerche recenti.
- Modelli come GPT-5 e Sonnet 4.5 hanno simulato con successo exploit, rivelando la fattibilità di attacchi autonomi nella finanza decentralizzata (DeFi).
- I ricercatori avvertono che, con il progresso e la riduzione dei costi dei modelli di intelligenza artificiale, il rischio di sfruttamento automatizzato si estende oltre la DeFi a vulnerabilità più ampie del software e delle infrastrutture.
Gli agenti di intelligenza artificiale stanno diventando sufficientemente abili nell'individuare vettori di attacco nei contratti intelligenti, tanto che possono già essere utilizzati come armi da attori malintenzionati, secondo una nuova ricerca pubblicato dal programma Anthropic Fellows.
Uno studio condotto dal programma ML Alignment & Theory Scholars (MATS) e dal programma Anthropic Fellows ha testato modelli all'avanguardia con SCONE-bench, un dataset di 405 contratti sfruttati. GPT-5, Claude Opus 4.5 e Sonnet 4.5 hanno generato collettivamente 4,6 milioni di dollari in exploit simulati su contratti hackerati dopo le loro date di cutoff delle conoscenze, offrendo un limite inferiore su quanto questa generazione di AI avrebbe potuto sottrarre nel mondo reale.

Il team ha scoperto che i modelli frontier non si limitavano a identificare i bug. Sono stati in grado di sintetizzare script di exploit completi, sequenziare le transazioni e drenare la liquidità simulata in modi che rispecchiano da vicino gli attacchi reali sulle blockchain di Ethereum e BNB Chain.
Il documento ha inoltre verificato se i modelli attuali fossero in grado di individuare vulnerabilità non ancora sfruttate.
GPT-5 e Sonnet 4.5 hanno esaminato 2.849 contratti recentemente implementati sulla BNB Chain che non mostravano segni di compromissione precedente. Entrambi i modelli hanno rilevato due vulnerabilità zero-day del valore di 3.694 $ di profitto simulato. Uno derivava da un modificatore di visualizzazione mancante in una funzione pubblica che ha permesso all'agente di gonfiare il proprio saldo di token.
Un altro ha permesso a un chiamante di reindirizzare i prelievi delle commissioni fornendo un indirizzo beneficiario arbitrario. In entrambi i casi, gli agenti hanno generato script eseguibili che hanno trasformato la falla in profitto.
Sebbene gli importi in dollari fossero modesti, la scoperta è significativa perché dimostra che lo sfruttamento autonomo redditizio è tecnicamente fattibile.
Il costo per eseguire l'agente sull'intero insieme di contratti è stato di soli 3.476 dollari, mentre il costo medio per esecuzione è stato di 1,22 dollari. Con il diminuire dei costi e l'aumento delle capacità dei modelli, l'economia si orienta sempre di più verso l'automazione.
I ricercatori sostengono che questa tendenza ridurrà la finestra temporale tra il dispiegamento del contratto e l'attacco, specialmente negli ambienti DeFi, dove il capitale è pubblicamente visibile e i bug sfruttabili possono essere monetizzati istantaneamente.
Sebbene i risultati si concentrino sulla DeFi, gli autori avvertono che le capacità sottostanti non sono specifiche di un dominio.
Gli stessi passaggi logici che consentono a un agente di gonfiare un saldo di token o di reindirizzare le commissioni possono applicarsi anche al software convenzionale, a basi di codice closed-source e all'infrastruttura che supporta i mercati crypto.
Con la riduzione dei costi dei modelli e il miglioramento nell’uso degli strumenti, la scansione automatizzata è destinata a espandersi oltre gli smart contract pubblici, estendendosi a qualsiasi servizio lungo il percorso verso asset di valore.
Gli autori inquadrano il lavoro più come un avvertimento che come una previsione. I modelli di intelligenza artificiale possono ora svolgere compiti che storicamente richiedevano attaccanti umani altamente qualificati, e la ricerca suggerisce che lo sfruttamento autonomo nella DeFi non è più ipotetico.
La domanda ora per i costruttori di criptovalute è quanto rapidamente la difesa possa recuperare.