Heute ist der 19.02.2026. Ein aufregendes neues Kapitel in der Sicherheit von Smart Contracts beginnt mit der Einführung von EVMbench, einem Benchmarking-System, das von OpenAI in Zusammenarbeit mit der Krypto-Investmentfirma Paradigm entwickelt wurde. Dieses innovative Werkzeug hat das Ziel, die Fähigkeiten von KI-Agenten zu bewerten, die auf der Ethereum Virtual Machine (EVM) arbeiten. Dabei steht die Identifizierung und Behebung von Sicherheitsanfälligkeiten im Fokus, die in der Vergangenheit zu erheblichen finanziellen Verlusten geführt haben. Smart Contracts sichern regelmäßig über 100 Milliarden US-Dollar in Open-Source-Krypto-Assets, was die Dringlichkeit eines effektiven Sicherheitsansatzes unterstreicht.
EVMbench basiert auf 120 kuratierten Sicherheitsanfälligkeiten, die aus 40 Repositories stammen. Diese Daten wurden hauptsächlich aus Code4rena-Audit-Wettbewerben und dem Sicherheitsprüfungsprozess der Tempo-Blockchain gesammelt. Tempo selbst ist eine speziell entwickelte Layer-1-Blockchain, die hochgradige und kostengünstige Zahlungen über Stablecoins ermöglicht. Die Benchmark-Tests werden in drei Modi durchgeführt: „Detect“, „Patch“ und „Exploit“. Im „Detect“-Modus prüfen die Agenten die Repositories auf bekannte Schwachstellen, im „Patch“-Modus ändern sie den Code, um diese Schwächen zu beheben, ohne das beabsichtigte Verhalten des Smart Contracts zu verändern. Der „Exploit“-Modus hingegen erlaubt es den Agenten, End-to-End-Angriffe in einer sandboxed Umgebung durchzuführen, um potenzielle Sicherheitsrisiken zu demonstrieren.
Innovative Ansätze zur Sicherheitsbewertung
Die Evaluierung findet in einer kontrollierten Umgebung statt, in der OpenAI ein auf Rust basierendes Re-Execution-Framework einsetzt. Dies gewährleistet schnelle, reproduzierbare und betrugsresistente Bewertungen der Agenten. Die ersten Ergebnisse zeigen, dass der GPT-5.3-Codex im „Exploit“-Modus eine Erfolgsquote von 72,2% erreicht hat, was einen signifikanten Anstieg im Vergleich zu 31,9% bei der vorherigen Version GPT-5 darstellt. Diese Verbesserung wird auf das klarere Ziel der Aufgaben zurückgeführt, die den Agenten gestellt werden.
Die Benchmark-Tools und das Evaluierungsframework von EVMbench sind öffentlich zugänglich, was bedeutet, dass Forscher und Entwickler zur Mitwirkung ermutigt werden. OpenAI hat zudem ein Cybersecurity Grant Program mit einem Budget von 10 Millionen US-Dollar ins Leben gerufen, um defensive Cybersecurity-Arbeiten zu unterstützen. Diese Finanzierung richtet sich insbesondere an Open-Source-Projekte und kritische Infrastrukturen, die Benutzer vor böswilligen Akteuren schützen können.
Herausforderungen und Ausblick
Trotz der Fortschritte hat EVMbench auch seine Herausforderungen. Die Rückruf- und Erfolgsraten im „Detect“- und „Patch“-Modus liegen weiterhin unter der vollständig abgedeckten Rate, was darauf hinweist, dass es noch erhebliche Lücken gibt, insbesondere bei der Bereitstellung umfassender, kontextbewusster Patches in komplexen Multi-Contract-Ökosystemen. Außerdem spiegeln die Sicherheitsanfälligkeiten, die in EVMbench verwendet werden, nicht die vollständige Schwierigkeit der realen Smart Contract-Sicherheit wider, da sie aus historischen und öffentlich dokumentierten Quellen stammen.
Vitalik Buterin hat zudem in der Diskussion um die Entwicklung von KI-gestützten Sicherheitstools einen dezentralen Ansatz gefordert und ethische Überlegungen angestoßen. Die Einführung eines rigorosen, branchenübergreifenden Benchmarks wird als notwendiger Schritt zur Schaffung eines vertrauenswürdigen Finanzsystems angesehen. In einer Zeit, in der im November 2025 bereits 1,7 Millionen Smart Contracts auf Ethereum bereitgestellt wurden, wird die Notwendigkeit von Sicherheitswerkzeugen immer deutlicher.
Insgesamt ist EVMbench ein vielversprechender Schritt in die Zukunft der Sicherheit von Smart Contracts und könnte dazu beitragen, die Blockchain-Technologie noch sicherer zu machen. Die Zusammenarbeit zwischen OpenAI und Paradigm zeigt, dass Innovation und Sicherheit Hand in Hand gehen können, um eine neue Generation von „sicherheitsorientierten“ KI-Agenten zu schaffen, die als autonome Prüfer agieren.
Für weiterführende Informationen zu diesem Thema, besuchen Sie die ausführliche Berichterstattung auf Techinformed und Finance Feeds.