OpenAI выпустила бенчмарк для оценки способности ИИ-агентов взламывать смарт-контракты

img-ca55ff87898d6d28-5343455766779688

Компания OpenAI совместно с Paradigm представила EVMbench — бенчмарк для оценки способности ИИ-агентов выявлять, исправлять и эксплуатировать бреши в смарт-контрактах.

Инструмент основан на 120 отобранных уязвимостях из 40 аудитов. Большинство примеров взяты из открытых платформ по анализу кода. Также он включает несколько сценариев атак из проверки безопасности блокчейна Tempo — специализированной сети первого уровня, разработанной Stripe и Paradigm для высокопроизводительных и недорогих платежей в стейблкоинах.

Интеграция с Tempo позволила добавить в бенчмарк платежные смарт-контракты — сегмент, где ожидается активное применение «стабильных монет» и ИИ-агентов.

«Смарт-контракты защищают криптоактивы на сумму более $100 млрд. По мере того, как ИИ-агенты совершенствуются в чтении, написании и исполнении кода, становится все важнее измерять их возможности в реальных экономических условиях и поощрять использование искусственного интеллекта в защитных целях — для аудита и укрепления уже развернутых протоколов», — говорится в анонсе.

Для создания тестовой среды OpenAI адаптировала существующие эксплойты и скрипты, предварительно убедившись в их практической применимости.

EVMbench оценивает три режима возможностей:

Detect — обнаружение уязвимостей;
Patch — устранение проблем;
Exploit — использование для кражи средств.

Результативность ИИ-моделей

OpenAI протестировала передовые модели во всех трех режимах. В категории Exploit модель GPT-5.3-Codex достигла 72,2%, GPT-5 — 31,9%. При этом показатели обнаружения и исправления уязвимостей оказались скромнее — многие проблемы по-прежнему сложно находить и устранять.

В Detect ИИ-агенты иногда останавливаются после нахождения одной уязвимости вместо проведения полного аудита. В режиме Patch им пока сложно закрывать неочевидные проблемы так, чтобы сохранить полную функциональность контракта.

«EVMbench не отражает всей сложности реальной безопасности смарт-контрактов. Хотя они реалистичны и критичны, многие протоколы проходят более строгий аудит и могут быть сложнее для эксплуатации», — подчеркнули в OpenAI.

Напомним, в ноябре 2025 года Microsoft представила среду для тестирования ИИ-агентов и выявила уязвимости, присущие современным цифровым помощникам.

Предыдущая статья

Xiaomi выводит на глобальный рынок флагманский телевизор QLED TV X Pro 75 (2026)

Следующая статья

AOC випускає ігровий WQHD-монітор Q27G4ZD на базі 27-дюймової матриці QD-OLED

0 0 голоса

Рейтинг статьи

0 комментариев

Старые

Новые Популярные

Межтекстовые Отзывы

Посмотреть все комментарии

OpenAI выпустила бенчмарк для оценки способности ИИ-агентов взламывать смарт-контракты

Результативность ИИ-моделей

Другие новости

Актуально

У альткоинов больше не осталось покупателей

Garmin намекает на большой релиз в 2026 году: аналитики ожидают появления новых премиальных часов серии Fenix

Pump.fun меняет модель вознаграждений

На рынке Solana появился первый сигнал капитуляции с 2022 года

Кевин О’Лири рассказал, почему крупные игроки боятся биткоина

Мнение: термоядерный синтез способен решить проблему дефицита энергии для ИИ

В марте из PS Plus удалят семь игр, включая TMNT: Shredder’s Revenge

Последние новости

В марте из PS Plus удалят семь игр, включая TMNT: Shredder’s Revenge

ИИ рассчитал цену XRP на 1 марта 2026 года

AOC випускає ігровий WQHD-монітор Q27G4ZD на базі 27-дюймової матриці QD-OLED

Xiaomi выводит на глобальный рынок флагманский телевизор QLED TV X Pro 75 (2026)

Мнение: термоядерный синтез способен решить проблему дефицита энергии для ИИ