UC Berkeley представляет CyberGym: масштабный бенчмарк для оценки AI в кибербезопасности на реальных уязвимостях больших кодовых баз
UC Berkeley представил CyberGym — обширный бенчмарк для оценки AI-агентов на реальных уязвимостях в крупных программных проектах, раскрывающий возможности и ограничения современных моделей.
Растущая роль ИИ в кибербезопасности
Кибербезопасность всё больше связана с искусственным интеллектом, поскольку программные системы становятся крупнее и сложнее. Традиционные методы защиты уже недостаточны; современные задачи требуют от ИИ автоматизированного анализа, обнаружения уязвимостей и глубокого понимания кода. Чтобы справиться с такими вызовами, инструменты ИИ должны проходить тестирование в реалистичных условиях, отражающих сложность больших программных экосистем.
Проблемы существующих бенчмарков
Многие текущие бенчмарки для оценки ИИ в кибербезопасности упрощены. Они часто используют небольшие задачи, не отражающие сложность уязвимостей в крупных и активно поддерживаемых кодовых базах. Такие тесты не моделируют реальные условия, где ошибки скрываются глубоко в миллионах строк кода, требуя сложного анализа и рассуждений. Из-за этого сложно понять, насколько можно доверять ИИ для критически важных задач безопасности.
Представляем CyberGym: всесторонний бенчмарк
Инструмент CyberGym от UC Berkeley решает эти проблемы, предоставляя крупномасштабную и реалистичную платформу оценки. В CyberGym включено 1507 задач, основанных на реальных уязвимостях, найденных и исправленных в 188 крупных open-source проектах. Эти уязвимости были обнаружены с помощью OSS-Fuzz от Google и сопровождаются полными исходными кодами до патча, исполняемыми файлами и подробным описанием.
Задача ИИ — сгенерировать proof-of-concept (PoC), который воспроизводит уязвимость в непатченном коде и не срабатывает на исправленном. Это требует от агентов обходить сложные участки кода и синтезировать входные данные в реальных условиях. CyberGym модульный и контейнеризированный, что упрощает расширение и воспроизводимость.
Многоуровневая система оценки
Оценка в CyberGym разделена на четыре уровня сложности с растущим объёмом информации:
- Уровень 0: только код, без подсказок.
- Уровень 1: добавлено текстовое описание уязвимости.
- Уровень 2: включён эталонный PoC и стек сбоев.
- Уровень 3: предоставлен патч и код после исправления.
Каждый уровень требует более глубоких рассуждений. Например, на уровне 1 агент должен самостоятельно определить местоположение и контекст уязвимости по описанию и коду. Для качества данных CyberGym проверяет воспроизводимость PoC и удаляет дубли по стеку сбоев.
Набор данных содержит кодовые базы со средним размером в 1117 файлов и около 387 тысяч строк кода, иногда достигая 40 тысяч файлов и 7 миллионов строк. Уязвимости затрагивают разные типы сбоев, наиболее распространены heap-buffer-overflow READ и использование неинициализированных значений.
Результаты экспериментов
Тестирование ведущих AI-агентов выявило значительные сложности:
- Лучший результат показал OpenHands с Claude-3.7-Sonnet — 11.9% воспроизведённых уязвимостей.
- Успех резко падал для длинных PoC — менее 8% для входных данных свыше 100 байт.
- Открытые модели, например DeepSeek-V3, достигали только 3.6%.
- Специализированные модели с дообучением — ниже 2%.
- При большем объёме вводных данных показатели улучшались, максимум 17.1% на уровне 3.
Большинство успешных эксплойтов создавались в первые 20–40 шагов выполнения, после 80 шагов эффективность падала. Агентам удалось обнаружить 15 ранее неизвестных zero-day уязвимостей и две раскрытые, но не исправленные, что демонстрирует их реальный потенциал.
Основные выводы
- CyberGym — крупнейший и наиболее реалистичный бенчмарк для оценки ИИ в кибербезопасности.
- Современные AI-агенты имеют серьёзные ограничения в воспроизведении и обнаружении уязвимостей.
- Предоставление дополнительного контекста значительно повышает эффективность агентов.
- Длинные и сложные PoC остаются серьёзной проблемой.
- Взаимодействие агентов с инструментами во время выполнения улучшает генерацию эксплойтов.
CyberGym открывает новые возможности для глубокого тестирования ИИ в области безопасности, подчёркивая разрыв между существующими возможностями и требованиями реальных задач, а также демонстрируя перспективы дальнейших достижений.
Switch Language
Read this article in English