UC Berkeley представляет CyberGym: масштабный бенчмарк для оценки AI в кибербезопасности на реальных уязвимостях больших кодовых баз

Растущая роль ИИ в кибербезопасности

Кибербезопасность всё больше связана с искусственным интеллектом, поскольку программные системы становятся крупнее и сложнее. Традиционные методы защиты уже недостаточны; современные задачи требуют от ИИ автоматизированного анализа, обнаружения уязвимостей и глубокого понимания кода. Чтобы справиться с такими вызовами, инструменты ИИ должны проходить тестирование в реалистичных условиях, отражающих сложность больших программных экосистем.

Проблемы существующих бенчмарков

Многие текущие бенчмарки для оценки ИИ в кибербезопасности упрощены. Они часто используют небольшие задачи, не отражающие сложность уязвимостей в крупных и активно поддерживаемых кодовых базах. Такие тесты не моделируют реальные условия, где ошибки скрываются глубоко в миллионах строк кода, требуя сложного анализа и рассуждений. Из-за этого сложно понять, насколько можно доверять ИИ для критически важных задач безопасности.

Представляем CyberGym: всесторонний бенчмарк

Инструмент CyberGym от UC Berkeley решает эти проблемы, предоставляя крупномасштабную и реалистичную платформу оценки. В CyberGym включено 1507 задач, основанных на реальных уязвимостях, найденных и исправленных в 188 крупных open-source проектах. Эти уязвимости были обнаружены с помощью OSS-Fuzz от Google и сопровождаются полными исходными кодами до патча, исполняемыми файлами и подробным описанием.

Задача ИИ — сгенерировать proof-of-concept (PoC), который воспроизводит уязвимость в непатченном коде и не срабатывает на исправленном. Это требует от агентов обходить сложные участки кода и синтезировать входные данные в реальных условиях. CyberGym модульный и контейнеризированный, что упрощает расширение и воспроизводимость.

Многоуровневая система оценки

Оценка в CyberGym разделена на четыре уровня сложности с растущим объёмом информации:

Уровень 0: только код, без подсказок.
Уровень 1: добавлено текстовое описание уязвимости.
Уровень 2: включён эталонный PoC и стек сбоев.
Уровень 3: предоставлен патч и код после исправления.

Каждый уровень требует более глубоких рассуждений. Например, на уровне 1 агент должен самостоятельно определить местоположение и контекст уязвимости по описанию и коду. Для качества данных CyberGym проверяет воспроизводимость PoC и удаляет дубли по стеку сбоев.

Набор данных содержит кодовые базы со средним размером в 1117 файлов и около 387 тысяч строк кода, иногда достигая 40 тысяч файлов и 7 миллионов строк. Уязвимости затрагивают разные типы сбоев, наиболее распространены heap-buffer-overflow READ и использование неинициализированных значений.

Результаты экспериментов

Тестирование ведущих AI-агентов выявило значительные сложности:

Лучший результат показал OpenHands с Claude-3.7-Sonnet — 11.9% воспроизведённых уязвимостей.
Успех резко падал для длинных PoC — менее 8% для входных данных свыше 100 байт.
Открытые модели, например DeepSeek-V3, достигали только 3.6%.
Специализированные модели с дообучением — ниже 2%.
При большем объёме вводных данных показатели улучшались, максимум 17.1% на уровне 3.

Большинство успешных эксплойтов создавались в первые 20–40 шагов выполнения, после 80 шагов эффективность падала. Агентам удалось обнаружить 15 ранее неизвестных zero-day уязвимостей и две раскрытые, но не исправленные, что демонстрирует их реальный потенциал.

Основные выводы

CyberGym — крупнейший и наиболее реалистичный бенчмарк для оценки ИИ в кибербезопасности.
Современные AI-агенты имеют серьёзные ограничения в воспроизведении и обнаружении уязвимостей.
Предоставление дополнительного контекста значительно повышает эффективность агентов.
Длинные и сложные PoC остаются серьёзной проблемой.
Взаимодействие агентов с инструментами во время выполнения улучшает генерацию эксплойтов.

CyberGym открывает новые возможности для глубокого тестирования ИИ в области безопасности, подчёркивая разрыв между существующими возможностями и требованиями реальных задач, а также демонстрируя перспективы дальнейших достижений.