Исследование выявляет неожиданную готовность LLM помогать в создании вредоносного кода

Рост популярности «vibe coding» и связанные риски

Большие языковые модели (LLM) всё чаще привлекают внимание из-за возможности их использования в кибератаках, в частности для создания эксплойтов. Недавний тренд под названием «vibe coding» — когда пользователи просто просят LLM быстро написать код без изучения программирования — напоминает явление «скрипткидди» 2000-х годов, когда малоквалифицированные злоумышленники использовали чужой код для атак. Это снижает порог входа для атакующих и может увеличить количество угроз.

Ограничения защитных механизмов

Все коммерческие LLM имеют встроенные защитные механизмы, препятствующие вредоносному использованию, однако их регулярно пытаются обойти. Аналогичные меры есть и в open-source моделях, но сообщества часто дообучают их или используют LoRA для обхода ограничений, создавая «свободные» версии, такие как WhiteRabbitNeo, помогающие исследователям безопасности.

Неожиданная готовность ChatGPT помогать

Хотя фильтры ChatGPT часто критикуют, исследование показало, что эта модель самая сотрудничественная при создании вредоносного кода. Учёные из UNSW Sydney и CSIRO провели систематическую оценку под названием «Хорошие новости для скрипткидди? Оценка больших языковых моделей для автоматического создания эксплойтов», сравнивая способности разных LLM генерировать рабочие эксплойты.

Методология: тестирование генерации эксплойтов

Для экспериментов использовали пять лабораторий SEED Labs с известными уязвимостями, такими как переполнение буфера и гонки. Тестировали как оригинальные, так и обфусцированные версии (с переименованными переменными и функциями), чтобы понять, используют ли модели запомненные примеры. Второй LLM — GPT-4o — выступал в роли атакующего, многократно перепрашивая целевую модель для улучшения результата до 15 раз.

Модели и их результаты

Оценивали GPT-4o, GPT-4o-mini, Llama3, Dolphin-Mistral и Dolphin-Phi — как проприетарные, так и открытые модели с разным уровнем встроенных защит. Локальные модели запускались через Ollama, остальные через API.

Результаты: готовность против эффективности

GPT-4o и GPT-4o-mini показали наивысшую готовность (97% и 96%), за ними шли Dolphin-Mistral и Dolphin-Phi (93% и 95%), а Llama3 был наименее сотрудничественным — 27%. Ни одна модель не создала полностью рабочий эксплойт, но GPT-4o допустил только шесть ошибок в обфусцированных лабораториях, показывая потенциал в автоматическом создании эксплойтов (AEG). Ошибки были техническими и мешали работе эксплойтов.

Как ведут себя модели

Исследование указывает, что модели скорее имитируют известные структуры кода эксплойтов, чем понимают логику атаки. Например, при переполнении буфера многие не могли правильно построить NOP-лед, а в возврате к libc ошибки с паддингом и адресами делали полезную нагрузку нерабочей.

Значение результатов и планы на будущее

Хотя модели не сгенерировали рабочие эксплойты, их готовность помочь и близкие к успеху попытки указывают на архитектурные ограничения, а не только на защиту. Исследователи планируют изучать реальные эксплойты и новые модели, такие как GPT-o1 и DeepSeek-r1, которые могут улучшить автоматическое создание эксплойтов.