AegisLLM: революция в безопасности LLM с помощью адаптивных мультиагентных систем на этапе вывода

Усиливающиеся угрозы для больших языковых моделей

Большие языковые модели (LLM) становятся все более уязвимыми к сложным атакам, таким как внедрение вредоносных подсказок, обход ограничений (jailbreaking) и несанкционированное извлечение конфиденциальных данных. Традиционные методы защиты, основанные на статических мерах во время обучения, оказываются недостаточными из-за постоянно меняющегося характера этих угроз. Статические фильтры легко обходятся незначительными изменениями, а вмешательства во время обучения часто не справляются с новыми уязвимостями, обнаруживаемыми после развертывания моделей. Методы машинного забывания не гарантируют полного удаления чувствительной информации, что повышает риск утечек. Большинство существующих стратегий безопасности сосредоточены на мерах во время обучения с ограниченным вниманием к защите в режиме реального времени и на системном уровне.

Недостатки существующих методов безопасности

Подходы, такие как обучение с подкреплением через обратную связь от человека (RLHF) и донастройка безопасности, улучшают согласованность моделей во время обучения, но обладают ограниченной эффективностью против новых атак после развертывания. Дополнительные системные ограничения и стратегии красной команды усиливают защиту, но остаются уязвимыми к враждебным воздействиям. Попытки «забыть» небезопасное поведение показывают потенциал, но не позволяют полностью подавить нежелательные знания. Мультиагентные архитектуры хорошо подходят для распределения сложных задач, однако их применение для обеспечения безопасности LLM на этапе вывода практически не исследовано. Существующие методы агентной оптимизации, такие как TEXTGRAD, OPTO и DSPy, направлены на итеративное улучшение и оптимизацию подсказок, но систематически не применяются для повышения безопасности во время вывода.

Представляем AegisLLM: адаптивную мультиагентную систему безопасности

AegisLLM, разработанная исследователями из Университета Мэриленда, Национальной лаборатории Лоуренса Ливермора и Capital One, предлагает новый подход к обеспечению безопасности LLM через кооперативную мультиагентную систему, работающую во время вывода. В этой системе автономные агенты на базе LLM совместно обнаруживают, анализируют и снижают угрозы. Ключевые компоненты включают Оркестратора, Отражателя, Ответчика и Оценщика. С помощью автоматической оптимизации подсказок и байесовского обучения AegisLLM динамически совершенствует защиту без необходимости повторного обучения модели. Такой подход обеспечивает адаптацию в реальном времени к новым стратегиям атак при сохранении полезности модели.

Координированный конвейер агентов и автоматическая оптимизация подсказок

Работа AegisLLM основана на координированном конвейере специализированных агентов, каждый из которых выполняет определённую функцию, управляемую системными подсказками, определяющими их поведение. Ручное создание подсказок часто не обеспечивает оптимальную эффективность в сложных задачах безопасности, поэтому система проводит итеративную автоматическую оптимизацию подсказок. На каждом этапе тестируются партии запросов с разными конфигурациями подсказок для максимизации эффективности каждого агента в обнаружении и нейтрализации угроз.

Оценка эффективности на бенчмарках безопасности

На бенчмарке WMDP с использованием модели Llama-3-8B AegisLLM достигает минимальной точности на ограниченных темах, что свидетельствует о сильных фильтрующих возможностях. На бенчмарке TOFU система показывает почти идеальную точность распознавания угроз на моделях Llama-3-8B, Qwen2.5-72B и DeepSeek-R1, при этом Qwen2.5-72B достигает почти 100% точности. В защите от обхода ограничений (jailbreaking) AegisLLM демонстрирует высокую эффективность, сохраняя корректные ответы на легитимные запросы, с конкурентным показателем StrongREJECT 0.038 и уровнем соответствия 88.5% без необходимости масштабного переобучения.

Новый взгляд на безопасность LLM: динамическая координация агентов

AegisLLM меняет представление о безопасности LLM, рассматривая её как возникающее свойство от скоординированной работы специализированных агентов во время вывода, а не как статическую характеристику модели. Такой подход устраняет ограничения предыдущих методов, обеспечивая масштабируемую и адаптивную защиту, способную реагировать в реальном времени на новые угрозы. По мере роста возможностей языковых моделей, такие системы, как AegisLLM, станут ключевыми для ответственного и безопасного использования искусственного интеллекта.

Для подробностей ознакомьтесь с статьёй и страницей GitHub. Все заслуги принадлежат исследователям этого проекта.