Meta AI представила LlamaFirewall: открытый инструмент безопасности для автономных AI-агентов

Рост угроз безопасности для автономных AI-агентов

С развитием автономности AI-агентов, способных писать рабочий код, управлять рабочими процессами и взаимодействовать с ненадежными источниками данных, растут и риски безопасности. Для решения этих проблем Meta AI выпустила LlamaFirewall — открытую систему защитных барьеров, обеспечивающую системный уровень безопасности для AI-агентов в промышленной эксплуатации.

Основные задачи безопасности

AI-агенты на базе больших языковых моделей (LLM) все чаще встроены в приложения с повышенными привилегиями: чтение почты, генерация кода, выполнение API-запросов. Традиционные меры безопасности, такие как модерация чатботов и жесткие ограничения моделей, уже недостаточны. LlamaFirewall направлен на три ключевые угрозы:

Атаки с внедрением подсказок (prompt injection): злонамеренные вводы, изменяющие поведение агента напрямую или косвенно.
Несоответствие агента: действия агента не совпадают с целями пользователя.
Небезопасная генерация кода: выпуск уязвимого или опасного кода LLM-помощниками.

Основные компоненты LlamaFirewall

Система включает три специализированных защитных слоя, каждый решает определенный класс угроз:

PromptGuard 2 Классификатор на базе архитектуры BERT, обнаруживающий jailbreak и попытки внедрения подсказок в реальном времени. Поддерживает многоязычный ввод. Доступны две версии модели: 86M параметров для высокой точности и легковесная 22M для приложений с ограниченными ресурсами. Обеспечивает минимальное число ложных срабатываний.
AlignmentCheck Экспериментальный инструмент аудита, оценивающий, соответствует ли поведение агента целям пользователя, анализируя внутренние рассуждения агента. Работает на больших языковых моделях, таких как Llama 4 Maverick, эффективно выявляя косвенные атаки и захват целей.
CodeShield Статический анализатор кода, проверяющий сгенерированный LLM код на наличие небезопасных паттернов. Использует Semgrep и регулярные выражения для анализа синтаксиса в разных языках программирования. Помогает выявлять распространенные уязвимости, например, риски SQL-инъекций, до выполнения кода.

Результаты тестирования

Meta провела оценку LlamaFirewall с помощью AgentDojo — набора тестов, моделирующего атаки с внедрением подсказок в 97 задачах. Итоги:

PromptGuard 2 (86M) снизил успешность атак с 17.6% до 7.5% при минимальном снижении полезности задач.
AlignmentCheck достиг еще более низкого уровня атак — 2.9%, но с увеличенной вычислительной нагрузкой.
В совокупности система уменьшила успешность атак на 90% — до 1.75%, с незначительным снижением полезности до 42.7%.

CodeShield показал 96% точности и 79% полноты на размеченных данных уязвимого кода, с временем отклика, подходящим для использования в реальном времени.

Перспективы развития

Meta планирует:

Расширить защиту на мультимодальных агентов, работающих с изображениями и аудио.
Повысить эффективность, снижая задержки AlignmentCheck с помощью дистилляции моделей.
Расширить зону угроз, включая вредоносное использование инструментов и динамическое управление поведением.
Создать более комплексные бенчмарки для оценки безопасности агентов в сложных рабочих процессах.

LlamaFirewall задает новый стандарт модульной и комплексной защиты AI-агентов, объединяя детекцию шаблонов, семантический анализ и статический анализ кода для снижения ключевых рисков в автономных системах на базе LLM.