Meta AI представила LlamaFirewall: открытый инструмент безопасности для автономных AI-агентов
Meta AI представила LlamaFirewall — комплексный открытый инструмент для защиты автономных AI-агентов от ключевых угроз безопасности, включая внедрение подсказок и небезопасный код.
Рост угроз безопасности для автономных AI-агентов
С развитием автономности AI-агентов, способных писать рабочий код, управлять рабочими процессами и взаимодействовать с ненадежными источниками данных, растут и риски безопасности. Для решения этих проблем Meta AI выпустила LlamaFirewall — открытую систему защитных барьеров, обеспечивающую системный уровень безопасности для AI-агентов в промышленной эксплуатации.
Основные задачи безопасности
AI-агенты на базе больших языковых моделей (LLM) все чаще встроены в приложения с повышенными привилегиями: чтение почты, генерация кода, выполнение API-запросов. Традиционные меры безопасности, такие как модерация чатботов и жесткие ограничения моделей, уже недостаточны. LlamaFirewall направлен на три ключевые угрозы:
- Атаки с внедрением подсказок (prompt injection): злонамеренные вводы, изменяющие поведение агента напрямую или косвенно.
- Несоответствие агента: действия агента не совпадают с целями пользователя.
- Небезопасная генерация кода: выпуск уязвимого или опасного кода LLM-помощниками.
Основные компоненты LlamaFirewall
Система включает три специализированных защитных слоя, каждый решает определенный класс угроз:
-
PromptGuard 2 Классификатор на базе архитектуры BERT, обнаруживающий jailbreak и попытки внедрения подсказок в реальном времени. Поддерживает многоязычный ввод. Доступны две версии модели: 86M параметров для высокой точности и легковесная 22M для приложений с ограниченными ресурсами. Обеспечивает минимальное число ложных срабатываний.
-
AlignmentCheck Экспериментальный инструмент аудита, оценивающий, соответствует ли поведение агента целям пользователя, анализируя внутренние рассуждения агента. Работает на больших языковых моделях, таких как Llama 4 Maverick, эффективно выявляя косвенные атаки и захват целей.
-
CodeShield Статический анализатор кода, проверяющий сгенерированный LLM код на наличие небезопасных паттернов. Использует Semgrep и регулярные выражения для анализа синтаксиса в разных языках программирования. Помогает выявлять распространенные уязвимости, например, риски SQL-инъекций, до выполнения кода.
Результаты тестирования
Meta провела оценку LlamaFirewall с помощью AgentDojo — набора тестов, моделирующего атаки с внедрением подсказок в 97 задачах. Итоги:
- PromptGuard 2 (86M) снизил успешность атак с 17.6% до 7.5% при минимальном снижении полезности задач.
- AlignmentCheck достиг еще более низкого уровня атак — 2.9%, но с увеличенной вычислительной нагрузкой.
- В совокупности система уменьшила успешность атак на 90% — до 1.75%, с незначительным снижением полезности до 42.7%.
CodeShield показал 96% точности и 79% полноты на размеченных данных уязвимого кода, с временем отклика, подходящим для использования в реальном времени.
Перспективы развития
Meta планирует:
- Расширить защиту на мультимодальных агентов, работающих с изображениями и аудио.
- Повысить эффективность, снижая задержки AlignmentCheck с помощью дистилляции моделей.
- Расширить зону угроз, включая вредоносное использование инструментов и динамическое управление поведением.
- Создать более комплексные бенчмарки для оценки безопасности агентов в сложных рабочих процессах.
LlamaFirewall задает новый стандарт модульной и комплексной защиты AI-агентов, объединяя детекцию шаблонов, семантический анализ и статический анализ кода для снижения ключевых рисков в автономных системах на базе LLM.
Дополнительные материалы доступны на страницах статьи, кода и проекта.
Switch Language
Read this article in English