<НА ГЛАВНУЮ

Meta AI представила LlamaFirewall: открытый инструмент безопасности для автономных AI-агентов

Meta AI представила LlamaFirewall — комплексный открытый инструмент для защиты автономных AI-агентов от ключевых угроз безопасности, включая внедрение подсказок и небезопасный код.

Рост угроз безопасности для автономных AI-агентов

С развитием автономности AI-агентов, способных писать рабочий код, управлять рабочими процессами и взаимодействовать с ненадежными источниками данных, растут и риски безопасности. Для решения этих проблем Meta AI выпустила LlamaFirewall — открытую систему защитных барьеров, обеспечивающую системный уровень безопасности для AI-агентов в промышленной эксплуатации.

Основные задачи безопасности

AI-агенты на базе больших языковых моделей (LLM) все чаще встроены в приложения с повышенными привилегиями: чтение почты, генерация кода, выполнение API-запросов. Традиционные меры безопасности, такие как модерация чатботов и жесткие ограничения моделей, уже недостаточны. LlamaFirewall направлен на три ключевые угрозы:

  • Атаки с внедрением подсказок (prompt injection): злонамеренные вводы, изменяющие поведение агента напрямую или косвенно.
  • Несоответствие агента: действия агента не совпадают с целями пользователя.
  • Небезопасная генерация кода: выпуск уязвимого или опасного кода LLM-помощниками.

Основные компоненты LlamaFirewall

Система включает три специализированных защитных слоя, каждый решает определенный класс угроз:

  1. PromptGuard 2 Классификатор на базе архитектуры BERT, обнаруживающий jailbreak и попытки внедрения подсказок в реальном времени. Поддерживает многоязычный ввод. Доступны две версии модели: 86M параметров для высокой точности и легковесная 22M для приложений с ограниченными ресурсами. Обеспечивает минимальное число ложных срабатываний.

  2. AlignmentCheck Экспериментальный инструмент аудита, оценивающий, соответствует ли поведение агента целям пользователя, анализируя внутренние рассуждения агента. Работает на больших языковых моделях, таких как Llama 4 Maverick, эффективно выявляя косвенные атаки и захват целей.

  3. CodeShield Статический анализатор кода, проверяющий сгенерированный LLM код на наличие небезопасных паттернов. Использует Semgrep и регулярные выражения для анализа синтаксиса в разных языках программирования. Помогает выявлять распространенные уязвимости, например, риски SQL-инъекций, до выполнения кода.

Результаты тестирования

Meta провела оценку LlamaFirewall с помощью AgentDojo — набора тестов, моделирующего атаки с внедрением подсказок в 97 задачах. Итоги:

  • PromptGuard 2 (86M) снизил успешность атак с 17.6% до 7.5% при минимальном снижении полезности задач.
  • AlignmentCheck достиг еще более низкого уровня атак — 2.9%, но с увеличенной вычислительной нагрузкой.
  • В совокупности система уменьшила успешность атак на 90% — до 1.75%, с незначительным снижением полезности до 42.7%.

CodeShield показал 96% точности и 79% полноты на размеченных данных уязвимого кода, с временем отклика, подходящим для использования в реальном времени.

Перспективы развития

Meta планирует:

  • Расширить защиту на мультимодальных агентов, работающих с изображениями и аудио.
  • Повысить эффективность, снижая задержки AlignmentCheck с помощью дистилляции моделей.
  • Расширить зону угроз, включая вредоносное использование инструментов и динамическое управление поведением.
  • Создать более комплексные бенчмарки для оценки безопасности агентов в сложных рабочих процессах.

LlamaFirewall задает новый стандарт модульной и комплексной защиты AI-агентов, объединяя детекцию шаблонов, семантический анализ и статический анализ кода для снижения ключевых рисков в автономных системах на базе LLM.

Дополнительные материалы доступны на страницах статьи, кода и проекта.

🇬🇧

Switch Language

Read this article in English

Switch to English