NVIDIA представила открытый фреймворк безопасности для защиты агентных ИИ-систем

Рост агентных ИИ и связанные с ним вызовы

Большие языковые модели (LLM) развиваются от простых генераторов текста до агентных ИИ-систем, способных планировать, рассуждать и действовать автономно. Эти возможности открывают новые горизонты автоматизации для предприятий, но одновременно повышают риски: несоответствие целей, атаки через инъекции запросов, непредвиденное поведение, утечки данных и снижение контроля со стороны человека.

Комплексное решение безопасности от NVIDIA

Для решения этих проблем NVIDIA разработала и открыла исходный код полного набора программного обеспечения и рецепта безопасности после обучения, направленных на защиту агентных ИИ на протяжении всего их жизненного цикла.

Защита на всех этапах жизненного цикла

Рецепт безопасности охватывает все стадии — от оценки перед развертыванием, через дообучение, до постоянной защиты в работе:

Оценка: тестирование перед развертыванием в соответствии с корпоративными политиками, требованиями безопасности и уровнями доверия с использованием открытых датасетов и эталонов.
Дообучение: улучшение моделей с помощью обучения с подкреплением (RL), контролируемой донастройки (SFT) и смешивания датасетов для соответствия требованиям безопасности.
Постоянная защита: внедрение NeMo Guardrails и микросервисов мониторинга в реальном времени, которые блокируют небезопасные ответы и защищают от инъекций запросов и взломов.

Основные компоненты и технологии

| Этап | Технологии/Инструменты | Цель | |------------------------|--------------------------------------|------------------------------------------| | Оценка перед развертыванием | Nemotron Content Safety Dataset, WildGuardMix, garak scanner | Тестирование безопасности | | Дообучение | RL, SFT, открытые датасеты | Дообучение и выравнивание безопасности | | Развертывание и вывод | NeMo Guardrails, NIM микросервисы | Блокировка небезопасного поведения | | Мониторинг и обратная связь | garak, аналитика в реальном времени | Выявление и противодействие новым атакам |

Открытые датасеты для безопасности

Nemotron Content Safety Dataset v2: Проверяет широкий спектр вредоносного поведения.
WildGuardMix Dataset: Фокусируется на модерации контента с неоднозначными и враждебными запросами.
Aegis Content Safety Dataset: Более 35 000 аннотированных примеров для тонкой настройки фильтров безопасности.

Рецепт безопасности после обучения с открытым исходным кодом

Рецепт доступен в виде Jupyter ноутбука или облачного модуля. Последовательность действий:

Исходная оценка модели по безопасности и надежности.
Обучение с подкреплением и контролируемая донастройка на основе реакции модели.
Повторная оценка для подтверждения улучшений.
Развертывание с мониторингом и защитными микросервисами.

Количественные результаты

Безопасность контента улучшилась с 88% до 94% без потери точности.
Защищенность от атак с вредоносными запросами выросла с 56% до 63%.

Взаимодействие с экосистемой

NVIDIA сотрудничает с лидерами кибербезопасности (Cisco AI Defense, CrowdStrike, Trend Micro, Active Fence) для интеграции непрерывных сигналов безопасности и оперативного реагирования.

Как начать

Весь рецепт безопасности и инструменты доступны бесплатно для скачивания и облачного развертывания. Предприятия могут задавать собственные политики и последовательно укреплять модели, чтобы поддерживать доверие в условиях новых угроз.

Ознакомьтесь с AI safety recipe от NVIDIA для надежной и прозрачной защиты агентных ИИ-систем.