NVIDIA представила открытый фреймворк безопасности для защиты агентных ИИ-систем
NVIDIA представила открытый рецепт безопасности для агентных ИИ-систем, обеспечивающий инструменты для оценки, дообучения и мониторинга в реальном времени для повышения безопасности и соответствия.
Рост агентных ИИ и связанные с ним вызовы
Большие языковые модели (LLM) развиваются от простых генераторов текста до агентных ИИ-систем, способных планировать, рассуждать и действовать автономно. Эти возможности открывают новые горизонты автоматизации для предприятий, но одновременно повышают риски: несоответствие целей, атаки через инъекции запросов, непредвиденное поведение, утечки данных и снижение контроля со стороны человека.
Комплексное решение безопасности от NVIDIA
Для решения этих проблем NVIDIA разработала и открыла исходный код полного набора программного обеспечения и рецепта безопасности после обучения, направленных на защиту агентных ИИ на протяжении всего их жизненного цикла.
Защита на всех этапах жизненного цикла
Рецепт безопасности охватывает все стадии — от оценки перед развертыванием, через дообучение, до постоянной защиты в работе:
- Оценка: тестирование перед развертыванием в соответствии с корпоративными политиками, требованиями безопасности и уровнями доверия с использованием открытых датасетов и эталонов.
- Дообучение: улучшение моделей с помощью обучения с подкреплением (RL), контролируемой донастройки (SFT) и смешивания датасетов для соответствия требованиям безопасности.
- Постоянная защита: внедрение NeMo Guardrails и микросервисов мониторинга в реальном времени, которые блокируют небезопасные ответы и защищают от инъекций запросов и взломов.
Основные компоненты и технологии
| Этап | Технологии/Инструменты | Цель | |------------------------|--------------------------------------|------------------------------------------| | Оценка перед развертыванием | Nemotron Content Safety Dataset, WildGuardMix, garak scanner | Тестирование безопасности | | Дообучение | RL, SFT, открытые датасеты | Дообучение и выравнивание безопасности | | Развертывание и вывод | NeMo Guardrails, NIM микросервисы | Блокировка небезопасного поведения | | Мониторинг и обратная связь | garak, аналитика в реальном времени | Выявление и противодействие новым атакам |
Открытые датасеты для безопасности
- Nemotron Content Safety Dataset v2: Проверяет широкий спектр вредоносного поведения.
- WildGuardMix Dataset: Фокусируется на модерации контента с неоднозначными и враждебными запросами.
- Aegis Content Safety Dataset: Более 35 000 аннотированных примеров для тонкой настройки фильтров безопасности.
Рецепт безопасности после обучения с открытым исходным кодом
Рецепт доступен в виде Jupyter ноутбука или облачного модуля. Последовательность действий:
- Исходная оценка модели по безопасности и надежности.
- Обучение с подкреплением и контролируемая донастройка на основе реакции модели.
- Повторная оценка для подтверждения улучшений.
- Развертывание с мониторингом и защитными микросервисами.
Количественные результаты
- Безопасность контента улучшилась с 88% до 94% без потери точности.
- Защищенность от атак с вредоносными запросами выросла с 56% до 63%.
Взаимодействие с экосистемой
NVIDIA сотрудничает с лидерами кибербезопасности (Cisco AI Defense, CrowdStrike, Trend Micro, Active Fence) для интеграции непрерывных сигналов безопасности и оперативного реагирования.
Как начать
Весь рецепт безопасности и инструменты доступны бесплатно для скачивания и облачного развертывания. Предприятия могут задавать собственные политики и последовательно укреплять модели, чтобы поддерживать доверие в условиях новых угроз.
Ознакомьтесь с AI safety recipe от NVIDIA для надежной и прозрачной защиты агентных ИИ-систем.
Switch Language
Read this article in English