Microsoft выпустила подробное руководство по режимам отказов в автономных AI-системах
AI Red Team Microsoft опубликовала подробную таксономию режимов отказов в автономных AI-системах, предоставляя ключевые рекомендации по обеспечению безопасности и надежности.
Что такое автономные AI-системы и какие у них вызовы
Автономные AI-системы — это сущности, которые самостоятельно наблюдают за окружением и взаимодействуют с ним для достижения заданных целей. Они обладают такими функциями, как автономность, наблюдение, взаимодействие с окружением, память и сотрудничество. Эти возможности расширяют функционал, но одновременно увеличивают поверхность для атак и создают новые проблемы безопасности.
Таксономия режимов отказов от Microsoft
AI Red Team Microsoft разработала подробную таксономию, которая классифицирует режимы отказов в автономных AI-системах по двум основным направлениям: безопасность и надежность. Каждое направление включает новые и уже известные типы отказов.
Новые угрозы безопасности включают компрометацию агента, внедрение, имитацию, манипуляции потоком и взломы с участием нескольких агентов.
Новые проблемы надежности касаются вопросов ответственного AI внутри агента, предвзятости при распределении ресурсов, деградации организационных знаний и рисков при приоритизации, влияющих на безопасность пользователей.
Известные угрозы безопасности охватывают отравление памяти, междоменное внедрение команд (XPIA), обходы с участием человека, ошибки управления правами и недостаточную изоляцию.
Известные проблемы надежности включают усиление предвзятости, галлюцинации, неправильное понимание инструкций и недостаток прозрачности для информированного согласия пользователей.
Каждый режим отказа подробно описан с указанием потенциальных последствий, мест возникновения и примеров.
Системные последствия отказов
В отчёте выделены эффекты, возникающие из-за отказов: несоответствие действий агента целям, злоупотребление возможностями агента, сбои в работе сервисов, ошибочные решения, потеря доверия пользователей, распространение влияния за пределы системы и утрата важных организационных знаний из-за чрезмерного доверия агентам.
Стратегии снижения рисков
Microsoft предлагает ряд рекомендаций для снижения рисков:
- Управление идентичностью: уникальные идентификаторы и детализированные роли для агентов.
- Защита памяти: создание доверенных границ и мониторинг доступа.
- Регулирование контроля потока: детерминирование путей выполнения рабочих процессов агента.
- Изоляция среды: ограничение взаимодействия агента в рамках определённых границ.
- Прозрачный UX-дизайн: обеспечение возможности информированного согласия пользователей.
- Логирование и мониторинг: создание аудируемых журналов для анализа инцидентов и обнаружения угроз в реальном времени.
- Защита от XPIA: минимизация использования ненадежных внешних данных и разделение данных и исполняемого контента.
Пример атаки: отравление памяти в AI-помощнике для электронной почты
В отчёте представлен пример атаки, когда злоумышленник внедрил вредоносный контент через безобидное письмо, используя механизм автономного обновления памяти AI-помощника, построенного на LangChain, LangGraph и GPT-4o. В результате агент переслал конфиденциальную информацию на неавторизованный адрес. Успешность атаки выросла с 40% до более 80% после изменения подсказки, что подчёркивает необходимость аутентифицированного запоминания и проверки контекста памяти.
Обеспечение безопасности и надежности автономных AI
Таксономия и рекомендации Microsoft служат основой для разработчиков и архитекторов, чтобы глубоко интегрировать принципы безопасности и ответственного AI в дизайн автономных систем. Проактивный подход к выявлению и снижению рисков, а также дисциплинированные операционные практики жизненно важны для безопасного и надёжного внедрения автономных AI-систем.
Switch Language
Read this article in English