Microsoft выпустила подробное руководство по режимам отказов в автономных AI-системах

Что такое автономные AI-системы и какие у них вызовы

Автономные AI-системы — это сущности, которые самостоятельно наблюдают за окружением и взаимодействуют с ним для достижения заданных целей. Они обладают такими функциями, как автономность, наблюдение, взаимодействие с окружением, память и сотрудничество. Эти возможности расширяют функционал, но одновременно увеличивают поверхность для атак и создают новые проблемы безопасности.

Таксономия режимов отказов от Microsoft

AI Red Team Microsoft разработала подробную таксономию, которая классифицирует режимы отказов в автономных AI-системах по двум основным направлениям: безопасность и надежность. Каждое направление включает новые и уже известные типы отказов.

Новые угрозы безопасности включают компрометацию агента, внедрение, имитацию, манипуляции потоком и взломы с участием нескольких агентов.

Новые проблемы надежности касаются вопросов ответственного AI внутри агента, предвзятости при распределении ресурсов, деградации организационных знаний и рисков при приоритизации, влияющих на безопасность пользователей.

Известные угрозы безопасности охватывают отравление памяти, междоменное внедрение команд (XPIA), обходы с участием человека, ошибки управления правами и недостаточную изоляцию.

Известные проблемы надежности включают усиление предвзятости, галлюцинации, неправильное понимание инструкций и недостаток прозрачности для информированного согласия пользователей.

Каждый режим отказа подробно описан с указанием потенциальных последствий, мест возникновения и примеров.

Системные последствия отказов

В отчёте выделены эффекты, возникающие из-за отказов: несоответствие действий агента целям, злоупотребление возможностями агента, сбои в работе сервисов, ошибочные решения, потеря доверия пользователей, распространение влияния за пределы системы и утрата важных организационных знаний из-за чрезмерного доверия агентам.

Стратегии снижения рисков

Microsoft предлагает ряд рекомендаций для снижения рисков:

Управление идентичностью: уникальные идентификаторы и детализированные роли для агентов.
Защита памяти: создание доверенных границ и мониторинг доступа.
Регулирование контроля потока: детерминирование путей выполнения рабочих процессов агента.
Изоляция среды: ограничение взаимодействия агента в рамках определённых границ.
Прозрачный UX-дизайн: обеспечение возможности информированного согласия пользователей.
Логирование и мониторинг: создание аудируемых журналов для анализа инцидентов и обнаружения угроз в реальном времени.
Защита от XPIA: минимизация использования ненадежных внешних данных и разделение данных и исполняемого контента.

Пример атаки: отравление памяти в AI-помощнике для электронной почты

В отчёте представлен пример атаки, когда злоумышленник внедрил вредоносный контент через безобидное письмо, используя механизм автономного обновления памяти AI-помощника, построенного на LangChain, LangGraph и GPT-4o. В результате агент переслал конфиденциальную информацию на неавторизованный адрес. Успешность атаки выросла с 40% до более 80% после изменения подсказки, что подчёркивает необходимость аутентифицированного запоминания и проверки контекста памяти.

Обеспечение безопасности и надежности автономных AI

Таксономия и рекомендации Microsoft служат основой для разработчиков и архитекторов, чтобы глубоко интегрировать принципы безопасности и ответственного AI в дизайн автономных систем. Проактивный подход к выявлению и снижению рисков, а также дисциплинированные операционные практики жизненно важны для безопасного и надёжного внедрения автономных AI-систем.