Новое исследование выявляет угрозы приватности в размышлениях больших моделей рассуждений
Новое исследование показывает, что большие модели рассуждений раскрывают чувствительную информацию через свои следы размышлений, что представляет серьезные риски для приватности в AI-помощниках.
Личные LLM-агенты и проблемы приватности
Большие языковые модели (LLM) все чаще используются в роли личных помощников, получая доступ к конфиденциальной информации пользователей через личные агенты. Это вызывает серьезные опасения относительно понимания контекстной приватности и способности таких агентов правильно определять, когда можно делиться определенной пользовательской информацией. Большие модели рассуждений (LRM), работающие через сложные и непрозрачные следы рассуждений, усложняют отслеживание, как чувствительная информация передается от входных данных к выходу, что затрудняет защиту приватности.
Предыдущие исследования и рамки контекстной приватности
Ранее проводились исследования, направленные на контекстную приватность в LLM, с разработкой рамок, таких как концепция контекстной целостности, определяющей приватность как правильный поток информации в социальных контекстах. Были созданы бенчмарки, включая DecodingTrust, AirGapAgent, CONFAIDE, PrivaCI и CI-Bench, оценивающие соответствие моделей этим нормам через структурированные запросы. Симуляторы PrivacyLens и AgentDAM ориентированы на агентные задачи, но на модели без рассуждений. Техника вычислений во время теста (TTC) позволяет применять структурированное рассуждение на этапах вывода, а LRM, например DeepSeek-R1, расширяют эти возможности с помощью обучения с подкреплением. Тем не менее, остаются проблемы безопасности, так как LRM могут генерировать следы рассуждений с опасным содержанием, несмотря на безопасные итоговые ответы.
Новые данные о LRM и рисках приватности
Исследовательская группа из Parameter Lab, Университета Мангейма, Технического университета Дармштадта, NAVER AI Lab, Университета Тюбингена и Тюбингенского AI Центра провела первое сравнительное исследование LLM и LRM в роли личных агентов. Результаты показывают, что хотя LRM превосходят LLM в полезности, это преимущество не распространяется на защиту приватности. Исследование внесло три ключевых вклада: оно установило методики оценки контекстной приватности для LRM с использованием AirGapAgent-R и AgentDAM; выявило следы рассуждений как новый вектор атак на приватность, показав, что LRM рассматривают их как приватные черновики; и исследовало механизмы утечек приватности в моделях рассуждений.
Методология: пробинг и агентная оценка
Исследование использует два подхода. Пробинг предполагает целенаправленные одноступенчатые запросы через AirGapAgent-R для эффективной проверки явного понимания приватности. Агентное тестирование с помощью AgentDAM оценивает неявное понимание приватности в трех областях: шопинг, Reddit и GitLab. В исследовании участвовали 13 моделей с параметрами от 8 млрд до более 600 млрд, включая классические LLM, модели с цепочкой рассуждений (CoT), LRM и дистиллированные варианты, такие как DeepSeek на базе Llama и Qwen. В пробинг-тестах модели просили сохранять размышления внутри специальных тегов и анонимизировать чувствительные данные с помощью плейсхолдеров.
Анализ механизмов утечек приватности
Исследование выявило несколько механизмов утечек приватности в LRM. Наиболее распространен неправильный контекст (39,8%), когда модели неверно интерпретируют требования задачи или контекстные нормы. Относительная чувствительность (15,6%) проявляется, когда модели обосновывают раскрытие данных исходя из ранжирования чувствительности полей. Добросовестное поведение (10,9%) — модели предполагают допустимость раскрытия, если запрос исходит от доверенного лица. Повторяющиеся размышления (9,4%) случаются, когда внутренние мысли просачиваются в итоговые ответы, нарушая разделение между процессом рассуждения и ответом.
Баланс между полезностью и приватностью в LRM
Увеличение вычислительных ресурсов на этапе тестирования улучшает приватность итоговых ответов, но одновременно делает следы рассуждений более доступными для извлечения чувствительной информации. Это создаёт компромисс между полезностью и защитой приватности. Авторы подчеркивают необходимость разработки стратегий смягчения рисков и выравнивания моделей, которые защитят как процесс рассуждений, так и конечные ответы. Ограничениями исследования являются фокус на моделях с открытым исходным кодом и использование пробинг-сценариев вместо полностью агентных, что, однако, обеспечило более широкий охват моделей, контроль экспериментов и прозрачность.
Для детального ознакомления рекомендуется обратиться к оригинальной статье. Вся заслуга принадлежит исследовательским коллективам.
Switch Language
Read this article in English