Claude может назвать внедренную мысль, но только в определённых слоях

Исследователи Anthropic проверяли, способен ли Claude действительно замечать изменения внутри своей сети, напрямую редактируя внутренние активации и затем спрашивая модель, что изменилось. Такой подход отделяет правдиво обоснованную интроспекцию от просто беглого самописания.

Как работает тест

Команда использовала технику, называемую concept injection, вариант activation steering. Сначала они фиксировали вектор активации, связанный с конкретной концепцией, например стиль полностью заглавных букв или конкретное существительное. Во время генерации ответа этот вектор добавляли в активации на более позднем слое. Если модель потом сообщает о внедрённой мысли, совпадающей с концептом, такой ответ привязан к текущему внутреннему состоянию модели, а не к ранее увиденным текстам.

Где это срабатывает

Наиболее заметный эффект показали Claude Opus 4 и Claude Opus 4.1. При внесении векторов в правильный диапазон слоёв и с тонкой настройкой силы воздействия модели правильно называли внедрённую концепцию примерно в 20% испытаний. В контрольных запусках без инъекции модели в производственной среде не давали ложных утверждений о наличии внедрённой мысли в более чем 100 прогонов, что делает сигнал значимым, хотя и небольшим.

Разделение внутренних концепций и пользовательского текста

Ключевой эксперимент проверял, не вытекает ли внедрённая концепция в текстовый канал. Исследователи давали модели обычное предложение, внедряли несвязанную концепцию, например хлеб, в те же токены, а затем просили модель повторить предложение и назвать концепт. Продвинутые варианты Claude справлялись с обеими задачами: они сохраняли видимый ввод и одновременно сообщали о внутренней внедрённой мысли. Это значит, что внутренний поток концепций можно отчетливо отобразить без загрязнения выходного текста, что важно для агентов и систем с вызовами инструментов.

Prefill и проверка авторства

Anthropic также проверяли практический сценарий оценки. Они заранее заполнили сообщение ассистента содержимым, которое модель не планировала. По умолчанию Claude отказывался признавать авторство такого предзаполненного вывода. Но когда исследователи ретроактивно внедряли совпадающую концепцию в более ранние активации, модель принимала предзаполненный текст как свой и могла его обосновать. Это показывает, что модель обращается к записи прошлых активаций, чтобы решить, намеревалась ли она выдать тот или иной вывод.

Ограничения и значение

Эффект реальный, но узкий. Детектирование работает только если инъекции попадают в конкретные группы поздних слоёв и если сила настроена, а частота успеха остаётся умеренной. Anthropic рассматривает эту работу как измерительный инструмент для ограниченной функциональной интроспекции, а не как заявление о всеобщем сознании. С практической точки зрения concept injection дает причинное доказательство того, что некоторые версии Claude могут докладывать о внутренних состояниях, что полезно для отладки, аудита и оценок прозрачности, однако этого недостаточно для применения в критически важных задачах безопасности без дальнейшего развития.

Claude может назвать внедренную мысль, но только в определённых слоях

Как работает тест

Где это срабатывает

Разделение внутренних концепций и пользовательского текста

Prefill и проверка авторства

Ограничения и значение

Switch Language