Gemma Scope 2: Революция в Интерпретируемости ИИ

Обзор Gemma Scope 2

Исследователи Google DeepMind представляют Gemma Scope 2, открытый пакет инструментов интерпретируемости, который раскрывает, как модели языка Gemma 3 обрабатывают и представляют информацию на всех уровнях, от 270M до 27B параметров.

Его основная цель проста: обеспечить команды по безопасности и согласованию ИИ практическим инструментом для отслеживания поведения модели, вместо того чтобы полагаться только на анализ ввода и вывода. Когда модель Gemma 3 jailbreak'ится, галлюцинирует или демонстрирует угодливое поведение, Gemma Scope 2 позволяет исследователям исследовать, какие внутренние особенности были активированы и как эти активации проходили через сеть.

Что такое Gemma Scope 2?

Gemma Scope 2 — это всесторонний открытый пакет разреженных автокодировщиков (SAE) и связанных инструментов, обученных на внутренних активациях семейства моделей Gemma 3. SAEs действуют как микроскоп на модели, разлагая высокоразмерные активации на разреженный набор понятных для человека признаков, соответствующих концепциям или поведению.

Для обучения Gemma Scope 2 потребовалось хранить около 110 ПетаБайт данных активации и настроить более 1 триллиона параметров для всех моделей интерпретируемости.

Пакет охватывает все варианты Gemma 3, включая модели на 270M, 1B, 4B, 12B и 27B параметров, и охватывает всю глубину сети. Это важно, поскольку многие важные для безопасности поведения проявляются только на больших масштабах.

Улучшения по сравнению с оригинальным Gemma Scope

Первый релиз Gemma Scope сосредоточился на Gemma 2 и уже позволял исследовать галлюцинации модели, выявляя известныеModel Secrets и обучая более безопасные модели. Gemma Scope 2 расширяет эту работу четырьмя основными способами:

Инструменты теперь охватывают все семейство Gemma 3 до 27B параметров, что необходимо для изучения появляющихся поведений, наблюдаемых только в крупных моделях.
Gemma Scope 2 включает SAEs и транскодеры, обученные на каждом уровне Gemma 3, что помогает отслеживать многошаговые вычисления, распределенные на разные уровни.
Пакет применяет методику обучения Матрёшка, позволяя SAEs изучать более полезные и стабильные характеристики.
Появились дополнительные инструменты интерпретируемости для моделей Gemma 3, настроенные для чата, которые позволяют анализировать многошаговое поведение, такое как jailbreak'и и механизмы отказа.

Ключевые моменты