Gemma Scope 2: Революция в Интерпретируемости ИИ
Узнайте о новых возможностях Gemma Scope 2 для глубокого анализа моделей.
Обзор Gemma Scope 2
Исследователи Google DeepMind представляют Gemma Scope 2, открытый пакет инструментов интерпретируемости, который раскрывает, как модели языка Gemma 3 обрабатывают и представляют информацию на всех уровнях, от 270M до 27B параметров.
Его основная цель проста: обеспечить команды по безопасности и согласованию ИИ практическим инструментом для отслеживания поведения модели, вместо того чтобы полагаться только на анализ ввода и вывода. Когда модель Gemma 3 jailbreak'ится, галлюцинирует или демонстрирует угодливое поведение, Gemma Scope 2 позволяет исследователям исследовать, какие внутренние особенности были активированы и как эти активации проходили через сеть.
Что такое Gemma Scope 2?
Gemma Scope 2 — это всесторонний открытый пакет разреженных автокодировщиков (SAE) и связанных инструментов, обученных на внутренних активациях семейства моделей Gemma 3. SAEs действуют как микроскоп на модели, разлагая высокоразмерные активации на разреженный набор понятных для человека признаков, соответствующих концепциям или поведению.
Для обучения Gemma Scope 2 потребовалось хранить около 110 ПетаБайт данных активации и настроить более 1 триллиона параметров для всех моделей интерпретируемости.
Пакет охватывает все варианты Gemma 3, включая модели на 270M, 1B, 4B, 12B и 27B параметров, и охватывает всю глубину сети. Это важно, поскольку многие важные для безопасности поведения проявляются только на больших масштабах.
Улучшения по сравнению с оригинальным Gemma Scope
Первый релиз Gemma Scope сосредоточился на Gemma 2 и уже позволял исследовать галлюцинации модели, выявляя известныеModel Secrets и обучая более безопасные модели. Gemma Scope 2 расширяет эту работу четырьмя основными способами:
- Инструменты теперь охватывают все семейство Gemma 3 до 27B параметров, что необходимо для изучения появляющихся поведений, наблюдаемых только в крупных моделях.
- Gemma Scope 2 включает SAEs и транскодеры, обученные на каждом уровне Gemma 3, что помогает отслеживать многошаговые вычисления, распределенные на разные уровни.
- Пакет применяет методику обучения Матрёшка, позволяя SAEs изучать более полезные и стабильные характеристики.
- Появились дополнительные инструменты интерпретируемости для моделей Gemma 3, настроенные для чата, которые позволяют анализировать многошаговое поведение, такое как jailbreak'и и механизмы отказа.
Ключевые моменты
- Gemma Scope 2 — это открытый пакет интерпретируемости для всех моделей Gemma 3, направленный на работу по безопасности ИИ.
- Он использует разреженные автокодировщики и транскодеры для анализа внутренних активаций.
- Пакет позволяет проводить глубокое исследование таких проблем, как jailbreak'и и несоответствия между внутренним состоянием и рассуждениями.
Switch Language
Read this article in English