OpenAI обучает весово разреженные трансформеры для выявления компактных интерпретируемых цепей
'OpenAI использует обучение с жесткой весовой разреженностью, чтобы извлекать небольшие и проверяемые цепи, объясняющие поведение модели на простых Python задачах.'
Исследователи OpenAI обучили трансформерные языковые модели с сильной весовой разреженностью, чтобы внутренние механизмы, ответственные за конкретные поведения, можно было выделять и интерпретировать как небольшие явные цепи.
Как делают трансформеры весово разреженными
Большинство трансформеров плотные: нейроны считывают и записывают информацию во множество residual каналов, а признаки часто находятся в суперпозиции, что затрудняет анализ цепей. Вместо того чтобы применять разрежение постфактум, команда изменяет саму обучаемую модель: они обучают декодерные трансформеры в стиле GPT‑2 с ограничением на разреженность весов.
После каждого шага оптимизатора AdamW оставляют только элементы матриц весов и смещений с наибольшими по модулю значениями, включая эмбеддинги токенов, а остальные обнуляют. По графику аннеалинга доля ненулевых параметров постепенно уменьшается до целевого уровня. В экстремальных настройках примерно 1 из 1000 весов остается ненулевым. Активации тоже частично разрежены: около 1 из 4 активаций ненулевые на типичном узле. В результате эффективный граф связности получается очень тонким, что способствует выделению разнородных признаков, четко соотносимых с residual каналами.
Оценка интерпретируемости через задачно-специфичное вырезание
Чтобы уйти от одних лишь качественных примеров, исследователи оценивают интерпретируемость с помощью набора простых алгоритмических задач на предсказание следующего токена в Python. Примеры: single_double_quote, где нужно правильно закрыть строку одинарной или двойной кавычкой, и set_or_string, где требуется выбрать между .add и += в зависимости от того, инициализирована ли переменная как set или как string.
Для каждой задачи они ищут минимальную подсеть или цепь, которая по-прежнему достигает заданного порога потерь. Вырезание выполняется на уровне узлов: узлом может быть нейрон MLP на определенном слое, голова внимания или residual канал. Вырезанные узлы подвергаются mean ablation: их активация заменяется средним по распределению предобучения. Поиск использует непрерывные маски с Heaviside-подобным гейтом, оптимизированным с помощью straight-through estimator. Сложность цепи измеряется числом активных ребер между сохраненными узлами, а основная метрика интерпретируемости — геометрическое среднее счетов ребер по всем задачам.
Конкретные, обратимо анализируемые цепи
В задачах типа сопоставления кавычек разреженные модели дают компактные, полностью интерпретируемые цепи. В одном примере ранний нейрон MLP ведет себя как детектор кавычек, второй нейрон классифицирует тип кавычки, а более поздняя голова внимания возвращается к позиции открывающей кавычки и копирует ее тип на закрывающую позицию. Операционная цепь включает несколько residual каналов, 2 MLP нейрона в слое 0 и одну голову внимания с одним релевантным query key каналом и одним value каналом. Эта подсеть сама по себе достаточна и необходима для решения задачи в рамках тестирования, описанного в работе.
Для более сложных поведений, например отслеживания типа переменной внутри тела функции, восстановленные цепи больше и частично понимаются. Тем не менее авторы показывают относительно небольшие графы, где одна операция внимания записывает имя переменной при определении, а другая позже копирует информацию о типе в месте использования, что дает компактную механистическую картину.
Разреженность улучшает интерпретируемость при умеренной цене
При сопоставимом уровне предобучения модели с весовой разреженностью требуют цепей примерно в 16 раз меньших по размеру, чем плотные аналоги. Это определяет фронтир между способностями и интерпретируемостью: рост разреженности облегчает механистический анализ при некотором снижении чистой производительности. Модели остаются малыми и неэффективными с точки зрения практической производительности, но дают четкие графы связности с измеримым числом ребер и строгими тестами достаточности и необходимости.
Почему это важно
Заставив разреженность работать на этапе обучения, исследование превращает абстрактные обсуждения цепей в конкретные воспроизводимые графы, полезные для аудитов безопасности, отладки и механистических исследований. Рассмотрение интерпретируемости как первичного дизайна может сделать будущие модели более прозрачными и проверяемыми, даже если метод пока не оптимизирован для производственных сценариев.
Полные детали доступны в статье и дополнительных материалах, опубликованных авторами.
Switch Language
Read this article in English