Более прозрачная модель

OpenAI создала экспериментальную крупную языковую модель, которую специально сделали проще для анализа по сравнению с обычными моделями. Исследователи называют её weight-sparse transformer: дизайн жертвует скоростью и производительностью, чтобы сделать внутренние механизмы модели читабельными для человека.

Зачем нужна интерпретируемость

Современные LLM действуют как «чёрные ящики»: они выдают впечатляющие ответы, но понять, как именно появилась конкретная генерация, зачастую невозможно. Отсутствие прозрачности затрудняет поиск причин галлюцинаций, неожиданных ошибок и оценку уровня доверия к модели в критичных задачах. Проект OpenAI нацелен изменить это, создавая модели, внутреннюю логику которых можно идентифицировать и отслеживать.

Что такое weight-sparse transformer

Большинство нейросетей, лежащих в основе LLM, плотные: нейрон связан со многими другими, знания рассредоточены по запутанной сети весов. Такая плотность удобна для обучения и работы, но она размывает представления и порождает явление суперпозиции, когда один нейрон кодирует смесь признаков.

Weight-sparse transformer ограничивает число связей каждого нейрона: у него есть лишь несколько подключений. Это приводит к тому, что признаки концентрируются в локальных кластерах. Плата за это — более медленная и менее мощная модель, зато её нейроны и группы нейронов легче соотнести с конкретными функциями и понятиями.

Эксперименты и результаты

Исследователи из OpenAI проверяли модель на простых задачах, чтобы изучить её внутренности. В одном эксперименте модель просили дополнить фрагмент текста, который начинается с открывающей кавычки, добавив соответствующую закрывающую. У плотных моделей выяснить точный механизм выполнения такой тривиальной задачи означает распутывать сложную сеть связей. В весносвязной модели команда смогла проследить точную последовательность операций и обнаружить схему, которая реализует алгоритм, аналогичный тому, который написал бы человек. Как отметил Лео Гао, они 'нашли схему, которая точно соответствует алгоритму, который вы бы реализовали вручную, но который полностью выучен моделью.'

Исследователи по интерпретируемости и внешние эксперты считают работу перспективной и ожидают, что методы для интерпретируемых небольших моделей окажут большое влияние на область.

Ограничения и перспективы

Это раннее исследование. Экспериментальная модель близка по возможностям к очень ранним LLM и значительно уступает современным коммерческим системам вроде GPT-5, Claude или Gemini. В OpenAI признают, что подход не даст немедленного превосходства над передовыми моделями, и некоторые эксперты сомневаются, что такая разрежённость масштабируется для крупных многофункциональных систем.

Тем не менее команда надеется усовершенствовать технику. Исследователи представляют будущее, в котором модель уровня GPT-3 можно полностью проинтерпретировать и 'зайти внутрь каждой части и понять, как она делает каждую вещь.' Достижение этой цели могло бы дать важные знания о причинах галлюцинаций, механизмах сбоев и способах проектирования более безопасных и надёжных систем.

Новый прозрачный LLM OpenAI показывает, как «думает» ИИ

Более прозрачная модель

Зачем нужна интерпретируемость

Что такое weight-sparse transformer

Эксперименты и результаты

Ограничения и перспективы

Switch Language