Thought Anchors: точный анализ ключевых этапов рассуждений в больших языковых моделях

Ограничения текущих инструментов интерпретируемости в больших языковых моделях

Большие языковые модели, такие как DeepSeek и варианты GPT, используют миллиарды параметров для выполнения сложных рассуждений. Однако определить, какие именно этапы рассуждений оказывают наибольшее влияние на конечный результат, сложно. Существующие инструменты, например, оценка важности на уровне токенов или методы на основе градиентов, дают ограниченное представление, поскольку сосредоточены на отдельных компонентах и часто не учитывают взаимосвязь между этапами рассуждений.

Thought Anchors: интерпретируемость на уровне предложений

Исследователи из Университета Дьюка и компании Aiphabet представили новый фреймворк "Thought Anchors", который анализирует вклад предложений в процесс рассуждений внутри больших языковых моделей. Открытый интерфейс на thought-anchors.com позволяет визуализировать и сравнивать внутренние рассуждения модели. Фреймворк включает три метода интерпретируемости: черный ящик (black-box), анализ приемных голов (receiver head analysis) и причинно-следственную атрибуцию. Вместе они показывают, как каждый этап рассуждений влияет на ответы модели и выявляют значимые логические цепочки.

Оценка на DeepSeek и датасете MATH

Метод black-box основан на контрфактическом анализе — последовательном удалении предложений из цепочек рассуждений и оценке их влияния. Исследование проводилось на 2000 задачах с 19 ответами каждая, используя модель DeepSeek с 67 миллиардами параметров и сложный математический датасет MATH (около 12 500 задач). Анализ приемных голов изучал паттерны внимания между предложениями, выявляя направленное внимание, где ключевые предложения направляют последующие рассуждения. Метод причинно-следственной атрибуции оценивал, как подавление влияния отдельных этапов влияет на следующие ответы, уточняя вклад каждого шага.

Количественные результаты: высокая точность и четкая причинная связь

Анализ black-box показал, что правильные цепочки рассуждений стабильно достигают точности выше 90%, значительно превосходя неправильные. Анализ приемных голов выявил сильное направленное внимание с корреляцией около 0.59 в среднем по слоям. Причинно-следственная атрибуция продемонстрировала средний показатель влияния 0.34, фиксируя распространение влияния этапов рассуждений. Кроме того, анализ 250 голов внимания в DeepSeek показал, что определенные приемные головы постоянно фокусируются на ключевых этапах, особенно в математических задачах, что помогает глубже понять внутренние механизмы принятия решений.

Практическое значение и перспективы

Thought Anchors значительно улучшают интерпретируемость, ориентируясь на предложения как единицы рассуждений, и превосходят традиционные методы, основанные на активациях. Открытый инструмент повышает удобство совместной работы, а классификация голов внимания дает возможности для оптимизации архитектуры моделей. Эти достижения создают основу для безопасного применения продвинутых языковых моделей в критически важных сферах, таких как медицина и финансы. Фреймворк также открывает новые пути для исследований в области прозрачности и надежности ИИ.

Подробности доступны в статье и интерактивном демо на thought-anchors.com.

Thought Anchors: точный анализ ключевых этапов рассуждений в больших языковых моделях

Ограничения текущих инструментов интерпретируемости в больших языковых моделях

Thought Anchors: интерпретируемость на уровне предложений

Оценка на DeepSeek и датасете MATH

Количественные результаты: высокая точность и четкая причинная связь

Практическое значение и перспективы

Switch Language