ParaThinker: Победа над туннельным зрением через параллельные траектории рассуждений

сентября 9, 2025 · 3 min

Последовательное ограничение и туннельное зрение

Традиционные стратегии масштабирования LLM во время инференса удлиняют одиночный цепной путь рассуждений. Это помогает лишь до определённого момента: при увеличении бюджета токенов точность быстро перестаёт расти. Эксперименты с DeepSeek-R1-distill-Qwen-1.5B показали, что рост бюджета с 32K до 128K даёт пренебрежимый эффект. Проблема в ранней фиксации токенов: ошибочная начальная траектория распространяет ошибки на весь chain-of-thought. Это явление называют туннельным зрением и рассматривают как методологическое ограничение, а не предел возможностей модели.

Диагностика туннельного зрения

Исследователи оценивали способность к восстановлению, заставляя модели продолжать работу от намеренно ошибочных префиксов разной длины (100–1600 токенов). Точность монотонно падала с увеличением длины префикса, показывая, что после закрепления на неверной траектории модель практически не способна восстановиться, даже при дополнительном вычислительном бюджете. Последовательное масштабирование расходует вычисления неэффективно.

Что такое ParaThinker

ParaThinker — это end-to-end фреймворк для внедрения нативного параллельного мышления в LLM. Вместо того чтобы тратить все ресурсы на одну глубокую цепочку, система обучается генерировать несколько различных траекторий рассуждений параллельно и синтезировать их в итоговый ответ. Архитектура сохраняет трансформер как основу, но добавляет механизмы для сохранения независимости путей в фазе рассуждений и их контролируемой интеграции при суммаризации.

Ключевые элементы:

Специальные управляющие токены (например, ) для запуска отдельных траекторий.
Позиционные эмбеддинги, специфичные для каждой мысли, чтобы различать токены по путям и предотвращать коллапс при суммаризации.
Двухфазные attention-маски: независимость путей во время рассуждений и контролируемая интеграция при генерации ответа.
Повторное использование KV-кэшей между стадией рассуждений и стадией суммаризации, что устраняет лишнее пере-заполнение и повышает эффективность.

Эти решения переводят акцент масштабирования с глубины на ширину: несколько коротких независимых траекторий вместо одной длинной.

Обучение параллельному рассуждению

ParaThinker прошёл supervised fine-tuning на датасетах с мультитрейковыми решениями. Тренировочные примеры формировались путём выборки нескольких путей решения от учительских моделей (DeepSeek-R1, GPT-OSS-20B); каждый пример включал несколько траекторий и итоговый

. Случайная выборка токенов обеспечивала обобщение на большее число путей на инференсе, чем было в обучении.

Файн-тюнинг выполнялся на Qwen-2.5 вариантах (1.5B и 7B) с максимальной длиной контекста 28K токенов. Источники данных: Open-R1, DeepMath, s1k, LIMO и дополнительные решения, сэмплированные при температуре 0.8. Обучение проводилось на нескольких GPU A800.

Результаты экспериментов и эффективность

Оценки на AIME 2024, AIME 2025, AMC 2023 и MATH-500 показывают значимые улучшения:

ParaThinker 1.5B: +12.3% к точности по сравнению с последовательными базами, +4.3% над majority voting.
ParaThinker 7B: +7.5% над последовательными моделями и +2.0% над majority voting.
При 8 траекториях 1.5B ParaThinker достиг 63.2% pass@1, превзойдя последовательные 7B при равных ресурсах.

По эффективности:

Средний оверхед по задержке для параллельного рассуждения составил всего 7.1%.
Генерация 16 путей занимала менее чем в 2 раза больше латентности, чем один путь, благодаря лучшему использованию GPU-памяти.
Стратегия завершения First-Finish (заканчивать при завершении первой траектории) оказалась лучше по точности и латентности, чем Last-Finish и Half-Finish.

Абляции и сравнения

Абляционные исследования подтверждают, что улучшения связаны с архитектурными изменениями, а не только с данными:

Тонкая настройка только на датасете без модификаций ParaThinker не дала улучшений.
Удаление эмбеддингов для мыслей снизило точность; наивные плоские кодировки приводили к сильной деградации из-за распада позиционной информации.
Базовые подходы с повторным префиллингом ухудшались с ростом числа путей, что подтверждает преимущество повторного использования KV-кэша.

В отличие от методов типа majority voting, self-consistency или Tree of Thoughts, которые полагаются на внешних верификаторов или постфактум-отбор, ParaThinker реализует параллелизм внутри модели. Диффузионные token-parallel методы плохо работают на задачах рассуждений, так как сохраняют последовательную зависимость. Некоторые архитектурные альтернативы требуют перестроения и предобучения; ParaThinker же сохраняет трансформер и добавляет ограниченные, целенаправленные механизмы для параллелизма.

Значение подхода

ParaThinker показывает, что узкие места масштабирования при инференсе во многом следствие последовательной стратегии рассуждений. Распределение вычислений по ширине позволяет более компактным моделям обгонять большие последовательные аналоги при минимальном приросте латентности. Нативный параллелизм мыслей становится важным направлением для эффективного масштабирования LLM.

Полные технические детали и эксперименты доступны в статье на https://arxiv.org/abs/2509.04475, а вспомогательные ресурсы и коды — на GitHub проекта.