OThink-R1: Интеллектуальная двухрежимная система рассуждений для сокращения избыточных вычислений в больших языковых моделях

Проблемы статического рассуждения цепочкой мыслей в больших моделях

Большие модели рассуждений (LRM) достигают высоких результатов, используя подробные цепочки рассуждений для решения сложных задач. Однако многие простые задачи можно решить с помощью меньших моделей или с меньшим количеством шагов рассуждения. Это похоже на человеческое мышление, где для простых задач используется быстрое интуитивное мышление, а для сложных — медленное аналитическое. LRM же часто генерируют длинные рассуждения вне зависимости от сложности задачи, что увеличивает вычислительные затраты. Существующие методы сокращения длины рассуждений не гибки и не адаптируются к уровню сложности задачи.

Ограничения текущих методов повышения эффективности

Методы повышения эффективности рассуждений делятся на две группы: основанные на обучении и не основанные на обучении. Методы обучения используют RL или дообучение для ограничения использования токенов или глубины рассуждений, но обычно фиксируют стиль рассуждений. Не основанные на обучении применяют подсказки или обнаружение шаблонов для сокращения вывода, однако не обеспечивают динамическую адаптацию. Некоторые исследования изучают переменную длину рассуждений и проблему «переразмышления», но мало кто позволяет моделям переключаться между быстрым и медленным рассуждением в зависимости от задачи.

Представляем OThink-R1: двухрежимная система рассуждений

Исследователи из Чжэцзянского университета и OPPO разработали OThink-R1, который позволяет LRM адаптивно переключаться между быстрым и медленным мышлением. При анализе рассуждений они выделили важные шаги и отсеяли избыточные. С помощью модели-судьи LRM обучали подбирать стиль рассуждений в зависимости от сложности задачи. Этот подход сокращает лишние рассуждения более чем на 23%, не снижая точности. Используя специализированную функцию потерь и дообученные датасеты, OThink-R1 превосходит предыдущие методы на различных математических и вопросно-ответных задачах.

Архитектура: отсев рассуждений и оптимизация с двумя ссылками

Фреймворк определяет, когда рассуждения содержат избыточные объяснения или повторные проверки, и создает отфильтрованный тренировочный набор с сохранением ключевой логики. При дообучении применяется функция потерь с двумя ссылками, которая сравнивает выводы модели с вариантами быстрого и медленного мышления, стимулируя гибкость. Благодаря этому OThink-R1 выбирает наиболее эффективный путь рассуждений для каждой задачи без потери логичности и точности.

Оценка и результаты

OThink-R1 протестировали на наборах данных OpenBookQA, CommonsenseQA, ASDIV и GSM8K. Модель генерировала меньше токенов при сохранении или улучшении точности по сравнению с базовыми моделями NoThinking и DualFormer. Абляционные исследования подтвердили важность отсевов, KL-ограничений и компонента LLM-Judge. Кейс-стади показало, что избыточные рассуждения приводят к переразмышлению и снижению точности, что демонстрирует преимущества адаптивного подхода OThink-R1.

Будущее эффективных гибридных систем рассуждений

OThink-R1 — значительный шаг к масштабируемым и эффективным системам ИИ, сочетающим быстрое и медленное мышление. Отсекая избыточные рассуждения и сохраняя ключевую логику, а также используя двухссылочную функцию потерь KL-дивергенции, модель сокращает избыточность рассуждений на 23% без ухудшения результатов. Эти достижения открывают путь к более адаптивным и эффективным большим моделям рассуждений в будущем.