QwenLong-L1: Продвинутый фреймворк для длинного контекстного вывода в больших языковых моделях с использованием обучения с подкреплением

Проблемы длинного контекстного вывода для больших языковых моделей

Большие модели вывода (LRM) продемонстрировали впечатляющие результаты в задачах с коротким контекстом с помощью обучения с подкреплением (RL). Однако эти успехи не распространяются на сценарии с длинным контекстом, где длина входных последовательностей превышает 100 000 токенов. Применения, такие как многодокументный вопрос-ответ, синтез исследований и юридический или финансовый анализ, требуют глубокого анализа большого объема текста. Оптимизация RL в таких условиях сталкивается с проблемами, включая медленную сходимость вознаграждения, нестабильные обновления политики из-за колебаний KL-дивергенции и снижение исследования из-за коллапса энтропии. Это подчеркивает ключевую трудность в расширении возможностей LRM с короткого до длинного контекста.

Представляем QwenLong-L1: структурированный фреймворк обучения с подкреплением

Чтобы решить эти проблемы, команда Qwen Research разработала QwenLong-L1 — новый фреймворк обучения с подкреплением, специально созданный для адаптации к задачам с длинным контекстом. Фреймворк включает три основных этапа:

Разогрев с помощью контролируемой дообучения (SFT): инициализация модели политики на основе курированных триплетов вопрос-контекст-ответ для базового понимания контекста и извлечения ответов.
Фазированное обучение с подкреплением с куррикулумом: поэтапное обучение с постепенным увеличением длины контекста для устойчивого освоения длинного контекста.
Ретроспективная выборка с учетом сложности: улучшение исследования за счет сохранения и повторного использования сложных примеров из предыдущих этапов, взвешенных по степени сложности.

Гибридные механизмы вознаграждения сочетают проверку точного совпадения и семантическую оценку легковесной языковой модели, обеспечивая точность и полноту в обучении политики.

Технические инновации и методология

QwenLong-L1 использует последние достижения в оптимизации обучения с подкреплением с учетом групп — GRPO и DAPO — чтобы снизить вычислительные затраты при оценке ценности длинного контекста:

GRPO (Group-Relative Policy Optimization): нормализует вознаграждения внутри групп выборок, что позволяет оценивать преимущество без отдельной сети ценности и способствует разнообразию ответов.
DAPO (Dynamic Adaptive Policy Optimization): включает динамическую выборку, штрафы за избыточную длину и асимметричные пороги отсечения, предотвращая коллапс энтропии и смещения по длине при обучении.

Функция вознаграждения объединяет два сигнала: детерминированное правило точного совпадения и семантическую оценку компактной модели-оценщика (например, Qwen2.5-1.5B). Такой гибридный подход предотвращает переобучение на жесткие форматы, сохраняя корректность ответов при разных обозначениях и формулировках.

Фреймворк использует постепенное масштабирование контекста — от 20 000 до 60 000 токенов — что стабилизирует динамику обучения и способствует обобщению политики.

Результаты тестирования и производительность

QwenLong-L1 был протестирован на семи бенчмарках с длинным контекстом, включая DocMath, Frames, 2WikiMultihopQA, HotpotQA, Musique, NarrativeQA и Qasper. Модель с 32 миллиардами параметров, QwenLong-L1-32B, показала впечатляющие результаты:

Превзошла базовые модели, такие как R1-Distill-Qwen-32B, на 5,1 балла.
Обошла проприетарные системы OpenAI-o3-mini и Qwen3-235B-A22B.
По уровню производительности была сопоставима с Claude-3.7-Sonnet-Thinking, демонстрируя конкурентоспособность при экстремальной длине контекста.

Анализ Pass@K показал стабильный рост с увеличением числа выборок, достигнув среднего Pass@2 в 73,7, что превосходит DeepSeek-R1 и OpenAI-o1-preview даже при низких показателях выборок.

Анализ компонентов и возникновение новых навыков рассуждения

Абляционные исследования подтвердили значимость каждого компонента: контролируемого дообучения, фазового RL и ретроспективной выборки. RL сыграло ключевую роль в формировании новых навыков рассуждения, таких как обоснование, постановка подцелей, проверка и возврат к предыдущим шагам — навыков, которые не возникали при использовании только контролируемого обучения.