QwenLong-L1: Продвинутый фреймворк для длинного контекстного вывода в больших языковых моделях с использованием обучения с подкреплением
QwenLong-L1 представляет структурированный подход к обучению с подкреплением, позволяющий большим языковым моделям эффективно решать задачи с длинным контекстом и достигает лучших результатов на множестве бенчмарков.
Проблемы длинного контекстного вывода для больших языковых моделей
Большие модели вывода (LRM) продемонстрировали впечатляющие результаты в задачах с коротким контекстом с помощью обучения с подкреплением (RL). Однако эти успехи не распространяются на сценарии с длинным контекстом, где длина входных последовательностей превышает 100 000 токенов. Применения, такие как многодокументный вопрос-ответ, синтез исследований и юридический или финансовый анализ, требуют глубокого анализа большого объема текста. Оптимизация RL в таких условиях сталкивается с проблемами, включая медленную сходимость вознаграждения, нестабильные обновления политики из-за колебаний KL-дивергенции и снижение исследования из-за коллапса энтропии. Это подчеркивает ключевую трудность в расширении возможностей LRM с короткого до длинного контекста.
Представляем QwenLong-L1: структурированный фреймворк обучения с подкреплением
Чтобы решить эти проблемы, команда Qwen Research разработала QwenLong-L1 — новый фреймворк обучения с подкреплением, специально созданный для адаптации к задачам с длинным контекстом. Фреймворк включает три основных этапа:
-
Разогрев с помощью контролируемой дообучения (SFT): инициализация модели политики на основе курированных триплетов вопрос-контекст-ответ для базового понимания контекста и извлечения ответов.
-
Фазированное обучение с подкреплением с куррикулумом: поэтапное обучение с постепенным увеличением длины контекста для устойчивого освоения длинного контекста.
-
Ретроспективная выборка с учетом сложности: улучшение исследования за счет сохранения и повторного использования сложных примеров из предыдущих этапов, взвешенных по степени сложности.
Гибридные механизмы вознаграждения сочетают проверку точного совпадения и семантическую оценку легковесной языковой модели, обеспечивая точность и полноту в обучении политики.
Технические инновации и методология
QwenLong-L1 использует последние достижения в оптимизации обучения с подкреплением с учетом групп — GRPO и DAPO — чтобы снизить вычислительные затраты при оценке ценности длинного контекста:
-
GRPO (Group-Relative Policy Optimization): нормализует вознаграждения внутри групп выборок, что позволяет оценивать преимущество без отдельной сети ценности и способствует разнообразию ответов.
-
DAPO (Dynamic Adaptive Policy Optimization): включает динамическую выборку, штрафы за избыточную длину и асимметричные пороги отсечения, предотвращая коллапс энтропии и смещения по длине при обучении.
Функция вознаграждения объединяет два сигнала: детерминированное правило точного совпадения и семантическую оценку компактной модели-оценщика (например, Qwen2.5-1.5B). Такой гибридный подход предотвращает переобучение на жесткие форматы, сохраняя корректность ответов при разных обозначениях и формулировках.
Фреймворк использует постепенное масштабирование контекста — от 20 000 до 60 000 токенов — что стабилизирует динамику обучения и способствует обобщению политики.
Результаты тестирования и производительность
QwenLong-L1 был протестирован на семи бенчмарках с длинным контекстом, включая DocMath, Frames, 2WikiMultihopQA, HotpotQA, Musique, NarrativeQA и Qasper. Модель с 32 миллиардами параметров, QwenLong-L1-32B, показала впечатляющие результаты:
- Превзошла базовые модели, такие как R1-Distill-Qwen-32B, на 5,1 балла.
- Обошла проприетарные системы OpenAI-o3-mini и Qwen3-235B-A22B.
- По уровню производительности была сопоставима с Claude-3.7-Sonnet-Thinking, демонстрируя конкурентоспособность при экстремальной длине контекста.
Анализ Pass@K показал стабильный рост с увеличением числа выборок, достигнув среднего Pass@2 в 73,7, что превосходит DeepSeek-R1 и OpenAI-o1-preview даже при низких показателях выборок.
Анализ компонентов и возникновение новых навыков рассуждения
Абляционные исследования подтвердили значимость каждого компонента: контролируемого дообучения, фазового RL и ретроспективной выборки. RL сыграло ключевую роль в формировании новых навыков рассуждения, таких как обоснование, постановка подцелей, проверка и возврат к предыдущим шагам — навыков, которые не возникали при использовании только контролируемого обучения.
QwenLong-L1 представляет системный подход к оснащению больших моделей вывода надежными способностями к длинному контексту, объединяя контролируемую инициализацию, куррикулумное масштабирование и гибридные стратегии оценки.
Switch Language
Read this article in English