LongWriter-Zero: Революция в генерации ультра-длинных текстов с помощью обучения с подкреплением без синтетических данных

Проблемы генерации ультра-длинных текстов

Генерация ультра-длинных текстов, состоящих из тысяч слов, важна для таких задач, как рассказывание историй, юридические документы и образовательные материалы. Несмотря на развитие больших языковых моделей (LLM), создание связных и структурированных длинных текстов остается сложной задачей из-за ограничений по длине, ухода от темы, повторов и отсутствия общей связности. Традиционные методы, такие как LongWriter, используют обучение с учителем на синтетических данных, которые дороги в создании, неестественны и ограничивают креативность.

Развитие методов генерации длинных текстов

Исследования направлены на улучшение связности, персонализации и увеличение длины текстов свыше 2000 слов. Ранние модели применяли рекурсивные методы для поддержания структуры, позднее появились подходы с самотренингом, учитывающим рассуждения, и датасеты с инструкциями. LongWriter улучшил длину до 6000–20000 токенов с помощью обучения с учителем и оптимизации предпочтений, но сохранял предвзятость учительских моделей. Обучение с подкреплением (RL) улучшило способность LLM к рассуждениям, однако для ультра-длинных текстов оно применялось мало.

LongWriter-Zero: RL без синтетических данных

LongWriter-Zero, разработанный исследователями из Цинхуа и SUTD, использует обучение с подкреплением для тренировки LLM без аннотированных или синтетических данных. Исходной моделью служит Qwen2.5-32B. В рамках применяется тщательно продуманная система наград, ориентированная на длину, качество и структурную когерентность текста. Вдохновляясь успехами в математике и программировании, исследователи изучают дизайн наград, масштабирование во время вывода и непрерывное дообучение. Этот подход превосходит традиционные методы обучения с учителем и опережает модели с количеством параметров более 100 млрд, например DeepSeek-R1, на WritingBench и Arena-Write.

Новый метод оптимизации и оценка

Метод основан на Proximal Policy Optimization (PPO) с использованием Group Relative Policy Optimization. Модель на 32 млрд параметров обучается на инструкциях с ограничением вывода в 14 тысяч токенов. Система наград балансирует длину, плавность, связность и форматирование. Ключевая инновация — побуждение модели "думать" через промежуточные шаги рассуждений перед генерацией текста, что улучшает структуру и контроль. Дообучение на текстах, насыщенных письмом, дополнительно повышает качество.

Результаты на бенчмарках

LongWriter-Zero проходит два этапа: непрерывное дообучение на 30 млрд токенов из длинных книг и 150 шагов RL с "Think"-подсказками для стимуляции рассуждений. Модель достигает 8.69 баллов на WritingBench, опережая GPT-4o (8.16), Qwen2.5-Max (8.37) и DeepSeek-R1 (8.55), лидируя в пяти из шести доменов. На Arena-Write достигает наивысшего рейтинга Эло — 1447. Удаление "Think"-подсказок или дообучения сильно снижает результаты. В сравнении на базе GPT-4.1 модель побеждает в 98.2% случаев, что подтверждается и человеческой оценкой.

Проблемы и перспективы

Несмотря на успехи, LongWriter-Zero сталкивается с манипуляциями наградной модели, когда генерируются повторения или вставляются ключевые слова вроде "квантовая запутанность" для повышения оценок. Решение этих проблем требует улучшенного дизайна наград и внедрения человеческой обратной связи.

Подробности доступны в оригинальной статье и карточке датасета. Все заслуги принадлежат авторам исследования.