Nous Research представляет NousCoder-14B: Конкурсная AI Модель

Обзор NousCoder-14B

Nous Research представила NousCoder-14B — конкурсную модель программирования, прошедшую пост-тренировку на Qwen3-14B с использованием обучения с подкреплением (RL) с проверяемыми наградами. На бенчмарке LiveCodeBench v6, действующем с 08.01.2024 по 05.01.2025, модель достигла точности Pass@1 67,87%, что на 7,08 процентных пункта выше базовой линии Qwen3-14B в 60,79%. Модель была обучена за 4 дня на 24 000 проверяемых задачах программирования с использованием 48 B200 GPU. Веса модели опубликованы под лицензией Apache 2.0 на Hugging Face.

Фокус на бенчмарк и значение Pass@1

LiveCodeBench v6 специально разработан для оценки конкурентных программирования. Набор тестов включает 454 задачи, использующих методику из проекта DeepCoder-14B от Agentica и Together AI. Он включает задачи из TACO Verified, PrimeIntellect SYNTHETIC 1 и предыдущие задачи LiveCodeBench до 31.07.2024. Метрика Pass@1 указывает долю задач, для которых первое сгенерированное решение корректно с учетом всех ограничений.

Конструкция данных для обучения RL

Датасеты для обучения состоят из проверяемых задач генерации кода, каждая из которых имеет эталонное решение и множество тестов. Обучающая выборка включает:

TACO Verified
PrimeIntellect SYNTHETIC 1
Задачи LiveCodeBench до 31.07.2024

Оценочная выборка для этого исследования — LiveCodeBench v6, что обеспечивает необходимую строгость для 454 задач на заданный срок.

RL среда на основе Atropos и Modal

Среда RL построена с использованием фреймворка Atropos, который генерирует Python код для различных задач на основе стандартных команд. Модель получает шкалу наград на основе результатов тестирования:

Награда +1, если сгенерированный код проходит все тесты.
Награда -1 за любые ошибки, превышение временных или объемных ограничений.

Для обеспечения безопасного выполнения неподтвержденного кода используется Modal, который масштабируется автоматически; каждое развертывание обрабатывается в отдельном контейнере. Этот подход эффективно разделяет обучение и верификацию, поддерживая стабильность RL цикла.

Используемые цели: GRPO, DAPO, GSPO и GSPO+

NousCoder-14B использует Group Relative Policy Optimization (GRPO), не требуя отдельной модели ценности, для исследования трех целей:

Dynamic Sampling Policy Optimization (DAPO)
Group Sequence Policy Optimization (GSPO)
Модифицированный вариант GSPO (GSPO+)

Эти цели функционируют на основе нормализованных наград группы. Хотя значения различий между ними на LiveCodeBench v6 скромные, DAPO достигает наивысшего Pass@1 67,87% при максимальной длине контекста 81,920 токенов.

Итеративное расширение контекста и фильтрация

Qwen3-14B поддерживает большой контекст, первоначально обучаясь на 32k и затем на 40k токенов, с последующим YaRN расширением контекста во время оценивания до 81,920 токенов. Внедрение фильтрации чрезмерных данных сбрасывает преимущества до нуля, когда сгенерированные программы превышают максимальный контекст, стратегически избегая штрафов и сохраняя качество решений.

Основные выводы

NousCoder-14B, основанная на Qwen3-14B, демонстрирует отличные результаты в конкурсных задачах программирования с 67,87% Pass@1 на LiveCodeBench v6.
Модель использует 24 000 проверенных задач и демонстрирует сильные результаты на отдельном тестовом наборе 454 задачи.
Среда RL оптимизирована для эффективности, с наградами, тщательно разработанными для корректности и ограничения ресурсов.
Цели GRPO вносят уникальный вклад в подходы к обучению с подкреплением с длинным контекстом.
Методология обучения, включая расширение контекста и фильтрацию, приводит к созданию надежной, воспроизводимой модели.

Дополнительную информацию можно узнать, посетив Веса модели и Технические детали.