Nous Research представляет NousCoder-14B: Конкурсная AI Модель
NousCoder-14B демонстрирует высокую точность в оценке программирования.
Обзор NousCoder-14B
Nous Research представила NousCoder-14B — конкурсную модель программирования, прошедшую пост-тренировку на Qwen3-14B с использованием обучения с подкреплением (RL) с проверяемыми наградами. На бенчмарке LiveCodeBench v6, действующем с 08.01.2024 по 05.01.2025, модель достигла точности Pass@1 67,87%, что на 7,08 процентных пункта выше базовой линии Qwen3-14B в 60,79%. Модель была обучена за 4 дня на 24 000 проверяемых задачах программирования с использованием 48 B200 GPU. Веса модели опубликованы под лицензией Apache 2.0 на Hugging Face.
Фокус на бенчмарк и значение Pass@1
LiveCodeBench v6 специально разработан для оценки конкурентных программирования. Набор тестов включает 454 задачи, использующих методику из проекта DeepCoder-14B от Agentica и Together AI. Он включает задачи из TACO Verified, PrimeIntellect SYNTHETIC 1 и предыдущие задачи LiveCodeBench до 31.07.2024. Метрика Pass@1 указывает долю задач, для которых первое сгенерированное решение корректно с учетом всех ограничений.
Конструкция данных для обучения RL
Датасеты для обучения состоят из проверяемых задач генерации кода, каждая из которых имеет эталонное решение и множество тестов. Обучающая выборка включает:
- TACO Verified
- PrimeIntellect SYNTHETIC 1
- Задачи LiveCodeBench до 31.07.2024
Оценочная выборка для этого исследования — LiveCodeBench v6, что обеспечивает необходимую строгость для 454 задач на заданный срок.
RL среда на основе Atropos и Modal
Среда RL построена с использованием фреймворка Atropos, который генерирует Python код для различных задач на основе стандартных команд. Модель получает шкалу наград на основе результатов тестирования:
- Награда +1, если сгенерированный код проходит все тесты.
- Награда -1 за любые ошибки, превышение временных или объемных ограничений.
Для обеспечения безопасного выполнения неподтвержденного кода используется Modal, который масштабируется автоматически; каждое развертывание обрабатывается в отдельном контейнере. Этот подход эффективно разделяет обучение и верификацию, поддерживая стабильность RL цикла.
Используемые цели: GRPO, DAPO, GSPO и GSPO+
NousCoder-14B использует Group Relative Policy Optimization (GRPO), не требуя отдельной модели ценности, для исследования трех целей:
- Dynamic Sampling Policy Optimization (DAPO)
- Group Sequence Policy Optimization (GSPO)
- Модифицированный вариант GSPO (GSPO+)
Эти цели функционируют на основе нормализованных наград группы. Хотя значения различий между ними на LiveCodeBench v6 скромные, DAPO достигает наивысшего Pass@1 67,87% при максимальной длине контекста 81,920 токенов.
Итеративное расширение контекста и фильтрация
Qwen3-14B поддерживает большой контекст, первоначально обучаясь на 32k и затем на 40k токенов, с последующим YaRN расширением контекста во время оценивания до 81,920 токенов. Внедрение фильтрации чрезмерных данных сбрасывает преимущества до нуля, когда сгенерированные программы превышают максимальный контекст, стратегически избегая штрафов и сохраняя качество решений.
Основные выводы
- NousCoder-14B, основанная на Qwen3-14B, демонстрирует отличные результаты в конкурсных задачах программирования с 67,87% Pass@1 на LiveCodeBench v6.
- Модель использует 24 000 проверенных задач и демонстрирует сильные результаты на отдельном тестовом наборе 454 задачи.
- Среда RL оптимизирована для эффективности, с наградами, тщательно разработанными для корректности и ограничения ресурсов.
- Цели GRPO вносят уникальный вклад в подходы к обучению с подкреплением с длинным контекстом.
- Методология обучения, включая расширение контекста и фильтрацию, приводит к созданию надежной, воспроизводимой модели.
Дополнительную информацию можно узнать, посетив Веса модели и Технические детали.
Switch Language
Read this article in English