Nemotron Nano 2 от NVIDIA: высокая скорость и работа с длинным контекстом

Nemotron Nano 2 — новая линейка гибридных Mamba-Transformer LLM от NVIDIA, нацеленная на быстрые рассуждения и обработку длинных контекстов при реальной возможности развертывания на одной средней по классу GPU. Релиз выделяется прозрачностью: большинство предобучающих и пост-тренировочных наборов данных, рецептов и чекпоинтов опубликованы для воспроизводимости и использования сообществом.

Основные моменты

До 6.3× более высокая пропускная способность по сравнению с моделями схожего размера в задачах, требующих интенсивного вывода, без потери точности.
Высокие результаты в задачах рассуждения, программирования, математики и мультиязычных задачах, часто сопоставимые с лучшими открытыми моделями или превосходящие их.
Поддержка 128K токенов контекста на одной NVIDIA A10G (22 ГиБ) благодаря эффективной обрезке и гибридной архитектуре.
Большая часть данных и весов опубликована с разрешающей лицензией на Hugging Face.

Гибридная архитектура: Mamba и трансформер

Nemotron Nano 2 использует гибридную архитектуру Mamba-Transformer по мотивам Nemotron-H. Большая часть слоев самовнимания заменена слоями состояния Mamba-2, при этом около 8% слоев сохраняют разреженное самовнимание для поддержки дальних зависимостей. Вариант на 9B параметров включает:

9 миллиардов параметров с 56 активными слоями из предобученных 62.
Скрытый размер 4480, grouped-query attention и слои Mamba-2.
Перемежение SSM-слоев и разреженного внимания вместе с большими FFN для пропускной способности и удержания длинных последовательностей.

Такая структура ориентирована на задачи, требующие пошаговых рассуждений и длинных «трейсов мышления», где чисто трансформерные модели часто упираются в память или производительность.

Рецепты обучения и открытость данных

NVIDIA дистиллировала и обучила модели из учителя на 12B параметров, получив 9B варианты с широким, тщательно отобранным корпусом. Объём предобучающего корпуса достигает около 20 триллионов токенов, включая веб, математику, код, мультиязычные и академические домены. Основные опубликованные наборы:

Nemotron-CC-v2: мультиязычный веб-корпус (15 языков) с синтетическими Q&A и дедупликацией.
Nemotron-CC-Math: 133B токенов математического контента в формате LaTeX, с выделенным высококачественным подмножеством в 52B токенов.
Nemotron-Pretraining-Code: отфильтрованный код с GitHub с де-контаминацией и дедупликацией.
Nemotron-Pretraining-SFT: синтетические датасеты для обучения следованию инструкциям в STEM и задачах рассуждения.

Пост-тренировка включает свыше 80B токенов SFT, RLHF, данных для вызова инструментов и мультиязычной дообучки. Большинство наборов, рецептов и чекпоинтов доступны публично для воспроизводимости.

Компрессия, дистилляция и оптимизация под память

Процесс компрессии включает дистилляцию знаний, Mamba-прунинг и поиск архитектуры, ориентированный на память:

Дистилляция из 12B в 9B с аккуратной обрезкой слоёв, размерностей FFN и ширины эмбеддингов.
Многоэтапное SFT и усиленное обучение (DPO, GRPO) и механизмы управления «бюджетом рассуждений» для контроля токенов вывода.
Архитектурный поиск и оптимизация кеша ключ-значение, чтобы модель и кеш вмещались в память A10G при 128K контексте.

Благодаря этим шагам модели способны выполнять инференс с длинным контекстом и сохранять высокую скорость генерации на средней по классу GPU.

Бенчмарки и пропускная способность

Nemotron-Nano-9B-v2 демонстрирует высокие результаты по MMLU, GSM8K CoT, MATH, HumanEval+, RULER-128K и мультиязычной математике, одновременно показывая существенные преимущества по пропускной способности в задачах с длинными последовательностями. Сообщаемые приросты производительности достигают до 6.3× по сравнению с Qwen3-8B в сценариях, требующих интенсивной генерации. Модель может работать с batch size=1 при 128K контексте на A10G, что ранее было непрактично для многих моделей.

Значение для разработчиков и исследований

Nemotron Nano 2 снижает барьеры для экспериментов с задачами длинного контекста и реальными сценариями рассуждений. Открытость данных и рецептов повышает воспроизводимость, даёт возможность сообществу проверять результаты и быстрее улучшать методы работы с длинными последовательностями. Гибридный подход SSM плюс разреженное внимание показывает рабочую альтернативу традиционным компромиссам между пропускной способностью, объёмом памяти и сохранением дальних зависимостей.

Где смотреть модели и материалы

Технические детали, статью, датасеты и чекпоинты NVIDIA публикует на Hugging Face, а учебные материалы, код и ноутбуки доступны на GitHub для воспроизведения и экспериментов с моделями.

Nemotron Nano 2: LLM с поддержкой 128K токенов и ускорением до 6× на одной A10G