Nemotron Nano 2: LLM с поддержкой 128K токенов и ускорением до 6× на одной A10G
'NVIDIA выпустила Nemotron Nano 2 — гибридные LLM с поддержкой 128K токенов и до 6× ускорением на одной A10G GPU; большинство данных и рецептов опубликованы.'
Nemotron Nano 2 от NVIDIA: высокая скорость и работа с длинным контекстом
Nemotron Nano 2 — новая линейка гибридных Mamba-Transformer LLM от NVIDIA, нацеленная на быстрые рассуждения и обработку длинных контекстов при реальной возможности развертывания на одной средней по классу GPU. Релиз выделяется прозрачностью: большинство предобучающих и пост-тренировочных наборов данных, рецептов и чекпоинтов опубликованы для воспроизводимости и использования сообществом.
Основные моменты
- До 6.3× более высокая пропускная способность по сравнению с моделями схожего размера в задачах, требующих интенсивного вывода, без потери точности.
- Высокие результаты в задачах рассуждения, программирования, математики и мультиязычных задачах, часто сопоставимые с лучшими открытыми моделями или превосходящие их.
- Поддержка 128K токенов контекста на одной NVIDIA A10G (22 ГиБ) благодаря эффективной обрезке и гибридной архитектуре.
- Большая часть данных и весов опубликована с разрешающей лицензией на Hugging Face.
Гибридная архитектура: Mamba и трансформер
Nemotron Nano 2 использует гибридную архитектуру Mamba-Transformer по мотивам Nemotron-H. Большая часть слоев самовнимания заменена слоями состояния Mamba-2, при этом около 8% слоев сохраняют разреженное самовнимание для поддержки дальних зависимостей. Вариант на 9B параметров включает:
- 9 миллиардов параметров с 56 активными слоями из предобученных 62.
- Скрытый размер 4480, grouped-query attention и слои Mamba-2.
- Перемежение SSM-слоев и разреженного внимания вместе с большими FFN для пропускной способности и удержания длинных последовательностей.
Такая структура ориентирована на задачи, требующие пошаговых рассуждений и длинных «трейсов мышления», где чисто трансформерные модели часто упираются в память или производительность.
Рецепты обучения и открытость данных
NVIDIA дистиллировала и обучила модели из учителя на 12B параметров, получив 9B варианты с широким, тщательно отобранным корпусом. Объём предобучающего корпуса достигает около 20 триллионов токенов, включая веб, математику, код, мультиязычные и академические домены. Основные опубликованные наборы:
- Nemotron-CC-v2: мультиязычный веб-корпус (15 языков) с синтетическими Q&A и дедупликацией.
- Nemotron-CC-Math: 133B токенов математического контента в формате LaTeX, с выделенным высококачественным подмножеством в 52B токенов.
- Nemotron-Pretraining-Code: отфильтрованный код с GitHub с де-контаминацией и дедупликацией.
- Nemotron-Pretraining-SFT: синтетические датасеты для обучения следованию инструкциям в STEM и задачах рассуждения.
Пост-тренировка включает свыше 80B токенов SFT, RLHF, данных для вызова инструментов и мультиязычной дообучки. Большинство наборов, рецептов и чекпоинтов доступны публично для воспроизводимости.
Компрессия, дистилляция и оптимизация под память
Процесс компрессии включает дистилляцию знаний, Mamba-прунинг и поиск архитектуры, ориентированный на память:
- Дистилляция из 12B в 9B с аккуратной обрезкой слоёв, размерностей FFN и ширины эмбеддингов.
- Многоэтапное SFT и усиленное обучение (DPO, GRPO) и механизмы управления «бюджетом рассуждений» для контроля токенов вывода.
- Архитектурный поиск и оптимизация кеша ключ-значение, чтобы модель и кеш вмещались в память A10G при 128K контексте.
Благодаря этим шагам модели способны выполнять инференс с длинным контекстом и сохранять высокую скорость генерации на средней по классу GPU.
Бенчмарки и пропускная способность
Nemotron-Nano-9B-v2 демонстрирует высокие результаты по MMLU, GSM8K CoT, MATH, HumanEval+, RULER-128K и мультиязычной математике, одновременно показывая существенные преимущества по пропускной способности в задачах с длинными последовательностями. Сообщаемые приросты производительности достигают до 6.3× по сравнению с Qwen3-8B в сценариях, требующих интенсивной генерации. Модель может работать с batch size=1 при 128K контексте на A10G, что ранее было непрактично для многих моделей.
Значение для разработчиков и исследований
Nemotron Nano 2 снижает барьеры для экспериментов с задачами длинного контекста и реальными сценариями рассуждений. Открытость данных и рецептов повышает воспроизводимость, даёт возможность сообществу проверять результаты и быстрее улучшать методы работы с длинными последовательностями. Гибридный подход SSM плюс разреженное внимание показывает рабочую альтернативу традиционным компромиссам между пропускной способностью, объёмом памяти и сохранением дальних зависимостей.
Где смотреть модели и материалы
Технические детали, статью, датасеты и чекпоинты NVIDIA публикует на Hugging Face, а учебные материалы, код и ноутбуки доступны на GitHub для воспроизведения и экспериментов с моделями.
Switch Language
Read this article in English