NVIDIA представила Nemotron 3 для Agentic AI

Обзор

NVIDIA выпустила семью моделей Nemotron 3 в рамках комплексного стека для агентного ИИ, включая веса моделей, наборы данных и инструменты усиленного обучения. Семейство состоит из трех размеров: Nano, Super и Ultra, ориентированных на многопользовательские системы, требующие долгосрочного контекстного мышления при строгом контроле затрат на вывод.

Подробности моделей

Nemotron 3 Nano: Около 30 миллиардов параметров с 3 миллиардами активных на токен.
Nemotron 3 Super: Приблизительно 100 миллиардов параметров с до 10 миллиардов активных на токен.
Nemotron 3 Ultra: Содержит около 500 миллиардов параметров с до 50 миллиардов активных на токен.

Целевые рабочие нагрузки

Серия Nemotron 3 построена для эффективных открытых моделей в агентных приложениях.

Модель Nano

Nemotron 3 Nano – это гибридная модель Mamba Transformer с набором экспертов, которая обладает около 31.6 миллиарда параметров. Она активирует только 3.2 миллиарда при каждом проходе, что позволяет достичь высокой представительной способности при минимальных вычислениях.

Модели Super и Ultra

Super: Ориентирована на высокую точность для крупных многопользовательских приложений.
Ultra: Направлена на сложные исследовательские и планировочные рабочие процессы.

Основные моменты производительности

NVIDIA Nemotron 3 Nano обеспечивает приблизительно в четыре раза большую пропускную способность токенов по сравнению с Nemotron 2 Nano и значительно снижает использование токенов во время рассуждений. Она поддерживает нативную длину контекста до 1 миллиона токенов, что идеально подходит для многопользовательских систем, работающих с длинными документами и большими кодовыми базами.

Гибридная архитектура Mamba Transformer MoE

Основной дизайн включает в себя гибридную архитектуру Mamba Transformer с набором экспертов. Интерливование блоков Mamba 2, внимательных блоков и разреженных экспертных блоков в одном стеке оптимизирует эффективность рассуждений.

Объяснение компонентов

Долгосрочное моделирование: Mamba 2 обрабатывает обновления эффективно.
ИспользованиеSparse Expert: MoE обеспечивает масштабирование параметров без пропорционального увеличения вычислений, сосредоточив внимание только там, где это необходимо.

Для моделей Super и Ultra NVIDIA внедряет LatentMoE для повышения производительности и эффективности в прогнозировании токенов, позволяя проецировать данные в пространство более низких размерностей.

Данные для обучения и точность

Режим обучения для Nemotron 3 включает обширный набор данных, с использованием примерно 25 триллионов токенов, способствующих разнообразию по сравнению с предыдущими моделями. Super и Ultra используют 4-битный плавающий формат (NVFP4), оптимизируя пропускную способность и снижая нагрузку на память, сохраняя при этом точность.

Ключевые выводы

Открытое семейство моделей: Включает Nano, Super и Ultra с параметрами от 30 миллиардов до 500 миллиардов.
Гибридная архитектура: Поддерживает 1-миллионный контекст с разреженным набором экспертов.
Latent MoE: Снижает расходы на связь, обеспечивая больше специализированных экспертов.
Фокус на эффективности: Обучен на огромном наборе данных с использованием точности NVFP4 для повышения пропускной способности и минимизации использования памяти.