NVIDIA представила Nemotron 3 для Agentic AI
Познакомьтесь с новейшим релизом Nemotron 3 от NVIDIA, разработанным для долгосрочного контекстного мышления в агентном ИИ.
Обзор
NVIDIA выпустила семью моделей Nemotron 3 в рамках комплексного стека для агентного ИИ, включая веса моделей, наборы данных и инструменты усиленного обучения. Семейство состоит из трех размеров: Nano, Super и Ultra, ориентированных на многопользовательские системы, требующие долгосрочного контекстного мышления при строгом контроле затрат на вывод.
Подробности моделей
- Nemotron 3 Nano: Около 30 миллиардов параметров с 3 миллиардами активных на токен.
- Nemotron 3 Super: Приблизительно 100 миллиардов параметров с до 10 миллиардов активных на токен.
- Nemotron 3 Ultra: Содержит около 500 миллиардов параметров с до 50 миллиардов активных на токен.
Целевые рабочие нагрузки
Серия Nemotron 3 построена для эффективных открытых моделей в агентных приложениях.
Модель Nano
Nemotron 3 Nano – это гибридная модель Mamba Transformer с набором экспертов, которая обладает около 31.6 миллиарда параметров. Она активирует только 3.2 миллиарда при каждом проходе, что позволяет достичь высокой представительной способности при минимальных вычислениях.
Модели Super и Ultra
- Super: Ориентирована на высокую точность для крупных многопользовательских приложений.
- Ultra: Направлена на сложные исследовательские и планировочные рабочие процессы.
Основные моменты производительности
NVIDIA Nemotron 3 Nano обеспечивает приблизительно в четыре раза большую пропускную способность токенов по сравнению с Nemotron 2 Nano и значительно снижает использование токенов во время рассуждений. Она поддерживает нативную длину контекста до 1 миллиона токенов, что идеально подходит для многопользовательских систем, работающих с длинными документами и большими кодовыми базами.
Гибридная архитектура Mamba Transformer MoE
Основной дизайн включает в себя гибридную архитектуру Mamba Transformer с набором экспертов. Интерливование блоков Mamba 2, внимательных блоков и разреженных экспертных блоков в одном стеке оптимизирует эффективность рассуждений.
Объяснение компонентов
- Долгосрочное моделирование: Mamba 2 обрабатывает обновления эффективно.
- ИспользованиеSparse Expert: MoE обеспечивает масштабирование параметров без пропорционального увеличения вычислений, сосредоточив внимание только там, где это необходимо.
Для моделей Super и Ultra NVIDIA внедряет LatentMoE для повышения производительности и эффективности в прогнозировании токенов, позволяя проецировать данные в пространство более низких размерностей.
Данные для обучения и точность
Режим обучения для Nemotron 3 включает обширный набор данных, с использованием примерно 25 триллионов токенов, способствующих разнообразию по сравнению с предыдущими моделями. Super и Ultra используют 4-битный плавающий формат (NVFP4), оптимизируя пропускную способность и снижая нагрузку на память, сохраняя при этом точность.
Ключевые выводы
- Открытое семейство моделей: Включает Nano, Super и Ultra с параметрами от 30 миллиардов до 500 миллиардов.
- Гибридная архитектура: Поддерживает 1-миллионный контекст с разреженным набором экспертов.
- Latent MoE: Снижает расходы на связь, обеспечивая больше специализированных экспертов.
- Фокус на эффективности: Обучен на огромном наборе данных с использованием точности NVFP4 для повышения пропускной способности и минимизации использования памяти.
Switch Language
Read this article in English