NVIDIA и Mistral AI достигли 10-кратного увеличения скорости вывода
NVIDIA и Mistral AI анонсируют партнерство, которое повышает эффективность ИИ с 10-кратным увеличением скорости вывода на системах GB200 NVL72.
Обзор Партнерства
NVIDIA объявила о значительном расширении своего стратегического сотрудничества с Mistral AI. Это партнерство совпадает с выпуском новой семейства открытых моделей Mistral 3, что знаменует собой ключевой момент, когда аппаратное ускорение и архитектура открытых моделей объединяются для переопределения эталонов производительности.
Улучшение Производительности: Игра Меняющая
Это сотрудничество приводит к резкому росту скорости вывода: новые модели теперь работают до 10 раз быстрее на системах NVIDIA GB200 NVL72 по сравнению с предыдущим поколением H200, открывая беспрецедентную эффективность для ИИ корпоративного уровня. Это обещает решить проблемы с задержкой и затратами, которые исторически мешали массовому развертыванию моделей рассуждений.
Революционный Шаг: Фокус на Blackwell
По мере изменения требований предприятий - от простых чат-ботов к высокоподвижным агентам длительного контекста, эффективность вывода становится критической точкой. Сотрудничество между NVIDIA и Mistral AI адресует эту проблему, оптимизируя семью Mistral 3 специально для архитектуры NVIDIA Blackwell.
Будучи важными для систем ИИ, айти, которые должны обеспечивать как отличный пользовательский опыт (UX), так и экономичное масштабирование, NVIDIA GB200 NVL72 предоставляет до 10 раз большую производительность, чем предыдущая H200. Это приводит к значительно более высокой энергетической эффективности, превышающей 5,000,000 токенов в секунду на мегаватт (MW) при скорости взаимодействия пользователя 40 токенов в секунду.
Семья Mistral 3: Разработана для Эффективности
Двигателем этого прорыва производительности является только что выпущенная семейство Mistral 3, предлагающее производительность, точность и возможности настройки, соответствующие ведущим стандартам. Этот набор охватывает спектр от крупных нагрузок центров данных до вывода на устройствах на краю.
Mistral Large 3: Модель самого высокого уровня
На высшей позиции этой иерархии находится Mistral Large 3, высококлассная разреженная мультимодальная и многоязычная модель смешанного эксперта (MoE).
- Общее количество параметров: 675 миллиардов
- Активные параметры: 41 миллиард
- Окно контекста: 256K токенов
Обученная на GPU NVIDIA Hopper, Mistral Large 3 предназначена для обработки сложных задач рассуждения, предлагая сравнение с закрытыми моделями высшего уровня, сохраняя при этом гибкость открытых весов.
Ministral 3: Высокопроизводительные Модели на Краю
Дополняя крупную модель, Ministral 3 - это набор маленьких, плотных, высокопроизводительных моделей, разработанных для скорости и универсальности.
- Размеры: 3B, 8B и 14B параметров.
- Варианты: Base, Instruct и Reasoning для каждого размера (всего девять моделей).
- Окно контекста: 256K токенов для всех моделей.
Серия Ministral 3 преуспевает в бенчмарке GPQA Diamond Accuracy, используя на 100 токенов меньше, при этом обеспечивая более высокую точность.
Технический Прогресс: Оптимизационная Стек
Утверждение о "10-кратном" повышении производительности основано на комплексной оптимизации, разработанной совместно инженерами Mistral и NVIDIA с использованием подхода экстремального совместного проектирования.
TensorRT-LLM Wide Expert Parallelism (Wide-EP)
Для полной реализации масштабов GB200 NVL72 NVIDIA использует Wide Expert Parallelism в TensorRT-LLM. Эта технология увеличивает производительность, оптимизируя ядра MoE GroupGEMM, распределение экспертов и балансировку нагрузки. Она также использует согласованную память NVL72 и NVLink fabric.
Нативная Квантизация NVFP4
Один из основных технических достижений - это поддержка NVFP4, формата квантования, присущего архитектуре Blackwell. Для Mistral Large 3 разработчики могут развернуть квантованный NVFP4 контрольный пункт оффлайн, используя открытую библиотеку llm-compressor.
Дискретная Подача с NVIDIA Dynamo
Mistral Large 3 использует NVIDIA Dynamo, платформу низкой задержки для распределенного вывода, для дискретизации фаз предзаполнения и декодирования.
Широкие Возможности Развертывания: От Облака до Канта
Оптимизация расширяется за пределы крупных центров данных. Серия Ministral 3 разработана для развертывания на краю, обеспечивая гибкость для различных нужд.
Ускорение RTX и Jetson
Плотные модели Ministral оптимизированы для платформ, таких как NVIDIA GeForce RTX AI PC и модули робототехники NVIDIA Jetson.
Широкая Поддержка Фреймворков
NVIDIA сотрудничает с открытыми сообществами для обеспечения использования этих моделей везде на различных фреймворках, включая Llama.cpp и vLLM.
Продуктовые Решения с NVIDIA NIM
Для упрощения внедрения в предприятия новые модели доступны через микросервисы NVIDIA NIM, позволяя развертывание с минимальными настройками.
Новый Стандарт для Открытого Интеллекта
Выпуск моделей Mistral 3 с акселерацией NVIDIA представляет собой значительный прорыв для ИИ в сообществе с открытым исходным кодом. С ожидаемыми оптимизациями, такими как спекулятивное декодирование и предсказание нескольких токенов, дальнейшее повышение производительности делает Mistral 3 ключевым элементом для ИИ-приложений.
Switch Language
Read this article in English