NVIDIA и Mistral AI достигли 10-кратного увеличения скорости вывода

Обзор Партнерства

NVIDIA объявила о значительном расширении своего стратегического сотрудничества с Mistral AI. Это партнерство совпадает с выпуском новой семейства открытых моделей Mistral 3, что знаменует собой ключевой момент, когда аппаратное ускорение и архитектура открытых моделей объединяются для переопределения эталонов производительности.

Улучшение Производительности: Игра Меняющая

Это сотрудничество приводит к резкому росту скорости вывода: новые модели теперь работают до 10 раз быстрее на системах NVIDIA GB200 NVL72 по сравнению с предыдущим поколением H200, открывая беспрецедентную эффективность для ИИ корпоративного уровня. Это обещает решить проблемы с задержкой и затратами, которые исторически мешали массовому развертыванию моделей рассуждений.

Революционный Шаг: Фокус на Blackwell

По мере изменения требований предприятий - от простых чат-ботов к высокоподвижным агентам длительного контекста, эффективность вывода становится критической точкой. Сотрудничество между NVIDIA и Mistral AI адресует эту проблему, оптимизируя семью Mistral 3 специально для архитектуры NVIDIA Blackwell.

Будучи важными для систем ИИ, айти, которые должны обеспечивать как отличный пользовательский опыт (UX), так и экономичное масштабирование, NVIDIA GB200 NVL72 предоставляет до 10 раз большую производительность, чем предыдущая H200. Это приводит к значительно более высокой энергетической эффективности, превышающей 5,000,000 токенов в секунду на мегаватт (MW) при скорости взаимодействия пользователя 40 токенов в секунду.

Семья Mistral 3: Разработана для Эффективности

Двигателем этого прорыва производительности является только что выпущенная семейство Mistral 3, предлагающее производительность, точность и возможности настройки, соответствующие ведущим стандартам. Этот набор охватывает спектр от крупных нагрузок центров данных до вывода на устройствах на краю.

Mistral Large 3: Модель самого высокого уровня

На высшей позиции этой иерархии находится Mistral Large 3, высококлассная разреженная мультимодальная и многоязычная модель смешанного эксперта (MoE).

Общее количество параметров: 675 миллиардов
Активные параметры: 41 миллиард
Окно контекста: 256K токенов
Обученная на GPU NVIDIA Hopper, Mistral Large 3 предназначена для обработки сложных задач рассуждения, предлагая сравнение с закрытыми моделями высшего уровня, сохраняя при этом гибкость открытых весов.

Ministral 3: Высокопроизводительные Модели на Краю

Дополняя крупную модель, Ministral 3 - это набор маленьких, плотных, высокопроизводительных моделей, разработанных для скорости и универсальности.

Размеры: 3B, 8B и 14B параметров.
Варианты: Base, Instruct и Reasoning для каждого размера (всего девять моделей).
Окно контекста: 256K токенов для всех моделей.
Серия Ministral 3 преуспевает в бенчмарке GPQA Diamond Accuracy, используя на 100 токенов меньше, при этом обеспечивая более высокую точность.

Технический Прогресс: Оптимизационная Стек

Утверждение о "10-кратном" повышении производительности основано на комплексной оптимизации, разработанной совместно инженерами Mistral и NVIDIA с использованием подхода экстремального совместного проектирования.

TensorRT-LLM Wide Expert Parallelism (Wide-EP)

Для полной реализации масштабов GB200 NVL72 NVIDIA использует Wide Expert Parallelism в TensorRT-LLM. Эта технология увеличивает производительность, оптимизируя ядра MoE GroupGEMM, распределение экспертов и балансировку нагрузки. Она также использует согласованную память NVL72 и NVLink fabric.

Нативная Квантизация NVFP4

Один из основных технических достижений - это поддержка NVFP4, формата квантования, присущего архитектуре Blackwell. Для Mistral Large 3 разработчики могут развернуть квантованный NVFP4 контрольный пункт оффлайн, используя открытую библиотеку llm-compressor.

Дискретная Подача с NVIDIA Dynamo

Mistral Large 3 использует NVIDIA Dynamo, платформу низкой задержки для распределенного вывода, для дискретизации фаз предзаполнения и декодирования.

Широкие Возможности Развертывания: От Облака до Канта

Оптимизация расширяется за пределы крупных центров данных. Серия Ministral 3 разработана для развертывания на краю, обеспечивая гибкость для различных нужд.

Ускорение RTX и Jetson

Плотные модели Ministral оптимизированы для платформ, таких как NVIDIA GeForce RTX AI PC и модули робототехники NVIDIA Jetson.

Широкая Поддержка Фреймворков

NVIDIA сотрудничает с открытыми сообществами для обеспечения использования этих моделей везде на различных фреймворках, включая Llama.cpp и vLLM.

Продуктовые Решения с NVIDIA NIM

Для упрощения внедрения в предприятия новые модели доступны через микросервисы NVIDIA NIM, позволяя развертывание с минимальными настройками.

Новый Стандарт для Открытого Интеллекта

Выпуск моделей Mistral 3 с акселерацией NVIDIA представляет собой значительный прорыв для ИИ в сообществе с открытым исходным кодом. С ожидаемыми оптимизациями, такими как спекулятивное декодирование и предсказание нескольких токенов, дальнейшее повышение производительности делает Mistral 3 ключевым элементом для ИИ-приложений.