MLPerf Inference v5.1 (2025): что значат результаты для GPU, CPU и ускорителей ИИ

Что на самом деле измеряет MLPerf Inference

MLPerf Inference оценивает полную систему (железо, рантайм и стек сервинга), запускающую предобученные модели при жёстких ограничениях по задержке и качеству. Результаты публикуются для наборов Datacenter и Edge с паттернами запросов, сгенерированными LoadGen, что сохраняет нейтральность по архитектурам и воспроизводимость. В Closed-делении модель и препроцессинг фиксированы для прямых сравнений; в Open-делении допускаются изменения, усложняющие сопоставление. Теги Availability — Available, Preview, RDI — указывают, является ли конфигурация серийной или экспериментальной.

Что изменилось в v5.1 (2025)

Обновление v5.1 (опубликовано 9 сентября 2025) вводит три современных рабочие нагрузки и расширяет интерактивный набор:

Раунд показал 27 участников и появление новых процессоров/SKU: AMD Instinct MI355X, Intel Arc Pro B60 48GB Turbo, NVIDIA GB300, RTX 4000 Ada-PCIe-20GB и RTX Pro 6000 Blackwell Server Edition. Интерактивные сценарии расширены для моделирования агентских/чатовых нагрузок с жёсткими лимитами TTFT/TPOT.

Сценарии сервинга и их соответствие реальным рабочим нагрузкам

MLPerf выделяет четыре сценария, которые следует соотнести с SLA:

Каждому сценарию соответствует своя метрика (максимум Poisson throughput для Server; общая пропускная способность для Offline).

Метрики задержки для LLM: TTFT и TPOT

LLM-тесты теперь отчётливо включают TTFT (time-to-first-token) и TPOT (time-per-output-token). В v5.0 были ужесточены интерактивные лимиты для Llama-2-70B (p99 TTFT 450 мс, TPOT 40 мс), чтобы лучше отражать восприятие отклика пользователем. Для длинных контекстов Llama-3.1-405B установлены более высокие пределы (p99 TTFT 6 с, TPOT 175 мс). Эти ограничения перенесены в v5.1 и применяются к новым LLM и reasoning задачам.

Ключевые датасентровые цели и рабочие нагрузки

Ключевые Closed-цели в v5.1:

Старые CV/NLP записи (ResNet-50, RetinaNet, BERT-L, DLRM, 3D-UNet) сохраняются ради преемственности.

Отчёт по энергопотреблению и как читать заявления об эффективности

MLPerf Power (опционально) приводит замеры мощности системы при тех же запусках (Server/Offline: системная мощность; Single/Multi-Stream: энергия на поток). Только измеренные прогоны годятся для сравнений энергоэффективности; TDP и оценки вендоров не учитываются. В v5.1 есть публикации по питанию для датацентра и edge, но хотелось бы более широкого участия.

Как не ввести себя в заблуждение при чтении таблиц

Практические правила:

Интерпретация результатов 2025 по архитектурам

GPU: новые кристаллы особенно заметны в Server-Interactive и long-context нагрузках, где важны эффективность планировщика, KV-cache и работа с памятью наряду с FLOPs. Системы уровня стойки (например, GB300 NVL72) показывают самый высокий агрегатный throughput; при сравнении с одноузловыми системами нормализуйте по числу ускорителей и хостов.

CPU: записи только на CPU остаются важными базовыми линиями и показывают узкие места на стороне хоста — препроцессинг и диспетчеризация могут ограничивать ускорители в Server-режиме. В v5.1 появились новые Xeon 6 и гибридные стеки CPU+GPU; обращайте внимание на поколение хоста и конфигурацию памяти.

Альтернативные ускорители: v5.1 добавляет архитектурное разнообразие. Для Open-подач (например, с pruning/низкой точностью) проверяйте, что сравнение между системами сохранит одну и ту же division, модель, датасет, сценарий и качество.

Практический план выбора: как сопоставить бенчмарки с SLA

Что сигнализирует цикл 2025

Интерактивный LLM-сервис становится обязательным компонентом. Жёсткие TTFT/TPOT в v5.x выставляют на показ различия в планировании, пакетировании, paged attention и управлении KV-cache — ожидайте других лидеров по сравнению с чисто Offline-оптимизированными системами. Reasoning теперь бенчмаркуется: DeepSeek-R1 нагружает систему и память иначе, чем генерация следующего токена. Расширение модальностей (Whisper V3, SDXL) выявляет узкие места ввода-вывода и пропускной способности.

Фильтруйте результаты по рабочим нагрузкам, сопоставимым с продакшн-SLA, и проверяйте утверждения на страницах MLCommons и в методологии по питанию.