MLPerf Inference v5.1 (2025): что значат результаты для GPU, CPU и ускорителей ИИ
Что на самом деле измеряет MLPerf Inference
MLPerf Inference оценивает полную систему (железо, рантайм и стек сервинга), запускающую предобученные модели при жёстких ограничениях по задержке и качеству. Результаты публикуются для наборов Datacenter и Edge с паттернами запросов, сгенерированными LoadGen, что сохраняет нейтральность по архитектурам и воспроизводимость. В Closed-делении модель и препроцессинг фиксированы для прямых сравнений; в Open-делении допускаются изменения, усложняющие сопоставление. Теги Availability — Available, Preview, RDI — указывают, является ли конфигурация серийной или экспериментальной.
Что изменилось в v5.1 (2025)
Обновление v5.1 (опубликовано 9 сентября 2025) вводит три современных рабочие нагрузки и расширяет интерактивный набор:
- DeepSeek-R1: первый бенчмарк для reasoning с контролируемыми требованиями.
- Llama-3.1-8B: задача суммаризации, заменяющая GPT-J в Closed-наборе.
- Whisper Large V3: обновлённая нагрузка для ASR.
Раунд показал 27 участников и появление новых процессоров/SKU: AMD Instinct MI355X, Intel Arc Pro B60 48GB Turbo, NVIDIA GB300, RTX 4000 Ada-PCIe-20GB и RTX Pro 6000 Blackwell Server Edition. Интерактивные сценарии расширены для моделирования агентских/чатовых нагрузок с жёсткими лимитами TTFT/TPOT.
Сценарии сервинга и их соответствие реальным рабочим нагрузкам
MLPerf выделяет четыре сценария, которые следует соотнести с SLA:
- Offline: максимизация пропускной способности без ограничения по задержке; важна пакетизация и планирование.
- Server: пуассоновские прибытия с p99-ограничением по задержке; ближе всего к чат/агент бэкендам.
- Single-Stream / Multi-Stream (Edge): строгая хвостовая задержка на поток; Multi-Stream нагружает параллелизм при фиксированных интервалах.
Каждому сценарию соответствует своя метрика (максимум Poisson throughput для Server; общая пропускная способность для Offline).
Метрики задержки для LLM: TTFT и TPOT
LLM-тесты теперь отчётливо включают TTFT (time-to-first-token) и TPOT (time-per-output-token). В v5.0 были ужесточены интерактивные лимиты для Llama-2-70B (p99 TTFT 450 мс, TPOT 40 мс), чтобы лучше отражать восприятие отклика пользователем. Для длинных контекстов Llama-3.1-405B установлены более высокие пределы (p99 TTFT 6 с, TPOT 175 мс). Эти ограничения перенесены в v5.1 и применяются к новым LLM и reasoning задачам.
Ключевые датасентровые цели и рабочие нагрузки
Ключевые Closed-цели в v5.1:
- LLM Q&A — Llama-2-70B (OpenOrca): Conversational 2000 мс/200 мс; Interactive 450 мс/40 мс; пороги качества 99% и 99.9%.
- LLM Summarization — Llama-3.1-8B (CNN/DailyMail): Conversational 2000 мс/100 мс; Interactive 500 мс/30 мс.
- Reasoning — DeepSeek-R1: TTFT 2000 мс / TPOT 80 мс; 99% от FP16 exact-match baseline.
- ASR — Whisper Large V3 (LibriSpeech): требования по WER.
- Long-context — Llama-3.1-405B: TTFT 6000 мс, TPOT 175 мс.
Старые CV/NLP записи (ResNet-50, RetinaNet, BERT-L, DLRM, 3D-UNet) сохраняются ради преемственности.
Отчёт по энергопотреблению и как читать заявления об эффективности
MLPerf Power (опционально) приводит замеры мощности системы при тех же запусках (Server/Offline: системная мощность; Single/Multi-Stream: энергия на поток). Только измеренные прогоны годятся для сравнений энергоэффективности; TDP и оценки вендоров не учитываются. В v5.1 есть публикации по питанию для датацентра и edge, но хотелось бы более широкого участия.
Как не ввести себя в заблуждение при чтении таблиц
Практические правила:
- Сравнивайте только Closed с Closed. Open-результаты могут использовать другие модели или квантизацию.
- Сверяйте цели по качеству: при более строгих требованиях (99.9% vs 99%) пропускная способность обычно падает.
- Помните, что MLPerf даёт системную пропускную способность при ограничениях. Деление на количество ускорителей даёт производную «на чип», которую MLPerf не определяет как основную метрику — используйте её лишь для приблизительной оценки бюджета.
- Фильтруйте по Availability (предпочитайте Available) и учитывайте Power-столбцы при анализе эффективности.
Интерпретация результатов 2025 по архитектурам
GPU: новые кристаллы особенно заметны в Server-Interactive и long-context нагрузках, где важны эффективность планировщика, KV-cache и работа с памятью наряду с FLOPs. Системы уровня стойки (например, GB300 NVL72) показывают самый высокий агрегатный throughput; при сравнении с одноузловыми системами нормализуйте по числу ускорителей и хостов.
CPU: записи только на CPU остаются важными базовыми линиями и показывают узкие места на стороне хоста — препроцессинг и диспетчеризация могут ограничивать ускорители в Server-режиме. В v5.1 появились новые Xeon 6 и гибридные стеки CPU+GPU; обращайте внимание на поколение хоста и конфигурацию памяти.
Альтернативные ускорители: v5.1 добавляет архитектурное разнообразие. Для Open-подач (например, с pruning/низкой точностью) проверяйте, что сравнение между системами сохранит одну и ту же division, модель, датасет, сценарий и качество.
Практический план выбора: как сопоставить бенчмарки с SLA
- Интерактивные чаты/агенты → Server-Interactive на Llama-2-70B/Llama-3.1-8B/DeepSeek-R1; проверяйте p99 TTFT/TPOT и качество.
- Пакетная суммаризация/ETL → Offline на Llama-3.1-8B; пропускная способность на стойку определяет стоимость.
- ASR фронтенды → Whisper V3 Server с ограничением по хвостовой задержке; важна пропускная способность памяти и препроцессинг аудио.
- Аналитика с длинным контекстом → Llama-3.1-405B; оцените, устраивает ли UX TTFT 6 с и TPOT 175 мс.
Что сигнализирует цикл 2025
Интерактивный LLM-сервис становится обязательным компонентом. Жёсткие TTFT/TPOT в v5.x выставляют на показ различия в планировании, пакетировании, paged attention и управлении KV-cache — ожидайте других лидеров по сравнению с чисто Offline-оптимизированными системами. Reasoning теперь бенчмаркуется: DeepSeek-R1 нагружает систему и память иначе, чем генерация следующего токена. Расширение модальностей (Whisper V3, SDXL) выявляет узкие места ввода-вывода и пропускной способности.
Фильтруйте результаты по рабочим нагрузкам, сопоставимым с продакшн-SLA, и проверяйте утверждения на страницах MLCommons и в методологии по питанию.