Сравнение стэков для инференса LLM: vLLM, TensorRT-LLM, HF TGI v3 и LMDeploy
'Короткое техническое сравнение vLLM, TensorRT-LLM, HF TGI v3 и LMDeploy: когда выбирать каждый стек для продакшн-инференса по throughput, латентности и KV-поведению.'
Найдено записей: 14
'Короткое техническое сравнение vLLM, TensorRT-LLM, HF TGI v3 и LMDeploy: когда выбирать каждый стек для продакшн-инференса по throughput, латентности и KV-поведению.'
Cerebras представила MiniMax-M2-REAP-162B-A10B — 30% REAP-прюнинг экспертов уменьшает память без заметной потери качества на задачах кода, рассуждений и вызова инструментов.
'Краткое сравнение шести ведущих рантаймов инференса в 2025 году: архитектуры, стратегии KV-кэша, производительность и сценарии применения.'
'IBM анонсировала Granite 4.0 Nano — восемь компактных моделей (350M и ~1B) в гибридных и трансформерных вариантах для локального и edge-инференса с корпоративным управлением.'
'MiniMax-M2 — компактная MoE с открытыми весами на Hugging Face, оптимизированная под кодирование и агентные цепочки с примерно 10B активных параметров на токен и обещанной скоростью ~2x при ~8% стоимости Claude Sonnet.'
kvcached вводит виртуальный эластичный KV-кэш для LLM, что сокращает потребление памяти и ускоряет активацию моделей при колокации на общих GPU.
'Liquid AI представила LFM2-8B-A1B — разреженный MoE с 8.3 млрд параметров, который активирует около 1.5 млрд параметров на токен и ориентирован на запуск на телефонах и edge-устройствах.'
'GLM-4.6 расширяет контекст до 200K токенов, сокращает потребление токенов в реальных задачах кодирования и предоставляет открытые веса для локального вывода и исследований.'
Qwen из Alibaba выпустила FP8-контрольные точки для Qwen3-Next-80B-A3B (Instruct и Thinking), что делает практичным деплой 80B/3B-гибридного MoE на обычных GPU и улучшает производительность в режимах длинного контекста
'MoonshotAI выпустил checkpoint-engine — решение для обновления весов на тысячах GPU примерно за 20 секунд, полезное для RL и масштабного сервинга с минимальным простоем.'
'AU-Harness — открытый инструментарий для масштабируемой и стандартизированной оценки аудио-LLM, ускоряющий эксперименты и расширяющий покрытие задач до диаризации и устного рассуждения'
'BentoML представила llm-optimizer для автоматизированного бенчмаркинга и настройки саморазмещаемых LLM и запустила LLM Performance Explorer с предварительно вычисленными результатами.'
'Метод DeepConf от Meta AI достигает 99.9% на AIME 2025 с открытой моделью GPT-OSS-120B, значительно снижая число генерируемых токенов и повышая точность рассуждений.'
Исследователи DeepSeek выпустили nano-vLLM — компактную и эффективную Python-реализацию движка vLLM, сочетающую простоту и производительность для вывода LLM.