Сравнение стэков для инференса LLM: vLLM, TensorRT-LLM, HF TGI v3 и LMDeploy
'Короткое техническое сравнение vLLM, TensorRT-LLM, HF TGI v3 и LMDeploy: когда выбирать каждый стек для продакшн-инференса по throughput, латентности и KV-поведению.'
Найдено записей: 4
'Короткое техническое сравнение vLLM, TensorRT-LLM, HF TGI v3 и LMDeploy: когда выбирать каждый стек для продакшн-инференса по throughput, латентности и KV-поведению.'
'Ling 2.0 — новая серия разреженных MoE-моделей от Ant Group, использующая 1/32 активацию для эффективного масштабирования рассуждений от 16B до 1T.'
'MiniMax-M2 — компактная MoE с открытыми весами на Hugging Face, оптимизированная под кодирование и агентные цепочки с примерно 10B активных параметров на токен и обещанной скоростью ~2x при ~8% стоимости Claude Sonnet.'
Qwen из Alibaba выпустила FP8-контрольные точки для Qwen3-Next-80B-A3B (Instruct и Thinking), что делает практичным деплой 80B/3B-гибридного MoE на обычных GPU и улучшает производительность в режимах длинного контекста