Битва рантаймов: 6 лучших движков инференса LLM в 2025 году
'Краткое сравнение шести ведущих рантаймов инференса в 2025 году: архитектуры, стратегии KV-кэша, производительность и сценарии применения.'
Найдено записей: 6
'Краткое сравнение шести ведущих рантаймов инференса в 2025 году: архитектуры, стратегии KV-кэша, производительность и сценарии применения.'
'MiniMax-M2 — компактная MoE с открытыми весами на Hugging Face, оптимизированная под кодирование и агентные цепочки с примерно 10B активных параметров на токен и обещанной скоростью ~2x при ~8% стоимости Claude Sonnet.'
kvcached вводит виртуальный эластичный KV-кэш для LLM, что сокращает потребление памяти и ускоряет активацию моделей при колокации на общих GPU.
'GLM-4.6 расширяет контекст до 200K токенов, сокращает потребление токенов в реальных задачах кодирования и предоставляет открытые веса для локального вывода и исследований.'
'BentoML представила llm-optimizer для автоматизированного бенчмаркинга и настройки саморазмещаемых LLM и запустила LLM Performance Explorer с предварительно вычисленными результатами.'
Исследователи из UC Berkeley и UCSF разработали Adaptive Parallel Reasoning — метод, позволяющий большим языковым моделям динамически распределять вычисления вывода по параллельным потокам, повышая эффективность рассуждений без превышения контекстных ограничений.