FILTER MODE ACTIVE

#vLLM

Найдено записей: 14

#vLLM20.11.2025

Сравнение стэков для инференса LLM: vLLM, TensorRT-LLM, HF TGI v3 и LMDeploy

'Короткое техническое сравнение vLLM, TensorRT-LLM, HF TGI v3 и LMDeploy: когда выбирать каждый стек для продакшн-инференса по throughput, латентности и KV-поведению.'

ЧИТАТЬ →

#vLLM16.11.2025

Cerebras уменьшила MiniMax-M2 до 162B с помощью REAP, сохранив 10B активных параметров для долгих контекстов и кодирования агентов

Cerebras представила MiniMax-M2-REAP-162B-A10B — 30% REAP-прюнинг экспертов уменьшает память без заметной потери качества на задачах кода, рассуждений и вызова инструментов.

ЧИТАТЬ →

#vLLM07.11.2025

Битва рантаймов: 6 лучших движков инференса LLM в 2025 году

'Краткое сравнение шести ведущих рантаймов инференса в 2025 году: архитектуры, стратегии KV-кэша, производительность и сценарии применения.'

ЧИТАТЬ →

#vLLM30.10.2025

IBM представила Granite 4.0 Nano: компактные открытые модели для AI на границе сети

'IBM анонсировала Granite 4.0 Nano — восемь компактных моделей (350M и ~1B) в гибридных и трансформерных вариантах для локального и edge-инференса с корпоративным управлением.'

ЧИТАТЬ →

#vLLM28.10.2025

MiniMax M2: открытая MoE для быстрых и дешёвых рабочих процессов кодирования и агентных задач

'MiniMax-M2 — компактная MoE с открытыми весами на Hugging Face, оптимизированная под кодирование и агентные цепочки с примерно 10B активных параметров на токен и обещанной скоростью ~2x при ~8% стоимости Claude Sonnet.'

ЧИТАТЬ →

#vLLM26.10.2025

kvcached: виртуальный эластичный KV-кэш для LLM на общих GPU

kvcached вводит виртуальный эластичный KV-кэш для LLM, что сокращает потребление памяти и ускоряет активацию моделей при колокации на общих GPU.

ЧИТАТЬ →

#vLLM11.10.2025

LFM2-8B-A1B: MoE от Liquid AI для работы на устройствах с 1.5B активных параметров

'Liquid AI представила LFM2-8B-A1B — разреженный MoE с 8.3 млрд параметров, который активирует около 1.5 млрд параметров на токен и ориентирован на запуск на телефонах и edge-устройствах.'

ЧИТАТЬ →

#vLLM30.09.2025

Zhipu GLM-4.6: 200K контекст, экономия токенов и открытые веса

'GLM-4.6 расширяет контекст до 200K токенов, сокращает потребление токенов в реальных задачах кодирования и предоставляет открытые веса для локального вывода и исследований.'

ЧИТАТЬ →

#vLLM22.09.2025

Qwen3-Next-80B-A3B в FP8: гибридный MoE 80B/3B становится жизнеспособным на обычных GPU

Qwen из Alibaba выпустила FP8-контрольные точки для Qwen3-Next-80B-A3B (Instruct и Thinking), что делает практичным деплой 80B/3B-гибридного MoE на обычных GPU и улучшает производительность в режимах длинного контекста

ЧИТАТЬ →

#vLLM16.09.2025

Обновляйте триллионные LLM за ~20 секунд с checkpoint-engine от MoonshotAI

'MoonshotAI выпустил checkpoint-engine — решение для обновления весов на тысячах GPU примерно за 20 секунд, полезное для RL и масштабного сервинга с минимальным простоем.'

ЧИТАТЬ →

#vLLM14.09.2025

AU-Harness: открытая платформа для быстрой и масштабируемой оценки аудио-LLM

'AU-Harness — открытый инструментарий для масштабируемой и стандартизированной оценки аудио-LLM, ускоряющий эксперименты и расширяющий покрытие задач до диаризации и устного рассуждения'

ЧИТАТЬ →

#vLLM12.09.2025

BentoML llm-optimizer: автоматизация бенчмаркинга и настройки инференса LLM

'BentoML представила llm-optimizer для автоматизированного бенчмаркинга и настройки саморазмещаемых LLM и запустила LLM Performance Explorer с предварительно вычисленными результатами.'

ЧИТАТЬ →

#vLLM27.08.2025

DeepConf: метод Meta AI, достигший 99.9% на AIME 2025 с GPT-OSS-120B благодаря оценке уверенности

'Метод DeepConf от Meta AI достигает 99.9% на AIME 2025 с открытой моделью GPT-OSS-120B, значительно снижая число генерируемых токенов и повышая точность рассуждений.'

ЧИТАТЬ →

#vLLM22.06.2025

Nano-vLLM: Легковесная Python-реализация vLLM с открытым исходным кодом от команды DeepSeek

Исследователи DeepSeek выпустили nano-vLLM — компактную и эффективную Python-реализацию движка vLLM, сочетающую простоту и производительность для вывода LLM.

ЧИТАТЬ →