FILTER MODE ACTIVE

#vLLM

Найдено записей: 14

#vLLM16.11.2025

Cerebras уменьшила MiniMax-M2 до 162B с помощью REAP, сохранив 10B активных параметров для долгих контекстов и кодирования агентов

Cerebras представила MiniMax-M2-REAP-162B-A10B — 30% REAP-прюнинг экспертов уменьшает память без заметной потери качества на задачах кода, рассуждений и вызова инструментов.

#vLLM28.10.2025

MiniMax M2: открытая MoE для быстрых и дешёвых рабочих процессов кодирования и агентных задач

'MiniMax-M2 — компактная MoE с открытыми весами на Hugging Face, оптимизированная под кодирование и агентные цепочки с примерно 10B активных параметров на токен и обещанной скоростью ~2x при ~8% стоимости Claude Sonnet.'

#vLLM22.09.2025

Qwen3-Next-80B-A3B в FP8: гибридный MoE 80B/3B становится жизнеспособным на обычных GPU

Qwen из Alibaba выпустила FP8-контрольные точки для Qwen3-Next-80B-A3B (Instruct и Thinking), что делает практичным деплой 80B/3B-гибридного MoE на обычных GPU и улучшает производительность в режимах длинного контекста

#vLLM14.09.2025

AU-Harness: открытая платформа для быстрой и масштабируемой оценки аудио-LLM

'AU-Harness — открытый инструментарий для масштабируемой и стандартизированной оценки аудио-LLM, ускоряющий эксперименты и расширяющий покрытие задач до диаризации и устного рассуждения'