FILTER MODE ACTIVE

#SGLang

Найдено записей: 6

#SGLang07.11.2025

Битва рантаймов: 6 лучших движков инференса LLM в 2025 году

'Краткое сравнение шести ведущих рантаймов инференса в 2025 году: архитектуры, стратегии KV-кэша, производительность и сценарии применения.'

ЧИТАТЬ →

#SGLang28.10.2025

MiniMax M2: открытая MoE для быстрых и дешёвых рабочих процессов кодирования и агентных задач

'MiniMax-M2 — компактная MoE с открытыми весами на Hugging Face, оптимизированная под кодирование и агентные цепочки с примерно 10B активных параметров на токен и обещанной скоростью ~2x при ~8% стоимости Claude Sonnet.'

ЧИТАТЬ →

#SGLang26.10.2025

kvcached: виртуальный эластичный KV-кэш для LLM на общих GPU

kvcached вводит виртуальный эластичный KV-кэш для LLM, что сокращает потребление памяти и ускоряет активацию моделей при колокации на общих GPU.

ЧИТАТЬ →

#SGLang30.09.2025

Zhipu GLM-4.6: 200K контекст, экономия токенов и открытые веса

'GLM-4.6 расширяет контекст до 200K токенов, сокращает потребление токенов в реальных задачах кодирования и предоставляет открытые веса для локального вывода и исследований.'

ЧИТАТЬ →

#SGLang12.09.2025

BentoML llm-optimizer: автоматизация бенчмаркинга и настройки инференса LLM

'BentoML представила llm-optimizer для автоматизированного бенчмаркинга и настройки саморазмещаемых LLM и запустила LLM Performance Explorer с предварительно вычисленными результатами.'

ЧИТАТЬ →

#SGLang03.05.2025

Исследователи UC Berkeley и UCSF представляют Adaptive Parallel Reasoning для эффективного масштабирования вывода LLM без превышения контекстного окна

Исследователи из UC Berkeley и UCSF разработали Adaptive Parallel Reasoning — метод, позволяющий большим языковым моделям динамически распределять вычисления вывода по параллельным потокам, повышая эффективность рассуждений без превышения контекстных ограничений.

ЧИТАТЬ →