FILTER MODE ACTIVE

#квантование

Найдено записей: 5

#квантование20.11.2025

Сравнение стэков для инференса LLM: vLLM, TensorRT-LLM, HF TGI v3 и LMDeploy

'Короткое техническое сравнение vLLM, TensorRT-LLM, HF TGI v3 и LMDeploy: когда выбирать каждый стек для продакшн-инференса по throughput, латентности и KV-поведению.'

ЧИТАТЬ →

#квантование19.10.2025

BitDistill: Microsoft предлагает 1.58‑битовую дистилляцию с 10× экономией памяти и ~2.65× ускорением на CPU

'BitNet Distillation преобразует FP16 LLM в 1.58‑битовую модель с близкой к FP16 точностью, достигая до 10× экономии памяти и около 2.65× ускорения на CPU.'

ЧИТАТЬ →

#квантование21.08.2025

LFM2-VL: сверхбыстрые открытые мультимодальные модели Liquid AI для локального использования на устройствах

'Liquid AI выпустила LFM2-VL: две открытые мультимодальные модели 450M и 1.6B, оптимизированные для быстрого локального инференса на устройствах.'

ЧИТАТЬ →

#квантование18.08.2025

Инференс в AI 2025: задержки, оптимизации и топ‑9 провайдеров

'Разбор инференса в 2025: ключевые проблемы задержки и способы оптимизации, а также обзор ведущих провайдеров инференса.'

ЧИТАТЬ →

#квантование14.08.2025

Gemma 3 270M от Google: компактная, настраиваемая и энергоэффективная модель для задачовой тонкой настройки

Gemma 3 270M — компактная модель на 270M параметров, оптимизированная для энергоэффективной задачевой донастройки и локального запуска на устройстве

ЧИТАТЬ →