Qwen от Alibaba: компактные плотные Qwen3‑VL 4B/8B (Instruct и Thinking) с FP8 чекпоинтами

Новые плотные модели 4B и 8B

Команда Qwen из Alibaba выпустила компактные плотные варианты Qwen3-VL на 4 и 8 миллиардов параметров, каждый в двух профилях задач — Instruct и Thinking. Эти модели позиционируются как более подходящие для развёртывания решения в условиях ограниченной VRAM и дополняют ранее опубликованные уровни 30B и 235B MoE, сохраняя при этом набор возможностей.

Длина контекста и возможности

В карточках моделей указана нативная длина контекста 256K токенов с возможностью расширения до 1M токенов. При уменьшенном числе параметров 4B и 8B SKU сохраняют мультимодальные функции старших моделей Qwen3-VL: понимание длинных документов и видео, OCR на 32 языках, 2D/3D пространственное заякоривание, визуальное кодирование и агентное управление GUI на десктопе и мобильных устройствах.

Архитектурные особенности

Qwen3-VL использует три ключевых обновления архитектуры, которые помогают добиваться стабильной мультимодальной работы на разных масштабах:

Эти элементы присутствуют и в карточках новых 4B/8B моделей, что указывает на архитектурную преемственность.

FP8 чекпоинты и развёртывание

Важной частью релиза стала доступность FP8-квантованных чекпоинтов для 4B и 8B Instruct и Thinking. Репозитории описывают тонкозернистую FP8-квантовку с размером блока 128 и приводят показатели производительности, почти идентичные исходным BF16 чекпоинтам. Это уменьшает объём доработок и повторной валидации при интеграции моделей в мультимодальные стеки.

Инструменты и рекомендации

В карточках указано, что загрузчики Transformers пока напрямую не поддерживают эти FP8-веса, и рекомендованы vLLM или SGLang для сервинга. Карточки содержат рабочие сниппеты запуска, а рецепты vLLM подчёркивают экономию памяти на H100 при использовании FP8, что даёт готовые пути для инференса с низким потреблением VRAM.

Практическое значение

Наличие плотных 4B/8B моделей, профилей Instruct и Thinking и официальных FP8-весов делает Qwen3-VL более доступной для развёртывания на одной GPU или на периферии. Команды, которым нужны полноценные мультимодальные возможности, но которые ограничены VRAM, теперь могут работать с более компактными моделями без потери поддержки длинного контекста, OCR, пространственного заякоривания, видеоанализа и управления GUI.

Размеры моделей и доступность

В карточках указаны размеры: Qwen3-VL-4B примерно 4.83B параметров, Qwen3-VL-8B-Instruct примерно 8.77B параметров. Релиз зафиксирован на 15 октября 2025 года; репозитории и артефакты доступны на GitHub и Hugging Face.

Полезные ссылки

Ключевые выводы