Qwen от Alibaba: компактные плотные Qwen3‑VL 4B/8B (Instruct и Thinking) с FP8 чекпоинтами
Новые плотные модели 4B и 8B
Команда Qwen из Alibaba выпустила компактные плотные варианты Qwen3-VL на 4 и 8 миллиардов параметров, каждый в двух профилях задач — Instruct и Thinking. Эти модели позиционируются как более подходящие для развёртывания решения в условиях ограниченной VRAM и дополняют ранее опубликованные уровни 30B и 235B MoE, сохраняя при этом набор возможностей.
Длина контекста и возможности
В карточках моделей указана нативная длина контекста 256K токенов с возможностью расширения до 1M токенов. При уменьшенном числе параметров 4B и 8B SKU сохраняют мультимодальные функции старших моделей Qwen3-VL: понимание длинных документов и видео, OCR на 32 языках, 2D/3D пространственное заякоривание, визуальное кодирование и агентное управление GUI на десктопе и мобильных устройствах.
Архитектурные особенности
Qwen3-VL использует три ключевых обновления архитектуры, которые помогают добиваться стабильной мультимодальной работы на разных масштабах:
- Interleaved-MRoPE для надёжного позиционного кодирования по времени, ширине и высоте, что улучшает обработку длинных видео;
- DeepStack для слияния многоуровневых признаков ViT и более точного выравнивания изображение‑текст;
- Text‑Timestamp Alignment для локализации событий в видео, расширяющее подход T-RoPE.
Эти элементы присутствуют и в карточках новых 4B/8B моделей, что указывает на архитектурную преемственность.
FP8 чекпоинты и развёртывание
Важной частью релиза стала доступность FP8-квантованных чекпоинтов для 4B и 8B Instruct и Thinking. Репозитории описывают тонкозернистую FP8-квантовку с размером блока 128 и приводят показатели производительности, почти идентичные исходным BF16 чекпоинтам. Это уменьшает объём доработок и повторной валидации при интеграции моделей в мультимодальные стеки.
Инструменты и рекомендации
В карточках указано, что загрузчики Transformers пока напрямую не поддерживают эти FP8-веса, и рекомендованы vLLM или SGLang для сервинга. Карточки содержат рабочие сниппеты запуска, а рецепты vLLM подчёркивают экономию памяти на H100 при использовании FP8, что даёт готовые пути для инференса с низким потреблением VRAM.
Практическое значение
Наличие плотных 4B/8B моделей, профилей Instruct и Thinking и официальных FP8-весов делает Qwen3-VL более доступной для развёртывания на одной GPU или на периферии. Команды, которым нужны полноценные мультимодальные возможности, но которые ограничены VRAM, теперь могут работать с более компактными моделями без потери поддержки длинного контекста, OCR, пространственного заякоривания, видеоанализа и управления GUI.
Размеры моделей и доступность
В карточках указаны размеры: Qwen3-VL-4B примерно 4.83B параметров, Qwen3-VL-8B-Instruct примерно 8.77B параметров. Релиз зафиксирован на 15 октября 2025 года; репозитории и артефакты доступны на GitHub и Hugging Face.
Полезные ссылки
- Qwen3-VL на GitHub: https://github.com/QwenLM/Qwen3-VL/tree/main
- Страницы моделей на Hugging Face и документация содержат сниппеты запуска, рекомендации по сервингу и рецепты для FP8.
Ключевые выводы
- Выпущены плотные Qwen3-VL 4B и 8B с Instruct и Thinking вариантами и FP8 чекпоинтами.
- FP8 использует тонкозернистую квантовку с блоком 128 и демонстрирует метрики, близкие к BF16.
- На меньших масштабах сохранён полный мультимодальный набор возможностей, включая 256K→1M контекст и OCR на 32 языках.