Меньше параметров, большой контекст

Команда Qwen от Alibaba представила две новые компактные, но мощные модели: Qwen3-4B-Instruct-2507 и Qwen3-4B-Thinking-2507. Обе модели имеют по 4 миллиарда параметров и оснащены нативным контекстным окном на 256K токенов, что позволяет обрабатывать очень длинные входы, такие как целые кодовые базы, многодокументные архивы и продолжительные диалоги без внешних ухищрений.

Архитектура и ключевые решения

Обе модели представляют собой плотные трансформеры с 36 слоями и примерно 3.6 миллиарда параметров без учета эмбеддингов. Для экономии памяти и повышения пропускной способности при длинных контекстах используется Grouped Query Attention (GQA) с 32 query-heads и 8 key/value-heads. В отличие от mixture-of-experts, плотная архитектура обеспечивает предсказуемую производительность. Поддержка длинного контекста до 262,144 токенов реализована на уровне архитектуры, а модели проходят тщательную предобучение и последующую настройку для выравнивания и безопасности.

Qwen3-4B-Instruct-2507: быстрая и многоязычная модель следования инструкциям

Версия Instruct оптимизирована для кратких и понятных ответов, ориентированных на пользователя. Модель даёт прямые ответы, а не демонстрирует поэтапный внутренний рассудок, что удобно для интерактивных сценариев, где важны точность и лаконичность.

Поддержка более 100 языков делает модель пригодной для глобальных чат-ботов, служб поддержки, образовательных задач и кросс-языкового поиска. Нативный контекст в 256K токенов позволяет анализировать длинные юридические документы, обрабатывать многочасовые стенограммы и суммировать большие наборы данных без разбиения входа.

Показатели производительности:

| Benchmark Task | Score | |---|---:| | General Knowledge (MMLU-Pro) | 69.6 | | Reasoning (AIME25) | 47.4 | | SuperGPQA (QA) | 42.8 | | Coding (LiveCodeBench) | 35.1 | | Creative Writing | 83.5 | | Multilingual Comprehension (MultiIF) | 69.0 |

На практике Qwen3-4B-Instruct-2507 подходит для языкового репетиторства, многоязычной поддержки, генерации повествований и выполнения специализированных задач при экономном использовании ресурсов.

Qwen3-4B-Thinking-2507: экспертное мышление с цепочками рассуждений

Версия Thinking ориентирована на глубокое, пошаговое рассуждение. Модель автоматически генерирует явные цепочки мыслей в выводах, что делает процесс принятия решений прозрачным и помогает в задачах по математике, науке и программированию. Это делает ее полезной для продвинутых агентов, научных ассистентов и инструментов для разработки, которым требуется последовательное логическое рассуждение.

Показатели производительности:

| Benchmark Task | Score | |---|---:| | Math (AIME25) | 81.3% | | Science (HMMT25) | 55.5% | | General QA (GPQA) | 65.8% | | Coding (LiveCodeBench) | 55.2% | | Tool Usage (BFCL) | 71.2% | | Human Alignment | 87.4% |

Эти результаты показывают, что Thinking-модель может соответствовать или превосходить более крупные модели в задачах, требующих интенсивного рассуждения, и обеспечивать более точные и объяснимые ответы.

Общие возможности и разворачивание

Обе модели разделяют преимущества нативного 256K контекста, улучшенного выравнивания и готовности к использованию в агентных сценариях. Они поддерживают API вызовы, мультшаговые рабочие процессы и оркестрацию. С точки зрения разворачивания модели эффективны: при использовании квантизации они могут работать на потребительских GPU и совместимы с современными инференс фреймворками, что позволяет запускать их локально или в облаке без больших затрат на железо.

Практические сценарии

Примеры использования:

Режим инструкций: чат-боты поддержки, многоязычные образовательные ассистенты, генерация контента в реальном времени.
Режим рассуждений: научный анализ, юридические доказательства, продвинутые инструменты программирования и агентная автоматизация.

Релиз демонстрирует, что при грамотной инженерии небольшие модели могут конкурировать с крупными аналогами в целевых областях, оставаясь при этом доступными для разработчиков по требованиям к ресурсам.

Для дополнительных материалов смотрите страницы моделей Qwen3-4B-Instruct-2507 и Qwen3-4B-Thinking-2507 и репозиторий проекта на GitHub с туториалами, кодом и ноутбуками.