Крошечные титаны: Qwen3-4B-Instruct-2507 и Qwen3-4B-Thinking-2507 приносят 256K контекст на обычный железо
'Alibaba выпустила две 4-миллиардные модели с нативным окном в 256K токенов: Instruct для кратких многоязычных ответов и Thinking для явных цепочек рассуждений и сложных задач.'
Меньше параметров, большой контекст
Команда Qwen от Alibaba представила две новые компактные, но мощные модели: Qwen3-4B-Instruct-2507 и Qwen3-4B-Thinking-2507. Обе модели имеют по 4 миллиарда параметров и оснащены нативным контекстным окном на 256K токенов, что позволяет обрабатывать очень длинные входы, такие как целые кодовые базы, многодокументные архивы и продолжительные диалоги без внешних ухищрений.
Архитектура и ключевые решения
Обе модели представляют собой плотные трансформеры с 36 слоями и примерно 3.6 миллиарда параметров без учета эмбеддингов. Для экономии памяти и повышения пропускной способности при длинных контекстах используется Grouped Query Attention (GQA) с 32 query-heads и 8 key/value-heads. В отличие от mixture-of-experts, плотная архитектура обеспечивает предсказуемую производительность. Поддержка длинного контекста до 262,144 токенов реализована на уровне архитектуры, а модели проходят тщательную предобучение и последующую настройку для выравнивания и безопасности.
Qwen3-4B-Instruct-2507: быстрая и многоязычная модель следования инструкциям
Версия Instruct оптимизирована для кратких и понятных ответов, ориентированных на пользователя. Модель даёт прямые ответы, а не демонстрирует поэтапный внутренний рассудок, что удобно для интерактивных сценариев, где важны точность и лаконичность.
Поддержка более 100 языков делает модель пригодной для глобальных чат-ботов, служб поддержки, образовательных задач и кросс-языкового поиска. Нативный контекст в 256K токенов позволяет анализировать длинные юридические документы, обрабатывать многочасовые стенограммы и суммировать большие наборы данных без разбиения входа.
Показатели производительности:
| Benchmark Task | Score | |---|---:| | General Knowledge (MMLU-Pro) | 69.6 | | Reasoning (AIME25) | 47.4 | | SuperGPQA (QA) | 42.8 | | Coding (LiveCodeBench) | 35.1 | | Creative Writing | 83.5 | | Multilingual Comprehension (MultiIF) | 69.0 |
На практике Qwen3-4B-Instruct-2507 подходит для языкового репетиторства, многоязычной поддержки, генерации повествований и выполнения специализированных задач при экономном использовании ресурсов.
Qwen3-4B-Thinking-2507: экспертное мышление с цепочками рассуждений
Версия Thinking ориентирована на глубокое, пошаговое рассуждение. Модель автоматически генерирует явные цепочки мыслей в выводах, что делает процесс принятия решений прозрачным и помогает в задачах по математике, науке и программированию. Это делает ее полезной для продвинутых агентов, научных ассистентов и инструментов для разработки, которым требуется последовательное логическое рассуждение.
Показатели производительности:
| Benchmark Task | Score | |---|---:| | Math (AIME25) | 81.3% | | Science (HMMT25) | 55.5% | | General QA (GPQA) | 65.8% | | Coding (LiveCodeBench) | 55.2% | | Tool Usage (BFCL) | 71.2% | | Human Alignment | 87.4% |
Эти результаты показывают, что Thinking-модель может соответствовать или превосходить более крупные модели в задачах, требующих интенсивного рассуждения, и обеспечивать более точные и объяснимые ответы.
Общие возможности и разворачивание
Обе модели разделяют преимущества нативного 256K контекста, улучшенного выравнивания и готовности к использованию в агентных сценариях. Они поддерживают API вызовы, мультшаговые рабочие процессы и оркестрацию. С точки зрения разворачивания модели эффективны: при использовании квантизации они могут работать на потребительских GPU и совместимы с современными инференс фреймворками, что позволяет запускать их локально или в облаке без больших затрат на железо.
Практические сценарии
Примеры использования:
- Режим инструкций: чат-боты поддержки, многоязычные образовательные ассистенты, генерация контента в реальном времени.
- Режим рассуждений: научный анализ, юридические доказательства, продвинутые инструменты программирования и агентная автоматизация.
Релиз демонстрирует, что при грамотной инженерии небольшие модели могут конкурировать с крупными аналогами в целевых областях, оставаясь при этом доступными для разработчиков по требованиям к ресурсам.
Для дополнительных материалов смотрите страницы моделей Qwen3-4B-Instruct-2507 и Qwen3-4B-Thinking-2507 и репозиторий проекта на GitHub с туториалами, кодом и ноутбуками.
Switch Language
Read this article in English