Alibaba открыла исходники Tongyi DeepResearch — 30B MoE LLM для длительных веб-исследований
Что такое Tongyi DeepResearch
Tongyi-DeepResearch-30B-A3B от лаборатории Tongyi (Alibaba) — открытая модель, ориентированная на агентскую работу и длительные исследования с использованием веб-инструментов. Модель использует архитектуру mixture-of-experts (MoE) с примерно 30.5 миллиардами общих параметров и около 3.0–3.3 миллиардами активных параметров на токен. Такая конструкция позволяет сохранять низкую стоимость вывода, приближенную к небольшим плотным моделям, при наличии экспертной емкости для сложного рассуждения в многократных сессиях.
Результаты бенчмарков
В релизе указаны конкурентные результаты на задачах глубокого поиска и агентских тестах. Ключевые показатели:
- Humanity’s Last Exam (HLE): 32.9
- BrowseComp: 43.4 (EN) и 46.7 (ZH)
- xbench-DeepSearch: 75
Также отмечены сильные результаты на WebWalkerQA, GAIA, FRAMES и SimpleQA. Команда утверждает, что модель сопоставима или превосходит существующие проприетарные и открытые решения для этих задач.
Архитектура и профиль вывода
Основные архитектурные и эксплуатационные характеристики:
- MoE-маршрутизация в духе Qwen3-MoE: ≈30.5B общих параметров и ≈3.0–3.3B активных на токен.
- Контекстное окно: 128K токенов, что подходит для длительных сессий с браузингом и накоплением доказательств.
- Два режима вывода:
- ReAct (нативный) для оценки встроенных способностей к рассуждению и использованию инструментов.
- IterResearch “Heavy” для масштабирования на этапе тестирования с пораундовой реконструкцией контекста и снижением накопления шума.
Такое сочетание ориентировано на баланс пропускной способности и экспертной производительности в задачах глубоких исследований.
Тренировочный пайплайн: синтетические данные и on-policy RL
Модель тренируется как агент в полном цикле, а не просто как чат-LLM. В релизе выделена автоматизированная масштабируемая система генерации данных:
- Agentic continual pre-training (CPT): крупномасштабные синтетические траектории, собранные из кураторских корпусов, исторических логов работы с инструментами и граф-структурированных знаний для обучения поиску, браузингу и слиянию источников.
- Agentic SFT для холодного старта: траектории в форматах ReAct и IterResearch для совместимого планирования и использования инструментов.
- On-policy RL с Group Relative Policy Optimization (GRPO): градиенты политики на уровне токенов, оценка преимущества leave-one-out и фильтрация негативных примеров для устойчивости обучения в нестабильной веб-среде.
Эти механизмы направлены на повышение надежности при многопроходных взаимодействиях с инструментами и уменьшение галлюцинаций.
Роль в рабочих процессах документальных и веб-исследований
Задачи глубоких исследований требуют: планирования на длинную перспективу, итеративного поиска и верификации по нескольким источникам, отслеживания доказательств с низкой долей галлюцинаций и синтеза в больших контекстах. Tongyi DeepResearch обеспечивает это через:
- 128K токенов контекста для накопления и повторного использования доказательств.
- IterResearch-раскатку, которая реструктурирует контекст на каждом раунде, оставляя только существенные артефакты и уменьшая разрастание контекста и накопление ошибок.
- ReAct-базу, демонстрирующую, что поведение модели изучено, а не только сконструировано подсказками.
Сообщенные улучшения по бенчмаркам указывают на большую устойчивость в задачах с многопереходным доступом к инструментам и источникам.
Ключевые особенности
- Эффективность MoE: ~30.5B общих параметров с ~3.0–3.3B активных на токен, низкая стоимость вывода при высокой емкости.
- Контекст 128K: длительные rollouts с накоплением доказательств для многошагового веб-исследования.
- Два режима вывода: нативный ReAct и IterResearch Heavy для глубокого многораундового синтеза.
- Автоматизированный агентский движок данных: CPT, SFT и RL на одном пайплайне.
- On-policy RL с GRPO для стабильности в веб-среде.
- Сообщенные SOTA-результаты на наборах для глубокого поиска.
Практическая значимость и где найти материалы
Для команд, строящих агенты для длительных исследований, релиз предлагает воспроизводимый открытый стек с реальными инструментами: веса под лицензией Apache-2.0, скрипты для инференса и утилиты для оценки. Репозиторий размещен на GitHub и модели доступны на Hugging Face вместе с техническими заметками, туториалами и ноутбуками, что упрощает воспроизведение и доработку.