WebThinker: Усиление больших моделей рассуждения для автономного поиска в интернете и научных отчетов

Ограничения больших моделей рассуждения в сложных исследованиях

Большие модели рассуждения (LRMs) показывают впечатляющие результаты в математике, программировании и научном анализе. Однако они сталкиваются с серьёзными трудностями при решении задач, требующих глубокого поиска информации в интернете и создания точных научных отчетов, основанных на многошаговом рассуждении. Их возможности ограничены внутренними знаниями без эффективного доступа к внешним источникам.

Необходимость глубокой интеграции исследования в интернете и рассуждения

Существующие открытые агенты глубокого поиска используют техники Retrieval-Augmented Generation (RAG) с жёстко заданными сценариями, что ограничивает возможности LRMs для глубокого изучения веб-информации. Для преодоления этих ограничений требуется динамическое взаимодействие моделей с веб-данными.

Представляем WebThinker: новый агент глубокого исследования

Исследователи из Университета Жэньминь Китая, BAAI и Huawei Poisson Lab разработали WebThinker — агента, который наделяет LRMs возможностью автономно искать в интернете, просматривать веб-страницы и создавать научные отчеты в процессе рассуждения. В основе лежит модуль Deep Web Explorer, позволяющий моделям выявлять пробелы в знаниях и оперативно получать необходимую информацию.

Автономная стратегия Think-Search-and-Draft

WebThinker применяет инновационный подход, объединяющий рассуждение, сбор информации и написание отчетов в реальном времени. Для повышения эффективности используется обучение с подкреплением (RL) с итеративной оптимизацией прямых предпочтений.

Два режима работы: решение задач и генерация отчетов

Фреймворк работает в двух основных режимах:

Режим решения задач: Deep Web Explorer помогает справляться со сложными задачами путем вызова поиска в интернете во время рассуждений.
Режим генерации отчетов: LRMs самостоятельно создают подробные научные отчеты при поддержке дополнительной языковой модели для работы с инструментами написания.

Обширное тестирование и результаты

WebThinker проверяли на различных сложных наборах данных, таких как SuperGPQA, WebWalkerQA, OpenThoughts и других. Модель WebThinker-32B-Base показала превосходство над предыдущими методами, улучшив результаты на 22,9% по WebWalkerQA и на 20,4% по HLE. Также она превзошла другие современные системы в задачах генерации научных отчетов, демонстрируя высокую адаптивность к разным архитектурам LRMs.

Перспективы развития

В будущем планируется расширить возможности WebThinker, включая мультимодальное рассуждение, продвинутые методы обучения инструментам и разработку графического интерфейса для веб-исследований.

Это важный шаг к созданию более мощных интеллектуальных систем, способных эффективно решать сложные задачи, требующие глубокого знания.