Google представляет TTD-DR: человекоподобный диффузионный фреймворк для продвинутых исследовательских AI-агентов

Сближение человеческих исследований и ИИ

Агенты глубоких исследований (DR) стремительно набирают популярность в научной и промышленной сферах благодаря успехам больших языковых моделей (LLM). Однако большинство существующих DR-агентов не учитывают структурированные этапы, свойственные человеческому исследовательскому процессу, такие как создание черновиков, поиск информации и использование обратной связи. Эти агенты часто объединяют алгоритмы и инструменты без единой концептуальной основы, что создает разрыв между человеческими методами исследования и подходами ИИ при выполнении сложных задач.

Существующие подходы и их ограничения

Современные DR-агенты используют алгоритмы итеративного уточнения, механизмы дебатов, турниры для ранжирования гипотез и системы самокритики для генерации исследовательских предложений. Мультиагентные системы включают планировщиков, координаторов, исследователей и репортеров для создания детальных ответов, а некоторые фреймворки поддерживают режимы с участием человека для обратной связи. Методы обучения сосредоточены на многозадачном обучении, поэтапной тонкой настройке и обучении с подкреплением для улучшения поиска и браузинга. Диффузионные модели LLM нарушают предположения авторегрессионной выборки, генерируя полные шумные черновики и постепенно их уточняя для повышения качества результатов.

Введение Test-Time Diffusion Deep Researcher (TTD-DR)

Исследователи Google создали TTD-DR, вдохновляясь цикличностью человеческих исследований — повторяющимися этапами поиска, размышления и уточнения. Процесс генерации исследовательских отчетов в TTD-DR рассматривается как диффузионный процесс, начинающийся с черновика, который служит обновляемым контуром и направляет исследование. Черновик проходит итеративное уточнение с помощью процесса «денойзинга», динамически подкрепляемого механизмом извлечения, добавляющим внешнюю информацию на каждом шаге. Такой подход повышает своевременность и связность отчетов, снижая потерю информации при поиске.

TTD-DR демонстрирует передовые результаты на тестах, требующих интенсивного поиска и многопрыжкового рассуждения.

Архитектура и рабочий процесс

Фреймворк TTD-DR преодолевает ограничения линейных и параллельных DR-агентов, разбивая процесс на три основных этапа:

Генерация исследовательского плана
Итеративный поиск и синтез
Финальная генерация отчета

Каждый этап включает отдельные LLM-агенты, рабочие процессы и состояния агентов. Саморазвивающийся алгоритм улучшает результаты каждого этапа, находя и сохраняя качественный контекст. Алгоритм реализован в параллельных, последовательных и циклических рабочих процессах и применяется ко всем этапам для повышения качества выходных данных.

Основные показатели эффективности

В сравнении с OpenAI Deep Research TTD-DR достигал 69,1% и 74,5% побед в задачах генерации длинных исследовательских отчетов. Он превосходил OpenAI на 4,8%, 7,7% и 1,7% по трем наборам данных с короткими ответами. Фреймворк получил высокие оценки по метрикам полезности и полноты, особенно для длинных исследований.

Алгоритм саморазвития показал победы в 60,9% и 59,8% случаев против OpenAI Deep Research на наборах LongForm Research и DeepConsult. Точность улучшилась на 1,5% и 2,8% на HLE, хотя по GAIA результаты были ниже OpenAI на 4,4%. Включение диффузии с извлечением информации обеспечило значительные преимущества на всех тестах.

Итоги

TTD-DR — это человекоподобный диффузионный фреймворк с саморазвивающимися алгоритмами, который значительно продвигает исследовательские AI-агенты вперед. Он предлагает структурированный подход к созданию отчетов с высоким качеством и связностью за счет итеративного уточнения и динамического поиска. Его выдающиеся результаты на сложных бенчмарках подтверждают потенциал для трансформации глубоких исследований, требующих сложного рассуждения и обширного поиска информации.

Для дополнительной информации ознакомьтесь с публикацией и учебными материалами по AI Agent и Agentic AI на ресурсах Google. Следите за обновлениями в Twitter, присоединяйтесь к ML SubReddit и подписывайтесь на тематические рассылки.