DS STAR: многоагентная система Google, превращающая разрозненные файлы в Python‑аналитику

Превращение вопросов в код по разнородным данным

Исследователи Google представили DS STAR (Data Science Agent via Iterative Planning and Verification) — многоагентную систему, которая преобразует открытые аналитические вопросы в выполняемые Python‑скрипты, работающие напрямую с разнородными форматами: CSV, JSON, Markdown и неструктурированным текстом. В отличие от подходов Text‑to‑SQL, которые предполагают чистую реляционную базу, DS STAR рассматривает задачу как Text‑to‑Python и рассчитан на реальные дата‑леки предприятий.

Сводки по файлам как единый контекст

Система сначала суммирует содержимое каждого файла. Агент Aanalyzer генерирует небольшие Python‑скрипты для парсинга каждого файла и вывода ключевой информации: названия колонок, типы данных, базовая статистика и текстовые фрагменты. DS STAR выполняет эти скрипты и сохраняет краткие описания файлов. Набор таких описаний становится общим контекстом для последующих агентов, что позволяет учитывать как структурированные, так и неструктурированные источники.

Итеративный цикл планирования, кодирования и верификации

DS STAR имитирует рабочий процесс человека в ноутбуке с многоэтапной петлёй улучшений:

Aplanner составляет начальный исполняемый план, опираясь на запрос и описания файлов.
Acoder преобразует план в Python‑код, который выполняется и даёт наблюдение результата.
Averifier — оценщик на базе LLM — анализирует план, код и результат выполнения и возвращает бинарное решение: достаточно или нет.
Arouter решает, добавить ли новый шаг или усечь ошибочный шаг для регенерации плана.

Каждый новый шаг планирования учитывает последний результат выполнения, поэтому доработки направлены на конкретные ошибки. Петля продолжается до тех пор, пока Averifier не признает решение достаточным или не будет достигнут лимит в 20 итераций. Агент Afinalyzer форматирует итоговый код в соответствии со строгими требованиями (округление, вывод CSV и т.д.).

Надёжность: отладки и поиск релевантных файлов

Для реальных пайплайнов DS STAR включает модули устойчивости. Adebugger исправляет сломанные скрипты, учитывая сам скрипт, трассировку ошибок и описания файлов — это важно, потому что многие ошибки зависят от схемы, имён колонок или листов. Retriever справляется с домен‑специфичными дата‑леками с тысячами файлов: эмбеддинги запроса и описаний выбирают топ‑100 релевантных файлов (в реализации использовали Gemini Embedding 001).

Результаты на бенчмарках

В экспериментах использовали Gemini 2.5 Pro и до 20 раундов доработок. DS STAR показал значительное улучшение по сравнению с предыдущими агентами:

На DABStep базовая модель набирала 12.70% по сложным задачам; DS STAR достиг 45.24% по сложным и 87.50% по лёгким задачам.
Общая точность улучшилась: DABStep с 41.0% до 45.2%, KramaBench с 39.8% до 44.7%, DA Code с 37.0% до 38.5%.
Для KramaBench с ретривером DS STAR и Gemini 2.5 Pro получили нормализованный счёт 44.69 против 39.79 у сильного базиса.
На сложных задачах DA Code DS STAR показал 37.1% против 32.0% у DA Agent при одинаковой модели.

Значение для автоматизации аналитики

DS STAR переводит акцент с Text‑to‑SQL на Text‑to‑Python по смешанным файлам и демонстрирует, что практичная автоматизация аналитики требует явной структуры вокруг LLM: анализаторов, маршрутизатора, верификатора и отладчика. Архитектура модель‑независима и выигрывает от итеративной доработки, что делает шаг от демонстраций с таблицами к полнофункциональным, протестированным аналитическим системам.