TUMIX: смесь многoагентных моделей с использованием инструментов для улучшения сложного рассуждения
Что такое TUMIX и зачем это нужно
TUMIX — это фреймворк для масштабирования на этапе тестирования, предложенный Google Cloud AI Research совместно с учёными из MIT, Harvard и DeepMind. Вместо многократной выборки одного агента TUMIX запускает смесь примерно из 12–15 агентов разных стилей: текстовые цепочки мыслей, исполнение кода, веб-поиск, агенты с двумя инструментами и направляемые варианты. Агенты обмениваются промежуточными ответами и рассуждениями в нескольких раундах доочистки, а судья на базе LLM может остановить процесс заранее при достижении консенсуса. Это повышает точность на сложных задачах и снижает стоимость инференса.
Чем смесь отличается от наращивания выборок
Вместо того чтобы просто повторять одну и ту же стратегию много раз, TUMIX использует разнообразие модальностей и подходов к рассуждению. Такая смесь увеличивает покрытие возможных корректных вариантов ответов. Обмен сообщениями между агентами улучшает точность на ранних раундах, а постепенная конвергенция делает раннюю остановку важным механизмом для сохранения разнообразия и экономии вычислений.
Как работает обмен сообщениями и адаптивная ранняя остановка
Агенты запускаются параллельно и проходят несколько раундов доработки. В каждом раунде каждый агент видит исходный вопрос и предыдущие ответы и обоснования других агентов, затем выдвигает уточнённый ответ. После каждого раунда LLM-судья оценивает консенсус и решает, останавливать ли процесс. Судья соблюдает минимальный порог раундов, но может завершить итерации при сильном согласии ответов. По данным статьи, адаптивная остановка сокращает стоимость инференса примерно до 49% по сравнению с фиксированным числом раундов, а затраты на токены падают примерно до 46%.
Автосгенерированные агенты и эмпирическая точка насыщения
Помимо вручную подобранных агентов, TUMIX просит базовую LLM сгенерировать новые типы агентов. Смешивание этих автогенерированных агентов с ручными даёт дополнительный прирост точности в среднем около 1.2% без увеличения затрат. Эксперименты показывают, что выгода насыщается при смеси примерно из 12–15 стилей агентов, что можно считать «точкой сладости» для баланса разнообразия и эффективности.
Результаты на бенчмарках
TUMIX демонстрирует существенный прирост на сложных бенчмарках по сравнению с сильными инструментально-усиленными базами. Ключевые результаты:
- HLE (Humanity’s Last Exam, 2,500 вопросов): Gemini-2.5 Pro растёт с 21.6% до 34.1% при TUMIX+, у Flash рост с 9.7% до 23.1%.
- GPQA-Diamond: до 88.3% для Pro и до 82.1% для Flash на самой тяжёлой подвыборке.
- AIME 2024/25: Pro достигает 96.7%, Flash достигает 86.7% с TUMIX(+).
В среднем TUMIX даёт +3.55% по сравнению с лучшим предыдущим инструментально-усиленным подходом при сопоставимых затратах, а также значительные относительные улучшения по сравнению с отсутствием масштабирования: +7.8% для Pro и +17.4% для Flash.
Практическая значимость
TUMIX переводит задачу масштабирования на этапе тестирования в задачу поиска по пространству разнородных инструментальных политик, а не в задачу простого увеличения числа выборок. Параллельный комитет агентов улучшает покрытие кандидатов, а LLM-судья обеспечивает экономичную раннюю остановку, позволяя сохранить разнообразие там, где оно важно. Это делает подход полезным в условиях ограничений по задержке и бюджету на токены или инструментальные вызовы.
Советы по внедрению
Подход модульный: можно сочетать ручные шаблоны агентов с LLM-генерированными вариантами, выбирать стратегию агрегирования ответов, например большинство голосов или селектор, и настраивать минимальное число раундов и пороги судьи в зависимости от желаемого баланса точности и затрат. Полная статья доступна на arXiv по ссылке https://arxiv.org/pdf/2510.01279.