Meta ARE и Gaia2: новая планка оценки агентов в асинхронных, событийных условиях

Зачем переходить к асинхронной, событийной оценке

Большинство существующих бенчмарков упрощают взаимодействие, приостанавливая мир, пока модель «подумывает». Такой синхронный подход не отражает реальных требований: агентам нужно действовать в условиях, когда окружение продолжает меняться. ARE разъединяет время агента и окружения, позволяя окружению эволюционировать в процессе рассуждений агента и вводить запланированные или стохастические события — ответы, напоминания, обновления. Это выявляет навыки проактивности, умения справляться с прерываниями, соблюдать дедлайны и восстанавливаться после неожиданных изменений.

Архитектура ARE: все как события

Agents Research Environments (ARE) — модульный симулятор, управляемый временем, который рассматривает «всё как событие». ARE структурирует симуляции пятью ключевыми концепциями:

Окружение Mobile в экспериментах имитирует смартфон с почтой, сообщениями и календарём, создавая реалистичные условия многозадачности.

Что измеряет Gaia2

Gaia2, построенная поверх ARE, смещает фокус оценки от одношаговой корректности к навыкам, важным при изменениях. Основные направления оценки:

Сценарии Gaia2 верифицируемы и воспроизводимы: используются детерминированные seed-ы и эталонные (oracle) трассы для повторяемой оценки.

Масштаб и доступные наборы данных

Есть нюанс в количестве сценариев: публичный релиз на Hugging Face содержит 800 сценариев в 10 вселенных, тогда как в статье упоминаются 1 120 верифицируемых аннотированных сценариев в окружении Mobile, использованных в экспериментах (отражающих расширенные конфигурации). Практики чаще всего столкнутся с релизом на 800 сценариев, а статья показывает, как набор может масштабироваться.

Как оценивают агентов в меняющемся мире

Gaia2 сравнивает последовательности write-действий агента с эталонными действиями посредством проверки аргументов на уровне аргументов. Валидация аргументов может быть строгой (точное совпадение) или мягкой (судья на базе LLM) в зависимости от типа аргумента. Оценка сохраняет причинность и учитывает относительные временные ограничения, чтобы не начислять баллы только за итоговое состояние, если промежуточные траектории были небезопасны или нарушали политику.

Зачем это важно для production-агентов

ARE и Gaia2 повышают требования с «статической корректности» до «корректности в условиях изменений». Если агент позиционируется как готовый к продакшену, он должен демонстрировать работу с асинхронностью, прерываниями, неоднозначностью, шумом, временными ограничениями и координацией нескольких агентов, при этом предоставляя верифицируемые трассы write-действий. Meta предоставляет контролируемый симулятор, вызовный бенчмарк и прозрачный цикл оценки, которые помогают протестировать эти реальные сценарии.

Ресурсы

Читать статью и изучать код, учебные материалы и ноутбуки можно на странице исследования Meta AI и в репозитории проекта:

https://ai.meta.com/research/publications/are-scaling-up-agent-environments-and-evaluations/