LifelongAgentBench: Революция в непрерывном обучении агентов на базе LLM

Проблема непрерывного обучения в LLM-агентах

Непрерывное обучение необходимо для интеллектуальных агентов, работающих в меняющихся условиях. Современные агенты на базе больших языковых моделей (LLM) не обладают памятью и воспринимают каждую задачу как новую. Хотя LLM изменили подход к языковым задачам и вдохновили создание агентов, они остаются безсостоянием и не умеют адаптировать знания с течением времени. Для достижения общего интеллекта агенты должны уметь сохранять, адаптировать и повторно использовать знания.

Ограничения существующих бенчмарков

Большинство существующих бенчмарков оценивает выполнение изолированных задач, не уделяя внимания повторному использованию знаний или их сохранению. Обычно проверяется однократное выполнение задачи, что не отражает последовательный характер обучения, необходимого для непрерывной адаптации. Также проблемы с ошибками в метках и воспроизводимостью затрудняют практическую оценку возможностей непрерывного обучения.

Представляем LifelongAgentBench

Исследователи из Южно-Китайского технологического университета, MBZUAI, Китайской академии наук и Восточно-Китайского педагогического университета разработали LifelongAgentBench — первый комплексный бенчмарк для оценки непрерывного обучения агентов на базе LLM. Он включает взаимосвязанные задачи, основанные на навыках, в трёх средах: базы данных, операционные системы и графы знаний. В бенчмарке реализованы проверка меток, воспроизводимость и модульный дизайн для тщательной оценки.

Новые методы улучшения обучения

Исследование показало, что классический опытный повтор (experience replay) часто неэффективен из-за нерелевантной информации и ограничений длины контекста. Для решения этих проблем предложен механизм групповой самосогласованности, который кластеризует прошлый опыт и применяет голосование, значительно улучшая результаты непрерывного обучения в различных архитектурах LLM.

Дизайн и реализация бенчмарка

LifelongAgentBench рассматривает непрерывное обучение как задачу последовательного принятия решений, моделируемую с помощью POMDP с целевыми условиями. Задачи отражают реалистичную сложность с пересекающимися навыками и шумом среды. Для обеспечения качества и разнообразия задачи проходят автоматическую и ручную проверку.

Модульная архитектура включает отдельные компоненты агента, среды и контроллера, которые взаимодействуют через RPC, что обеспечивает воспроизводимость и гибкость. Эксперименты показывают, что опытный повтор улучшает производительность, особенно в сложных задачах, однако проблемы с объемом памяти остаются актуальными, что требует более эффективного управления памятью.

Перспективы развития

LifelongAgentBench создаёт основу для разработки адаптивных и эффективно использующих память агентов на базе LLM, способных к непрерывному обучению. В дальнейшем планируется исследовать более умные стратегии управления памятью и расширять тестирование на мультимодальные реальные задачи, приближая создание действительно интеллектуальных агентов с непрерывным обучением.