Презентация SETA: Открытые RL-окружения для терминальных агентов

Что такое SETA?

Что собой представляет полный стек для терминальных агентов, если объединить структурированные инструменты, синтетические RL-окружения и оценки, согласованные с бенчмарками? Команда исследователей из CAMEL AI, Eigent AI и других соавторов выпустила SETA, набор инструментов и окружений, ориентированный на обучение с подкреплением для терминальных агентов. Проект фокусируется на агентах, работающих в оболочке Unix и выполняющих проверяемые задачи под контролем бенчмарка, такого как Terminal Bench.

Три Главных Вклада

Терминальный Агент Высшего Уровня: Достигает выдающихся результатов с агентом на основе Claude Sonnet 4.5 на Terminal Bench 2.0 и GPT 4.1 на Terminal Bench 1.0, ограничиваясь одной и той же базовой моделью.
Масштабируемое RL Обучение: Выпущен первоначальный синтетический набор данных с 400 терминальными задачами, представляющими различные уровни сложности. Из них 260 задач используются для тонкой настройки RLVR модели Qwen3-8B.
Чистый Дизайн Агента: Используется одна и та же реализация агента для локальных задач и официальной оценки Terminal Bench.

Инструменты Терминала и Структура Логов

Репозиторий кода SETA включает Инструмент Терминала, который преобразует языковую модель в исполняемого терминального агента. Каждая задача создает структурированный лог в директории evaluation/terminal_bench_run, с конкретным макетом, представленным для задачи play-zork.

Ключевые файлы включают:

chatagent.log: Записывает полную историю сообщений агента и вызовов инструментов, включая результаты тестов.
Директория sessions, содержащая session_logs, фиксирующие взаимодействия терминала.
Специфические файлы, такие как blocking_commands.log и session_run_zork_1_correct_path.log, сохраняют выводы команд для различных сессий.
tests.log: Записывает выводы тестов, в то время как tests.log.strip удаляет управляющие символы терминала.

Эта структура логов позволяет легче отлаживать, прослеживая высокоуровневые решения до индивидуальных команд оболочки.

Инструмент Для Заметок как Память

Команда исследователей представляет Инструмент Для Заметок, который функционирует как постоянная память для долгосрочных задач. Инструмент позволяет агенту записывать и считывать заметки структурированным образом при выполнении терминальных задач, обеспечивая явные каналы для внешней передачи промежуточных результатов.

Понимание Производительности

SETA демонстрирует выдающиеся результаты на Terminal Bench. С агентом на основе Claude Sonnet 4.5, CAMEL агент достигает 46.5% точности на Terminal Bench 2.0, обгоняя вторую систему на 3 процентных пункта. Для Terminal Bench 1.0 агент на основе GPT 4.1 набирает 35% точности, снова выше ближайшего соперника. Супервизированный базис Qwen3 8B достиг всего 3.4%, но агент Qwen3 8B, обученный с помощью SETA RL, значительно превосходит этот базис в курируемых синтетических окружениях.

Ключевые Выводы

Совместный Проект Сообщества: SETA предлагает инструменты агента и синтетические RL-окружения, ориентированные на терминальных агентов.
Выдающаяся Производительность: Демонстрирует лучшие результаты для терминальных агентов CAMEL, используя Claude Sonnet 4.5 и GPT 4.1.
400 Синтетических Терминальных Задач: Доступны на Hugging Face, каждая упакована как task.yaml, Dockerfile и run-tests.sh.
Структурированная Логировка и Инструменты Памяти: Включает Инструмент Терминала с структурированной логировкой и Инструмент Для Заметок, интегрированный с оценочными скриптами Terminal Bench.
Воспроизводимый Дизайн: Предлагает чистый и воспроизводимый стек для обучения, отладки и оценки терминальных агентов без необходимости полагаться на экстренные примеры.