Weak-for-Strong: как 7B мета-агент научился оркестровать мощные LLM

Что такое W4S и зачем это нужно

Исследователи из Stanford, EPFL и UNC представляют Weak-for-Strong Harnessing (W4S) — фреймворк на основе обучения с подкреплением, который обучает небольшой мета-агент проектировать и улучшать исполняемые кодовые рабочие процессы, обращающиеся к более сильной модели-исполнителю. Вместо дообучения мощной модели W4S учит лёгкого планировщика управлять ею. Подход формулирует проектирование workflow как многошаговый процесс Маркова и оптимизирует планировщик методом Reinforcement Learning for Agentic Workflow Optimization (RLAO). Полный текст работы доступен на https://arxiv.org/pdf/2504.04785.

Как работает итеративный цикл

W4S выполняется как итеративный цикл генерация–выполнение–улучшение. Каждое действие включает:

Состояние: инструкции задачи, текущая Python-программа workflow и обратная связь от предыдущих запусков.
Действие: два компонента — анализ того, что изменить, и новый Python-код, реализующий изменения.
Выполнение: среда запускает workflow на валидационных примерах с сильным исполнителем и возвращает точность и случаи ошибок.
Обновление: мета-агент использует обратную связь для следующего шага.

Мета-агент может быстро проверить себя на одном примере и попытаться до трёх автоматических исправлений при ошибках; если исправления не помогают, действие пропускается. Такой дизайн даёт сигнал обучения, не затрагивая веса сильной модели.

RLAO: обучение планировщика оффлайн

RLAO работает оффлайн по многотуровым траекториям. На каждой итерации система сэмплирует несколько кандидатных действий, выбирает лучшее для продвижения состояния и сохраняет остальные для обучения. Политика оптимизируется через reward-weighted regression. Награды разрежены и сравнивают текущую валидационную точность с историей: больший вес даётся, если новый результат превосходит предыдущий рекорд, меньший — если он просто превосходит последнюю итерацию. Такая цель стимулирует устойчивый прогресс при контроле расходов на исследование. Подробнее в https://arxiv.org/pdf/2504.04785.

Результаты и эффективность

W4S демонстрирует стабильный прирост в 11 бенчмарках. Ключевые результаты:

HumanEval с GPT-4o-mini в роли исполнителя: Pass@1 = 95.4 после примерно 33 минут оптимизации workflow. Обучение 7B мета-агента заняло около 1 GPU-часа. Стоимость API мета-агента была нулевой, так как сильная модель не дообучалась; суммарная стоимость оптимизации и выполнения составила около 0.9 долларов.
Math transfer: мета-агент обучали с GPT-3.5-Turbo на GSM Plus и MGSM, затем оценивали на GSM8K, GSM Hard и SVAMP. Получены значения 86.5 на GSM8K и 61.8 на GSM Hard, выше автоматизированных базовых методов.

На задачах, известных системе, с GPT-4o-mini W4S превосходит методы, которые ищут решения без обучения планировщика. Абляции показывают, что агент, обученный через RLAO, даёт лучшую точность по сравнению с supervised fine-tuning при тех же вычислительных ресурсах. В сравнении с GRPO на 7B модели для GSM Hard, W4S также показывает лучшие результаты при ограниченных ресурсах.

Бюджеты итераций и выборочная эффективность

Авторы отмечают влияние числа итераций: W4S обычно использует около 10 оптимизационных ходов по основным таблицам, тогда как AFlow и ADAS запускают примерно 20 и 30 ходов соответственно. Несмотря на меньшее число ходов, W4S достигает более высокой точности, что указывает на то, что обучение планированию кода вместе с валидационной обратной связью делает поиск более sample-efficient.

Основные выводы

W4S обучает 7B мета-агента с помощью RLAO писать Python-workflow, использующие сильные исполнители, моделирует задачу как многошаговый MDP и демонстрирует значимые улучшения по ряду бенчмарков, избегая при этом дообучения сильной модели. Полную техническую документацию можно найти в статье по ссылке https://arxiv.org/pdf/2504.04785.