Weak-for-Strong: как 7B мета-агент научился оркестровать мощные LLM

Что такое W4S и зачем это нужно

Исследователи из Stanford, EPFL и UNC представляют Weak-for-Strong Harnessing (W4S) — фреймворк на основе обучения с подкреплением, который обучает небольшой мета-агент проектировать и улучшать исполняемые кодовые рабочие процессы, обращающиеся к более сильной модели-исполнителю. Вместо дообучения мощной модели W4S учит лёгкого планировщика управлять ею. Подход формулирует проектирование workflow как многошаговый процесс Маркова и оптимизирует планировщик методом Reinforcement Learning for Agentic Workflow Optimization (RLAO). Полный текст работы доступен на https://arxiv.org/pdf/2504.04785.

Как работает итеративный цикл

W4S выполняется как итеративный цикл генерация–выполнение–улучшение. Каждое действие включает:

Мета-агент может быстро проверить себя на одном примере и попытаться до трёх автоматических исправлений при ошибках; если исправления не помогают, действие пропускается. Такой дизайн даёт сигнал обучения, не затрагивая веса сильной модели.

RLAO: обучение планировщика оффлайн

RLAO работает оффлайн по многотуровым траекториям. На каждой итерации система сэмплирует несколько кандидатных действий, выбирает лучшее для продвижения состояния и сохраняет остальные для обучения. Политика оптимизируется через reward-weighted regression. Награды разрежены и сравнивают текущую валидационную точность с историей: больший вес даётся, если новый результат превосходит предыдущий рекорд, меньший — если он просто превосходит последнюю итерацию. Такая цель стимулирует устойчивый прогресс при контроле расходов на исследование. Подробнее в https://arxiv.org/pdf/2504.04785.

Результаты и эффективность

W4S демонстрирует стабильный прирост в 11 бенчмарках. Ключевые результаты:

На задачах, известных системе, с GPT-4o-mini W4S превосходит методы, которые ищут решения без обучения планировщика. Абляции показывают, что агент, обученный через RLAO, даёт лучшую точность по сравнению с supervised fine-tuning при тех же вычислительных ресурсах. В сравнении с GRPO на 7B модели для GSM Hard, W4S также показывает лучшие результаты при ограниченных ресурсах.

Бюджеты итераций и выборочная эффективность

Авторы отмечают влияние числа итераций: W4S обычно использует около 10 оптимизационных ходов по основным таблицам, тогда как AFlow и ADAS запускают примерно 20 и 30 ходов соответственно. Несмотря на меньшее число ходов, W4S достигает более высокой точности, что указывает на то, что обучение планированию кода вместе с валидационной обратной связью делает поиск более sample-efficient.

Основные выводы

W4S обучает 7B мета-агента с помощью RLAO писать Python-workflow, использующие сильные исполнители, моделирует задачу как многошаговый MDP и демонстрирует значимые улучшения по ряду бенчмарков, избегая при этом дообучения сильной модели. Полную техническую документацию можно найти в статье по ссылке https://arxiv.org/pdf/2504.04785.