CMU обучает LLM агентов продуктивности, проактивности и персонализации с помощью PPP и UserVille

Почему современные LLM агенты недорабатывают

Большинство LLM агентов оптимизированы под максимизацию успеха задачи. Они решают баги на GitHub или отвечают на сложные исследовательские запросы, но часто не понимают, когда стоит задать уточняющий вопрос, и как подстроиться под предпочтения пользователя. В результате либо задаются слишком мало вопросов и падает качество, либо задаются навязчивые вопросы, нарушающие ожидания пользователя.

Что дают PPP и UserVille

Исследователи из Carnegie Mellon University и OpenHands формализуют три совместные цели: Productivity, Proactivity и Personalization. Они реализуют многоцелевая RL схему PPP внутри среды UserVille, чтобы обучать агентов не только завершать задачи, но и задавать полезные вопросы и адаптировать поведение к конкретному пользователю.

UserVille: среда, ориентированная на взаимодействие

UserVille превращает существующие бенчмарки агентов в среду для RL с LLM симуляторами пользователей. Ключевые элементы среды:

Prompt vaguenization: точные промпты переписываются в расплывчатые версии, сохраняющие намерение, но убирающие детали. Симулятор видит точный промпт, агент видит расплывчатый.
Preference aware user simulation: каждый симулятор имеет одну из 20 предпочтений взаимодействия: краткость, число вопросов за ход, формат ответа, временные или языковые ограничения, требования к формату JSON и пр. Для обучения используют 12 предпочтений, 8 удерживают для тестов на обобщение.
User centric evaluation: после сессии симулятор маркирует каждый вопрос как low effort, medium effort или high effort. Проактивность учитывает преимущественно low effort вопросы. Персонализация оценивается, если агент соблюдает предпочтение, усредняясь по сессиям с хотя бы одним вопросом.

UserVille применяется к двум доменам: разработка ПО (SWE-Gym для обучения, SWE-Bench Verified и SWE-Bench Full для оценки) и глубокие исследовательские задачи (BrowseComp-Plus с search и open_page инструментами).

PPP: награды и обучение

Агенты реализованы в стиле ReAct на базе Seed-OSS-36B-Instruct. Они используют доменные инструменты и ask_user инструмент для запросов к симулятору. PPP определяет траекторную награду R как сумму трех компонентов:

R = RProd + RProact + RPers

RProd: метрика задачи, например F1 на SWE-Func-Loc или exact match на BrowseComp-Plus.
RProact: бонус +0.05 если все вопросы в сессии low effort, штрафы −0.1 за medium effort и −0.5 за high effort.
RPers: +0.05 за соблюдение предпочтения и неположительные штрафы за нарушения, определенные правилами предпочтения.

Обучение использует GRPO с Clip Higher стратегией и token level policy gradient loss по мотивам DAPO. Оптимизируются только токены, сгенерированные LLM. Среда реализована с Verl и OpenHands. Seed-OSS-36B-Instruct тренируется 200 шагов с batch size 64 и group size 8. Максимальная длина вывода зависит от задачи (например 32k токенов для SWE-Func-Loc). В качестве симулятора используется GPT 5 Nano.

Результаты экспериментов

Оценивали продуктивность, проактивность и персонализацию на SWE-Bench Verified Func-Loc и BrowseComp-Plus с расплывчатыми промптами, усредняя по 20 предпочтениям.

Для базовой Seed-OSS-36B-Instruct модели:

SWE-Func-Loc: productivity 38.59, proactivity 43.70, personalization 69.07
BrowseComp-Plus: productivity 18.20, proactivity 37.60, personalization 64.76

После PPP обучения модель достигает:

SWE-Func-Loc: productivity 56.26, proactivity 75.55, personalization 89.26
BrowseComp-Plus: productivity 26.63, proactivity 47.69, personalization 76.85

Средний прирост по всем трем метрикам и обоим датасетам составляет 16.72 пункта относительно Seed-OSS-36B-Instruct. PPP также превосходит GPT 5 и другие GPT базовые модели по комбинированной метрике.

Взаимодействие имеет решающее значение: на SWE-Func-Loc F1 с точными промптами и без взаимодействия равен 64.50. С расплывчатыми промптами и без взаимодействия он падает до 44.11. Добавление взаимодействия без RL не восстанавливает разрыв. После PPP обучения и взаимодействия F1 при расплывчатых промптах улучшается на 21.66 пункта.

PPP также меняет поведение: доля сессий с вопросом на SWE-Func-Loc растет с 50% до 100% при расплывчатых промптах и с 51% до 85% для глубоких исследований, оставаясь низкой для точных промптов. Число вопросов в сессии сначала растет в начале обучения, затем стабилизируется с высоким долей low effort вопросов и очень малым числом high effort вопросов.

Выводы

PPP переводит обучение агентов в многоцелевая задачу, совместно оптимизируя продуктивность, проактивность и персонализацию.
UserVille обеспечивает моделирование взаимодействия через расплывчатые промпты и симуляторы с 20 типами предпочтений.
Дизайн награды поощряет целевые низко затратные уточняющие вопросы и штрафует затратные или ненужные запросы и нарушения предпочтений.
PPP существенно улучшает все три метрики на бенчмарках и учит агентов задавать меньше, но более релевантных низко затратных вопросов.

Работа подчеркивает важность учета взаимодействия как базовой способности будущих LLM агентов и предоставляет ссылки на исходники и репозиторий с кодом.