RA3: Темпоральные абстракции действий для ускорения RL-посттренинга в кодовых LLM
Обзор
Новое исследование от Apple формализует, чего должна добиваться фаза mid-training перед RL-посттренингом в кодовых LLM. Авторы предлагают RA3 (Reasoning as Action Abstractions) — процедуру в стиле EM, которая ищет темпорально последовательные латентные действия в демонстрациях экспертов, а затем дообучает модель на этих разметках. Ключевая идея: mid-training должен одновременно сжимать пространство действий до компактного близкого к оптимальному подпространства и укорачивать эффективный горизонт планирования, что улучшает сходимость RL.
Что должно делать mid-training
Авторы выделяют два детерминанта влияния mid-training:
- Эффективность отсечения: насколько хорошо mid-training выбирает компактное близко к оптимальному подмножество действий, формируя априорную политику модели.
- Сходимость RL: как быстро посттренинг улучшает политику в пределах этого ограниченного множества действий.
Анализ показывает, что mid-training работает лучше, когда пространство решений компактно, а эффективный горизонт короток. Это делает предпочтительными темпоральные абстракции действий, которые охватывают несколько токенов, вместо примитивных действий на уровне следующего токена.
Алгоритм RA3 (один проход)
RA3 выведен из последовательной вариационной нижней оценки правдоподобия, именуемой temporal ELBO, и оптимизируется циклом, похожим на EM:
- E-шаг (поиск латентных структур): с помощью RL выявляются темпорально согласованные латентные структуры или абстракции, согласованные с траекториями экспертов.
- M-шаг (обновление модели): выполняется предсказание следующего токена по бутстрапнутым трассам с латентной разметкой, чтобы эти абстракции стали частью политики модели.
Этот однопроходный подход обнаруживает устойчивые темпоральные действия в демонстрациях и затем делает их частью поведения модели через дообучение.
Результаты на задачах генерации кода и RLVR
На задачах с Python и для нескольких базовых моделей RA3 улучшает средний pass@k на HumanEval и MBPP примерно на +8 и +4 пункта соответственно по сравнению с базовой моделью и mid-training-базой NTP. При инициализации посттренинга RLVR моделями, обученными с RA3, наблюдается более быстрая сходимость и более высокая финальная производительность на HumanEval+, MBPP+, LiveCodeBench и Codeforces.
Эти результаты отражают как преимущества mid-training (лучшие априоры через абстракции), так и улучшенную динамику посттренинга (быстрее и стабильнее оптимизация RL в сжатом пространстве действий).
Основные выводы
- Авторы формализуют роль mid-training через два фактора — эффективность отсечения и влияние на сходимость RL — и показывают, что оба важны для успеха downstream RL.
- RA3 реализует темпоральные абстракции действий через temporal ELBO, оптимизируемый в EM-подобном цикле: RL-поиск латентных структур, затем дообучение на бутстрапнутых трассах.
- В экспериментах RA3 стабильно улучшает метрики генерации кода и ускоряет сходимость и асимптотическую производительность RLVR при инициализации с его помощью.
Полные технические детали в статье на arXiv: https://arxiv.org/pdf/2509.25810