RA3: Темпоральные абстракции действий для ускорения RL-посттренинга в кодовых LLM

Обзор

Новое исследование от Apple формализует, чего должна добиваться фаза mid-training перед RL-посттренингом в кодовых LLM. Авторы предлагают RA3 (Reasoning as Action Abstractions) — процедуру в стиле EM, которая ищет темпорально последовательные латентные действия в демонстрациях экспертов, а затем дообучает модель на этих разметках. Ключевая идея: mid-training должен одновременно сжимать пространство действий до компактного близкого к оптимальному подпространства и укорачивать эффективный горизонт планирования, что улучшает сходимость RL.

Что должно делать mid-training

Авторы выделяют два детерминанта влияния mid-training:

Анализ показывает, что mid-training работает лучше, когда пространство решений компактно, а эффективный горизонт короток. Это делает предпочтительными темпоральные абстракции действий, которые охватывают несколько токенов, вместо примитивных действий на уровне следующего токена.

Алгоритм RA3 (один проход)

RA3 выведен из последовательной вариационной нижней оценки правдоподобия, именуемой temporal ELBO, и оптимизируется циклом, похожим на EM:

Этот однопроходный подход обнаруживает устойчивые темпоральные действия в демонстрациях и затем делает их частью поведения модели через дообучение.

Результаты на задачах генерации кода и RLVR

На задачах с Python и для нескольких базовых моделей RA3 улучшает средний pass@k на HumanEval и MBPP примерно на +8 и +4 пункта соответственно по сравнению с базовой моделью и mid-training-базой NTP. При инициализации посттренинга RLVR моделями, обученными с RA3, наблюдается более быстрая сходимость и более высокая финальная производительность на HumanEval+, MBPP+, LiveCodeBench и Codeforces.

Эти результаты отражают как преимущества mid-training (лучшие априоры через абстракции), так и улучшенную динамику посттренинга (быстрее и стабильнее оптимизация RL в сжатом пространстве действий).

Основные выводы

Полные технические детали в статье на arXiv: https://arxiv.org/pdf/2509.25810