FILTER MODE ACTIVE

#MBPP

Найдено записей: 2

#MBPP09.10.2025

RA3: Темпоральные абстракции действий для ускорения RL-посттренинга в кодовых LLM

'RA3 формализует mid-training как отсечение пространства действий и сокращение горизонта планирования, используя темпоральные абстракции для ускорения RL-посттренинга и улучшения генерации кода.'