FILTER MODE ACTIVE

#HumanEval

Найдено записей: 4

#HumanEval09.10.2025

RA3: Темпоральные абстракции действий для ускорения RL-посттренинга в кодовых LLM

'RA3 формализует mid-training как отсечение пространства действий и сокращение горизонта планирования, используя темпоральные абстракции для ускорения RL-посттренинга и улучшения генерации кода.'