#curriculum05.11.2025
Обучение model-native агента: внутреннее планирование, память и использование нескольких инструментов через end-to-end RL
'Компактный нейросетевой агент учится планировать, хранить и комбинировать символические операции end-to-end с помощью RL, показывая сходящиеся многошаговые стратегии на синтетических арифметических задачах.'