#TTRL23.04.2025
Революция в LLM: Самообучающиеся языковые модели без меток с помощью Test-Time Reinforcement Learning
Исследователи из Университета Цинхуа и Шанхайской лаборатории ИИ представили TTRL — новый метод, позволяющий большим языковым моделям улучшать свои результаты без размеченных данных, используя самооценку и обучение с подкреплением во время инференса.