Tiny Recursive Model (TRM): как 7M-рекурсивная модель обходит большие LLM на ARC-AGI

О модели TRM и почему это важно

Исследовательская группа Samsung SAIT в Монреале представила Tiny Recursive Model (TRM) — компактный рекурсивный решатель с примерно 7 миллионами параметров, который показывает результат сопоставимый или лучше, чем у значительно больших автозагружаемых LLM на задачах символического рассуждения. TRM реализует итеративный подход draft–revise, поддерживая латентный “scratchpad” и текущее представление решения, которые многократно уточняются рекурсивно.

Основные архитектурные изменения

TRM упрощает архитектуру по сравнению с предыдущей Hierarchical Reasoning Model (HRM): вместо иерархии из двух модулей и аппроксимации фиксированной точки модель использует один маленький рекуррентный блок из двух слоев, который совместно поддерживает латентный вектор z и представление решения y. Модель попеременно выполняет два вида обновлений:

Блок think→act разворачивается до 16 раз с глубокой супервизией и обучаемой головой останова во время тренировки; на тесте используется полное разворачивание. Сигналы передаются между шагами через пару состояния (y, z).

Кроме того, в отличие от HRM с одноступенчатой имплицитной аппроксимацией градиента, TRM выполняет полную обратную пропагцию через все рекурсивные шаги, что исследователи считают ключевым для обобщения.

Архитектура и обучение

Результаты на бенчмарках

Это модели для прямого предсказания, обученные с нуля на небольших, но сильно аугментированных датасетах, а не через few-shot prompting. ARC остаётся основным ориентиром, а общую контекстную информацию и правила отслеживает ARC Prize Foundation.

Почему 7M модель может опередить крупные LLM на этих задачах

Выводы

Более подробные технические материалы в статье на arXiv: https://arxiv.org/pdf/2510.04871v1