Tiny Recursive Model (TRM): как 7M-рекурсивная модель обходит большие LLM на ARC-AGI

октября 9, 2025 · 3 min

О модели TRM и почему это важно

Исследовательская группа Samsung SAIT в Монреале представила Tiny Recursive Model (TRM) — компактный рекурсивный решатель с примерно 7 миллионами параметров, который показывает результат сопоставимый или лучше, чем у значительно больших автозагружаемых LLM на задачах символического рассуждения. TRM реализует итеративный подход draft–revise, поддерживая латентный “scratchpad” и текущее представление решения, которые многократно уточняются рекурсивно.

Основные архитектурные изменения

TRM упрощает архитектуру по сравнению с предыдущей Hierarchical Reasoning Model (HRM): вместо иерархии из двух модулей и аппроксимации фиксированной точки модель использует один маленький рекуррентный блок из двух слоев, который совместно поддерживает латентный вектор z и представление решения y. Модель попеременно выполняет два вида обновлений:

think: обновление z ← f(x, y, z) на n внутренних шагов
act: обновление y ← g(y, z)

Блок think→act разворачивается до 16 раз с глубокой супервизией и обучаемой головой останова во время тренировки; на тесте используется полное разворачивание. Сигналы передаются между шагами через пару состояния (y, z).

Кроме того, в отличие от HRM с одноступенчатой имплицитной аппроксимацией градиента, TRM выполняет полную обратную пропагцию через все рекурсивные шаги, что исследователи считают ключевым для обобщения.

Архитектура и обучение

Один маленький рекуррентный ядро из двух слоев заменяет две модули HRM. Глубина достигается за счет рекурсии и разворачивания, а не наращивания числа слоев.
Для задач ARC и больших лабиринтов лучшая версия TRM сохраняет самовнимание. Для небольших фиксированных решеток типа Sudoku команда использует MLP-Mixer-стиль токен-миксера без внимания, чтобы снизить избыточность модели.
Небольшое экспоненциальное скользящее среднее (EMA) по весам помогает стабилизировать обучение на ограниченных данных.
Пример эффективной конфигурации: T = 3, n = 6. В абляциях два слоя обобщают лучше, чем более глубокие варианты при том же вычислительном бюджете.

Результаты на бенчмарках

ARC-AGI-1 / ARC-AGI-2 (две попытки): TRM-Attn (7M) 44.6% / 7.8% против HRM (27M) 40.3% / 5.0%.
Отчётные LLM-бенчмарки по статье: DeepSeek-R1 (671B) 15.8% / 1.3%, o3-mini-high 34.5% / 3.0%, Gemini 2.5 Pro 37.0% / 4.9%.
Sudoku-Extreme (9×9, 1K train / 423K test): 87.4% с миксером без внимания против HRM 55.0%.
Maze-Hard (30×30): 85.3% против HRM 74.5%.

Это модели для прямого предсказания, обученные с нуля на небольших, но сильно аугментированных датасетах, а не через few-shot prompting. ARC остаётся основным ориентиром, а общую контекстную информацию и правила отслеживает ARC Prize Foundation.

Почему 7M модель может опередить крупные LLM на этих задачах

Решение через черновик и итеративное исправление: TRM сначала формирует полный кандидат-решение, затем последовательно улучшает его через скрытые согласованности с исходными данными, уменьшая экспозиционное смещение, присущее автогрессивной генерации структурированных выходов.
Вычисления на этапе рассуждения вместо количества параметров: глубокая вычислительная мощность достигается через рекурсию и разворачивание (приблизительная эмулированная глубина ≈ T·(n+1)·layers), что даёт лучшее обобщение при фиксированном вычислительном бюджете, чем простое увеличение числа слоев.
Более жёсткая индуктивная индукция для задач на решётке: для фиксированных малых решёток (например, Sudoku) отказ от самовнимания в пользу миксера улучшает соотношение смещения и дисперсии; для больших сеток сохраняется самовнимание.

Выводы

Архитектура: примерно 7M параметров, 2 слоя, рекурсивный цикл think z ← f(x, y, z) и act y ← g(y, z), разворот до 16 шагов с глубокой супервизией и полной обратной пропагацией через рекурсию.
Результаты: около 44.6–45% на ARC-AGI-1 и 7.8–8% на ARC-AGI-2 (две попытки), превосходя ряд больших LLM в рамках заявленного протокола оценки.
Значение: перераспределение вычислений в пользу рекурсивного уточнения и более строгие индуктивные предположения для конкретных задач могут превосходить масштабирование параметров на символических и геометрических задачах. Код исследовательской группы доступен на GitHub.

Более подробные технические материалы в статье на arXiv: https://arxiv.org/pdf/2510.04871v1