Tiny Recursive Model (TRM): как 7M-рекурсивная модель обходит большие LLM на ARC-AGI
О модели TRM и почему это важно
Исследовательская группа Samsung SAIT в Монреале представила Tiny Recursive Model (TRM) — компактный рекурсивный решатель с примерно 7 миллионами параметров, который показывает результат сопоставимый или лучше, чем у значительно больших автозагружаемых LLM на задачах символического рассуждения. TRM реализует итеративный подход draft–revise, поддерживая латентный “scratchpad” и текущее представление решения, которые многократно уточняются рекурсивно.
Основные архитектурные изменения
TRM упрощает архитектуру по сравнению с предыдущей Hierarchical Reasoning Model (HRM): вместо иерархии из двух модулей и аппроксимации фиксированной точки модель использует один маленький рекуррентный блок из двух слоев, который совместно поддерживает латентный вектор z и представление решения y. Модель попеременно выполняет два вида обновлений:
- think: обновление z ← f(x, y, z) на n внутренних шагов
- act: обновление y ← g(y, z)
Блок think→act разворачивается до 16 раз с глубокой супервизией и обучаемой головой останова во время тренировки; на тесте используется полное разворачивание. Сигналы передаются между шагами через пару состояния (y, z).
Кроме того, в отличие от HRM с одноступенчатой имплицитной аппроксимацией градиента, TRM выполняет полную обратную пропагцию через все рекурсивные шаги, что исследователи считают ключевым для обобщения.
Архитектура и обучение
- Один маленький рекуррентный ядро из двух слоев заменяет две модули HRM. Глубина достигается за счет рекурсии и разворачивания, а не наращивания числа слоев.
- Для задач ARC и больших лабиринтов лучшая версия TRM сохраняет самовнимание. Для небольших фиксированных решеток типа Sudoku команда использует MLP-Mixer-стиль токен-миксера без внимания, чтобы снизить избыточность модели.
- Небольшое экспоненциальное скользящее среднее (EMA) по весам помогает стабилизировать обучение на ограниченных данных.
- Пример эффективной конфигурации: T = 3, n = 6. В абляциях два слоя обобщают лучше, чем более глубокие варианты при том же вычислительном бюджете.
Результаты на бенчмарках
- ARC-AGI-1 / ARC-AGI-2 (две попытки): TRM-Attn (7M) 44.6% / 7.8% против HRM (27M) 40.3% / 5.0%.
- Отчётные LLM-бенчмарки по статье: DeepSeek-R1 (671B) 15.8% / 1.3%, o3-mini-high 34.5% / 3.0%, Gemini 2.5 Pro 37.0% / 4.9%.
- Sudoku-Extreme (9×9, 1K train / 423K test): 87.4% с миксером без внимания против HRM 55.0%.
- Maze-Hard (30×30): 85.3% против HRM 74.5%.
Это модели для прямого предсказания, обученные с нуля на небольших, но сильно аугментированных датасетах, а не через few-shot prompting. ARC остаётся основным ориентиром, а общую контекстную информацию и правила отслеживает ARC Prize Foundation.
Почему 7M модель может опередить крупные LLM на этих задачах
- Решение через черновик и итеративное исправление: TRM сначала формирует полный кандидат-решение, затем последовательно улучшает его через скрытые согласованности с исходными данными, уменьшая экспозиционное смещение, присущее автогрессивной генерации структурированных выходов.
- Вычисления на этапе рассуждения вместо количества параметров: глубокая вычислительная мощность достигается через рекурсию и разворачивание (приблизительная эмулированная глубина ≈ T·(n+1)·layers), что даёт лучшее обобщение при фиксированном вычислительном бюджете, чем простое увеличение числа слоев.
- Более жёсткая индуктивная индукция для задач на решётке: для фиксированных малых решёток (например, Sudoku) отказ от самовнимания в пользу миксера улучшает соотношение смещения и дисперсии; для больших сеток сохраняется самовнимание.
Выводы
- Архитектура: примерно 7M параметров, 2 слоя, рекурсивный цикл think z ← f(x, y, z) и act y ← g(y, z), разворот до 16 шагов с глубокой супервизией и полной обратной пропагацией через рекурсию.
- Результаты: около 44.6–45% на ARC-AGI-1 и 7.8–8% на ARC-AGI-2 (две попытки), превосходя ряд больших LLM в рамках заявленного протокола оценки.
- Значение: перераспределение вычислений в пользу рекурсивного уточнения и более строгие индуктивные предположения для конкретных задач могут превосходить масштабирование параметров на символических и геометрических задачах. Код исследовательской группы доступен на GitHub.
Более подробные технические материалы в статье на arXiv: https://arxiv.org/pdf/2510.04871v1