Метакогнитивный риус: как Meta сжимает цепочки рассуждений в «пособие процедур», сокращая токены на 46%
Исследователи Meta предлагают метод, который сжимает повторяющиеся фрагменты цепочек рассуждений в короткие именованные процедуры — «поведения», а затем повторно использует или дистиллирует их, чтобы значительно повысить эффективность рассуждений больших моделей.
Почему это важно
Длинные цепочки рассуждений часто заново выводят одни и те же подшаги — принцип включения-исключения, преобразования систем счисления, стандартные геометрические трюки. Такая избыточность увеличивает длину вывода, задержки и стоимость, и расходует вычислительный бюджет, который можно было бы направить на новые подзадачи. Meta рассматривает решение как процедурную память для LLM: компактное, индексируемое пособие с инструкциями “как делать”.
Как устроен пайплайн
Система использует три роли для создания и применения справочника поведений:
- Метакогнитивный стратег (R1-Llama-70B): решает задачи, получает трассы, рефлексирует над ними, находит повторяющиеся шаги и выпускает поведения в виде пар имя→инструкция, которые пополняют справочник.
- Учитель (LLM B): генерирует ответы с учётом поведений, формируя обучающие данные.
- Ученик (LLM C): либо использует поведения в контексте на инференсе, либо дообучается на данных с поведениями, чтобы использование стало параметрическим.
На MATH поведение извлекают по темам, на AIME используются эмбеддинги (BGE-M3 + FAISS). Команды включают шаблоны для решения, рефлексии, извлечения поведений и поведенчески обусловленного инференса (BCI). В BCI модель просят явно ссылаться на поведения, что даёт короткие и структурированные рассуждения.
Режимы оценки и применения
- Behavior-Conditioned Inference (BCI): извлечь K релевантных поведений и добавить их в начало запроса, чтобы ученик ссылался и использовал их.
- Behavior-Guided Self-Improvement: извлекать поведения из собственных ранних попыток модели и подавать их как подсказки для доработки.
- Behavior-Conditioned SFT (BC-SFT): дообучать учеников на ответах учителя, где уже применяются поведения, чтобы на тесте не требовался поиск по справочнику.
Главные результаты на MATH и AIME
- Экономия токенов: на MATH-500 BCI сокращает токены рассуждений до 46% по сравнению с той же моделью без поведений при сопоставимой или лучшей точности. Это верно для R1-Llama-70B и Qwen3-32B и при диапазоне бюджетов токенов (2,048–16,384).
- Улучшение при самообучении: на AIME-24 поведенчески управляемое самоулучшение превосходит базовый подход critique-and-revise на большинстве бюджетов, достигая до 10% прироста точности по мере увеличения бюджета.
- Качество BC-SFT: дообученные модели (Llama-3.1-8B-Instruct, Qwen2.5-14B, Qwen2.5-32B, Qwen3-14B) последовательно превосходят стандартное SFT и исходные модели по точности, оставаясь при этом более экономичными по токенам.
Важно, что преимущество не объясняется более простым тренировочным корпусом: корректность ответов учителя в оригинальном и поведенчески обусловленном наборах близка, но BC-SFT модели лучше обобщают.
Что такое поведение
Поведения — это компактные пары имя→инструкция, от общих приёмов рассуждения до точных математических инструментов, например:
- behavior_inclusion_exclusion_principle: avoid double counting by subtracting intersections
- behavior_translate_verbal_to_equation: formalize word problems systematically
- behavior_distance_from_point_to_line: apply |Ax+By+C|/√(A²+B²) for tangency checks
Во время BCI ученик явно ссылается на поведения при их использовании, что делает трассы аудируемыми и короткими.
Извлечение, стоимость и задержки
BCI добавляет входные токены (поведения), но эти токены можно заранее вычислить, и они не автогенерируются последовательным декодированием. На коммерческих API входные токены часто тарифицируются дешевле, чем выходные, поэтому сокращение вывода может снизить стоимость и задержки. BC-SFT устраняет необходимость извлечения на тесте, встроив поведения в веса модели.
Почему это работает и открытые вопросы
Хранение процедурных инструкций дополняет классическое RAG: поведения описывают как рассуждать, а не какие факты вспоминать. Замена многословных выводов на краткие переиспользуемые шаги экономит расчёт и позволяет моделям концентрироваться на новых подзадачах. Поведенческие подсказки направляют декодер к эффективным и корректным траекториям, а BC-SFT делает эти траектории неявной частью модели.
Открытые инженерные задачи включают масштабирование подхода за пределы математики, организацию растущего корпуса поведений и поддержание качества и релевантности с увеличением числа записей.
Подробности в статье: https://arxiv.org/pdf/2509.13237