Метакогнитивный риус: как Meta сжимает цепочки рассуждений в «пособие процедур», сокращая токены на 46%

Исследователи Meta предлагают метод, который сжимает повторяющиеся фрагменты цепочек рассуждений в короткие именованные процедуры — «поведения», а затем повторно использует или дистиллирует их, чтобы значительно повысить эффективность рассуждений больших моделей.

Почему это важно

Длинные цепочки рассуждений часто заново выводят одни и те же подшаги — принцип включения-исключения, преобразования систем счисления, стандартные геометрические трюки. Такая избыточность увеличивает длину вывода, задержки и стоимость, и расходует вычислительный бюджет, который можно было бы направить на новые подзадачи. Meta рассматривает решение как процедурную память для LLM: компактное, индексируемое пособие с инструкциями “как делать”.

Как устроен пайплайн

Система использует три роли для создания и применения справочника поведений:

На MATH поведение извлекают по темам, на AIME используются эмбеддинги (BGE-M3 + FAISS). Команды включают шаблоны для решения, рефлексии, извлечения поведений и поведенчески обусловленного инференса (BCI). В BCI модель просят явно ссылаться на поведения, что даёт короткие и структурированные рассуждения.

Режимы оценки и применения

Главные результаты на MATH и AIME

Важно, что преимущество не объясняется более простым тренировочным корпусом: корректность ответов учителя в оригинальном и поведенчески обусловленном наборах близка, но BC-SFT модели лучше обобщают.

Что такое поведение

Поведения — это компактные пары имя→инструкция, от общих приёмов рассуждения до точных математических инструментов, например:

Во время BCI ученик явно ссылается на поведения при их использовании, что делает трассы аудируемыми и короткими.

Извлечение, стоимость и задержки

BCI добавляет входные токены (поведения), но эти токены можно заранее вычислить, и они не автогенерируются последовательным декодированием. На коммерческих API входные токены часто тарифицируются дешевле, чем выходные, поэтому сокращение вывода может снизить стоимость и задержки. BC-SFT устраняет необходимость извлечения на тесте, встроив поведения в веса модели.

Почему это работает и открытые вопросы

Хранение процедурных инструкций дополняет классическое RAG: поведения описывают как рассуждать, а не какие факты вспоминать. Замена многословных выводов на краткие переиспользуемые шаги экономит расчёт и позволяет моделям концентрироваться на новых подзадачах. Поведенческие подсказки направляют декодер к эффективным и корректным траекториям, а BC-SFT делает эти траектории неявной частью модели.

Открытые инженерные задачи включают масштабирование подхода за пределы математики, организацию растущего корпуса поведений и поддержание качества и релевантности с увеличением числа записей.

Подробности в статье: https://arxiv.org/pdf/2509.13237