MetaStone-S1: Революция в AI-рассуждениях с помощью рефлексивной генеративной модели

Введение в MetaStone-S1 и рефлексивную генеративную форму

Исследователи из MetaStone-AI и УСТЦ представили MetaStone-S1 — рефлексивную генеративную модель, которая достигает уровня производительности, сопоставимого с OpenAI o3-mini. Этот прорыв обеспечивается инновационной рефлексивной генеративной формой, объединяющей генерацию рассуждений и их оценку в единой архитектуре.

Ключевые инновации

Объединённое моделирование политики и награды

MetaStone-S1 объединяет модель политики, генерирующую траектории рассуждений, и модель поэтапной оценки процесса (Process Reward Model, PRM) в одну архитектуру с общими параметрами. Это требует лишь небольшой дополнительной части — около 53 миллионов параметров в составе основной модели на 32 миллиарда параметров, что значительно снижает вычислительные затраты по сравнению с традиционными отдельными PRM.

Самообучающаяся модель оценки процесса (SPRM)

SPRM устраняет необходимость в дорогостоящих размеченных данных по процессам, используя функцию потерь с самообучением. Она оценивает качество промежуточных шагов рассуждений исключительно по правильности конечного ответа, поддерживаемая динамическим механизмом взвешивания, который фильтрует шумные метки.

Переосмысление масштабирования во время вывода (Test-Time Scaling, TTS)

В отличие от традиционных больших языковых моделей, которые повышают качество за счёт увеличения параметров во время обучения, MetaStone-S1 улучшает вывод через масштабирование вычислений во время инференса:

Внутреннее TTS: расширяет цепочку рассуждений для более глубокого поэтапного решения, но с высокими вычислительными затратами.
Внешнее TTS: генерирует несколько параллельных путей рассуждений и выбирает лучший с помощью PRM, что обычно требует дополнительных моделей и отдельной разметки.
Гибридный подход MetaStone-S1: сочетает оба метода в одной архитектуре, обеспечивая эффективный и точный выбор траекторий с минимальными дополнительными ресурсами.

Производительность и тестирование

Модель MetaStone-S1 представлена в трёх вариантах: 1.5B, 7B и 32B параметров. Крупнейшая версия, MetaStone-S1-32B, соответствует или превосходит ведущие коммерческие и открытые модели, включая OpenAI o3-mini, по ключевым задачам на рассуждения и математику. Меньшие версии также показывают хорошую масштабируемость и эффективное использование параметров, например, модель 1.5B превосходит сверстников в математических задачах.

Эффективность и «момент озарения»

Интеграция SPRM добавляет минимальные параметры (например, 26M против 72B в традиционных PRM), обеспечивая при этом передовые результаты. Анализ обучения выявляет «момент озарения», когда модель начинает чётко различать правильные и неправильные пути рассуждений, что улучшает итоговую производительность. Производительность MetaStone-S1 растёт логарифмически в зависимости от вычислительного бюджета (размер модели × количество токенов рассуждений), достигая плато около Best-of-32 сэмплинга — оптимального баланса между эффективностью и точностью.

Гибкие режимы рассуждения

Для баланса между производительностью и ресурсами MetaStone-S1 предлагает три режима вывода TTS:

Низкий (k=2): самый быстрый режим для оперативных ответов.
Средний (k=8): улучшенная точность при умеренных вычислительных затратах.
Высокий (k=32): максимальная глубина для сложных задач.

Уникальная архитектура MetaStone-S1 объединяет решение задач и их проверку, достигая высоких результатов при меньших ресурсах, что открывает новые возможности для развития и доступности AI-рассуждений.

Для подробностей смотрите статью, модели на Hugging Face и страницу на GitHub. Все заслуги принадлежат исследователям проекта.