MetaStone-S1: Революция в AI-рассуждениях с помощью рефлексивной генеративной модели
MetaStone-S1 представляет инновационный рефлексивный генеративный подход, достигая уровня OpenAI o3-mini по рассуждениям при значительно меньших вычислительных ресурсах и открывая новые пути для эффективного AI.
Введение в MetaStone-S1 и рефлексивную генеративную форму
Исследователи из MetaStone-AI и УСТЦ представили MetaStone-S1 — рефлексивную генеративную модель, которая достигает уровня производительности, сопоставимого с OpenAI o3-mini. Этот прорыв обеспечивается инновационной рефлексивной генеративной формой, объединяющей генерацию рассуждений и их оценку в единой архитектуре.
Ключевые инновации
Объединённое моделирование политики и награды
MetaStone-S1 объединяет модель политики, генерирующую траектории рассуждений, и модель поэтапной оценки процесса (Process Reward Model, PRM) в одну архитектуру с общими параметрами. Это требует лишь небольшой дополнительной части — около 53 миллионов параметров в составе основной модели на 32 миллиарда параметров, что значительно снижает вычислительные затраты по сравнению с традиционными отдельными PRM.
Самообучающаяся модель оценки процесса (SPRM)
SPRM устраняет необходимость в дорогостоящих размеченных данных по процессам, используя функцию потерь с самообучением. Она оценивает качество промежуточных шагов рассуждений исключительно по правильности конечного ответа, поддерживаемая динамическим механизмом взвешивания, который фильтрует шумные метки.
Переосмысление масштабирования во время вывода (Test-Time Scaling, TTS)
В отличие от традиционных больших языковых моделей, которые повышают качество за счёт увеличения параметров во время обучения, MetaStone-S1 улучшает вывод через масштабирование вычислений во время инференса:
- Внутреннее TTS: расширяет цепочку рассуждений для более глубокого поэтапного решения, но с высокими вычислительными затратами.
- Внешнее TTS: генерирует несколько параллельных путей рассуждений и выбирает лучший с помощью PRM, что обычно требует дополнительных моделей и отдельной разметки.
- Гибридный подход MetaStone-S1: сочетает оба метода в одной архитектуре, обеспечивая эффективный и точный выбор траекторий с минимальными дополнительными ресурсами.
Производительность и тестирование
Модель MetaStone-S1 представлена в трёх вариантах: 1.5B, 7B и 32B параметров. Крупнейшая версия, MetaStone-S1-32B, соответствует или превосходит ведущие коммерческие и открытые модели, включая OpenAI o3-mini, по ключевым задачам на рассуждения и математику. Меньшие версии также показывают хорошую масштабируемость и эффективное использование параметров, например, модель 1.5B превосходит сверстников в математических задачах.
Эффективность и «момент озарения»
Интеграция SPRM добавляет минимальные параметры (например, 26M против 72B в традиционных PRM), обеспечивая при этом передовые результаты. Анализ обучения выявляет «момент озарения», когда модель начинает чётко различать правильные и неправильные пути рассуждений, что улучшает итоговую производительность. Производительность MetaStone-S1 растёт логарифмически в зависимости от вычислительного бюджета (размер модели × количество токенов рассуждений), достигая плато около Best-of-32 сэмплинга — оптимального баланса между эффективностью и точностью.
Гибкие режимы рассуждения
Для баланса между производительностью и ресурсами MetaStone-S1 предлагает три режима вывода TTS:
- Низкий (k=2): самый быстрый режим для оперативных ответов.
- Средний (k=8): улучшенная точность при умеренных вычислительных затратах.
- Высокий (k=32): максимальная глубина для сложных задач.
Уникальная архитектура MetaStone-S1 объединяет решение задач и их проверку, достигая высоких результатов при меньших ресурсах, что открывает новые возможности для развития и доступности AI-рассуждений.
Для подробностей смотрите статью, модели на Hugging Face и страницу на GitHub. Все заслуги принадлежат исследователям проекта.
Switch Language
Read this article in English