Набор инструментов Enigmata революционизирует решение головоломок в больших языковых моделях с помощью продвинутого обучения с подкреплением

Проблемы решения головоломок для больших моделей рассуждений

Большие модели рассуждений (LRM), созданные на основе больших языковых моделей (LLM) и дообученные с использованием обучения с подкреплением (RL), демонстрируют впечатляющие результаты в сложных задачах, таких как математика, STEM и программирование. Однако эти модели испытывают трудности с задачами-головоломками, требующими чисто логического мышления — задачами, которые для человека очевидны и просты. Существующие методы в основном сосредоточены на создании бенчмарков для оценки, но им не хватает эффективных методов обучения и разнообразных наборов головоломок, необходимых современным LLM для улучшения в этой области.

Роль обучения с подкреплением с проверяемыми наградами (RLVR)

Обучение с подкреплением с проверяемыми наградами (RLVR) стало ключевым подходом для улучшения способностей к рассуждению, предоставляя прямые объективные награды на основе проверяемых ответов вместо использования моделей награды. Головоломки идеально подходят для RLVR, поскольку их решения можно объективно проверить. Тем не менее, предыдущие исследования RLVR в значительной степени игнорировали потенциал головоломок как источника эффективных сигналов награды.

Представляем Enigmata: комплексный набор инструментов для решения головоломок

Команда исследователей из ByteDance Seed, Университета Фудань, Университета Цинхуа, Нанкинского университета и Шанхайского университета транспорта разработала Enigmata — первый обширный набор инструментов, направленный на улучшение способностей LLM к решению головоломок. Enigmata включает 36 задач из семи категорий: криптография, арифметика, логика, сетки, графы, поиск и последовательные головоломки. Каждая задача оснащена автогенератором, создающим неограниченное количество примеров с регулируемой сложностью, и основанным на правилах проверяющим модулем для автоматической оценки.

Данные и оценка Enigmata

Данные Enigmata уникальны по своей масштабируемости, разнообразию и публичной доступности, преодолевая ограничения предыдущих наборов головоломок. Они создаются через трехэтапный процесс: сбор и проектирование задач, разработка автогенератора и проверяющего, а также управление уровнем сложности. Бенчмарк Enigmata-Eval выбирает по 50 примеров головоломок на каждый уровень сложности для каждой задачи, в итоге формируя 4758 экземпляров для тщательной оценки.

Прорывные результаты моделей, обученных с помощью Enigmata

Модели, обученные на данных Enigmata с использованием многоцелевого RLVR, достигают передовых результатов на бенчмарках, таких как AIME, BeyondAIME и GPQA, особенно крупные модели, например Seed1.5-Thinking. Модель с 32 миллиардами параметров превосходит большинство публичных моделей на Enigmata-Eval и демонстрирует выдающиеся результаты на сложном бенчмарке ARC-AGI, обходя известных лидеров, включая Gemini 2.5 Pro, o3-mini и o1.

Сильные стороны и выводы

Enigmata-модели особенно хорошо справляются с криптографическими, арифметическими и логическими задачами, что говорит о развитии у них способностей к решению на основе правил. Они также показывают конкурентоспособные результаты в задачах поиска, требующих стратегического планирования. Тем не менее, пространственные и последовательные задачи остаются более сложными, что указывает на направления для будущих улучшений.

Широкое влияние и перспективы

Фреймворк Enigmata не только продвигает решение головоломок, но и приносит пользу более широким областям рассуждений при интеграции в крупные модели. Его открытый и комплексный дизайн предоставляет исследовательскому сообществу прочную основу для дальнейшего развития моделей рассуждений, объединяя логическое решение головоломок с общими навыками рассуждения в LLM.

Для дополнительной информации посетите статью, GitHub и проект. Следите за обновлениями в Twitter и присоединяйтесь к сообществу ML в 95k+ SubReddit и в нашем Newsletter.