REST: Фреймворк для стресс-тестирования больших моделей рассуждения с многозадачностью

Ограничения текущих бенчмарков для больших моделей рассуждения

Большие модели рассуждения (LRM) демонстрируют впечатляющие способности в математике, программировании и научном анализе. Однако существующие бенчмарки, такие как GSM8K и MATH, оценивают модели по одному вопросу за раз. Такой подход имеет два важных недостатка. Во-первых, бенчмарки быстро насыщаются — многие передовые модели достигают почти идеальных результатов, что затрудняет различение улучшений. Во-вторых, тестирование по одному вопросу не отражает реальные задачи, где модели должны одновременно решать несколько проблем, что требует высокого когнитивного напряжения и адаптивного мышления.

Представляем REST: фреймворк для стресс-тестирования с несколькими задачами одновременно

REST (Reasoning Evaluation through Simultaneous Testing) — это новый подход, который проверяет модели рассуждения, подавая несколько вопросов в одном запросе. Такой метод увеличивает нагрузку и проверяет способности моделей работать с несколькими проблемами одновременно. REST преобразует существующие бенчмарки, объединяя вопросы в один запрос и регулируя уровень стресса — количество вопросов, представляемых одновременно. Оцениваются навыки приоритизации контекста, устойчивость к помехам между задачами и управление когнитивной нагрузкой. Фреймворк протестирован на 34 продвинутых моделях от 1.5 до 671 миллиарда параметров на 7 различных наборах данных разной сложности.

Основные выводы из оценок REST

REST выявляет ключевые особенности моделей:

Снижение производительности при многозадачности: Даже лучшие модели, например DeepSeek-R1, теряют до 30% точности на сложных задачах (AIME24) при одновременной работе с несколькими вопросами.
Лучшее различие между похожими моделями: REST усиливает разницу в результатах. Так, на MATH500 точность R1-7B падает до 66.75%, а R1-32B сохраняет 88.97%, показывая разрыв в 22%.
Послеобучение не гарантирует устойчивость: Модели с дообучением на одиночных задачах часто теряют свои преимущества при многозадачном тестировании, что требует пересмотра стратегий тренировки.
Преимущества обучения Long2Short: Модели, обученные с использованием метода long2short, показывают более высокую точность в условиях стресса REST, что открывает перспективы для улучшения многозадачных способностей.

Реалистичные вызовы рассуждению в REST

REST моделирует реальные когнитивные нагрузки, требуя от моделей приоритезировать, избегать излишних размышлений и сопротивляться помехам. Также выявляются типичные ошибки — пропуск вопросов, ошибки в сводках и логические ошибки, которые не видны при одиночном тестировании.

Настройка оценки и охват бенчмарков

REST протестировал 34 модели от 1.5B до 671B параметров на следующих бенчмарках:

Простые: GSM8K
Средние: MATH500, AMC23
Сложные: AIME24, AIME25, GPQA Diamond, LiveCodeBench Параметры генерации соответствуют официальным рекомендациям, максимальный размер вывода — 32K токенов. Используется набор инструментов OpenCompass для стандартизации и воспроизводимости.

Влияние REST на развитие моделей рассуждения

REST обновляет существующие бенчмарки, отражает реальные многозадачные требования и направляет разработку моделей, подчеркивая важность методов, таких как Long2Short. Это новый стандарт надежной и практичной оценки больших моделей рассуждения.

Подробнее в статье, на странице проекта и в коде, предоставленных авторами исследования.