REST: Фреймворк для стресс-тестирования больших моделей рассуждения с многозадачностью
REST — новый фреймворк для одновременного тестирования больших моделей рассуждения на нескольких задачах, выявляющий снижение производительности и раскрывающий реальные способности к многозадачности.
Ограничения текущих бенчмарков для больших моделей рассуждения
Большие модели рассуждения (LRM) демонстрируют впечатляющие способности в математике, программировании и научном анализе. Однако существующие бенчмарки, такие как GSM8K и MATH, оценивают модели по одному вопросу за раз. Такой подход имеет два важных недостатка. Во-первых, бенчмарки быстро насыщаются — многие передовые модели достигают почти идеальных результатов, что затрудняет различение улучшений. Во-вторых, тестирование по одному вопросу не отражает реальные задачи, где модели должны одновременно решать несколько проблем, что требует высокого когнитивного напряжения и адаптивного мышления.
Представляем REST: фреймворк для стресс-тестирования с несколькими задачами одновременно
REST (Reasoning Evaluation through Simultaneous Testing) — это новый подход, который проверяет модели рассуждения, подавая несколько вопросов в одном запросе. Такой метод увеличивает нагрузку и проверяет способности моделей работать с несколькими проблемами одновременно. REST преобразует существующие бенчмарки, объединяя вопросы в один запрос и регулируя уровень стресса — количество вопросов, представляемых одновременно. Оцениваются навыки приоритизации контекста, устойчивость к помехам между задачами и управление когнитивной нагрузкой. Фреймворк протестирован на 34 продвинутых моделях от 1.5 до 671 миллиарда параметров на 7 различных наборах данных разной сложности.
Основные выводы из оценок REST
REST выявляет ключевые особенности моделей:
-
Снижение производительности при многозадачности: Даже лучшие модели, например DeepSeek-R1, теряют до 30% точности на сложных задачах (AIME24) при одновременной работе с несколькими вопросами.
-
Лучшее различие между похожими моделями: REST усиливает разницу в результатах. Так, на MATH500 точность R1-7B падает до 66.75%, а R1-32B сохраняет 88.97%, показывая разрыв в 22%.
-
Послеобучение не гарантирует устойчивость: Модели с дообучением на одиночных задачах часто теряют свои преимущества при многозадачном тестировании, что требует пересмотра стратегий тренировки.
-
Преимущества обучения Long2Short: Модели, обученные с использованием метода long2short, показывают более высокую точность в условиях стресса REST, что открывает перспективы для улучшения многозадачных способностей.
Реалистичные вызовы рассуждению в REST
REST моделирует реальные когнитивные нагрузки, требуя от моделей приоритезировать, избегать излишних размышлений и сопротивляться помехам. Также выявляются типичные ошибки — пропуск вопросов, ошибки в сводках и логические ошибки, которые не видны при одиночном тестировании.
Настройка оценки и охват бенчмарков
REST протестировал 34 модели от 1.5B до 671B параметров на следующих бенчмарках:
- Простые: GSM8K
- Средние: MATH500, AMC23
- Сложные: AIME24, AIME25, GPQA Diamond, LiveCodeBench Параметры генерации соответствуют официальным рекомендациям, максимальный размер вывода — 32K токенов. Используется набор инструментов OpenCompass для стандартизации и воспроизводимости.
Влияние REST на развитие моделей рассуждения
REST обновляет существующие бенчмарки, отражает реальные многозадачные требования и направляет разработку моделей, подчеркивая важность методов, таких как Long2Short. Это новый стандарт надежной и практичной оценки больших моделей рассуждения.
Подробнее в статье, на странице проекта и в коде, предоставленных авторами исследования.
Switch Language
Read this article in English