Tina: Компактные модели USC с большими успехами в экономичном обучении с подкреплением

Проблемы многозадачного рассуждения в языковых моделях

Достижение надежного многозадачного рассуждения в языковых моделях остаётся серьезной задачей, несмотря на улучшения в общей производительности. Эта способность необходима для сложных областей, таких как научные исследования и стратегическое планирование. Традиционно для улучшения навыков рассуждения модели дообучают с учителем, имитируя шаги рассуждения продвинутых моделей, например o1. Однако такой подход требует дорогих, качественных демонстраций и может привести к поверхностному копированию, а не настоящему логическому анализу.

Обучение с подкреплением как альтернатива

Обучение с подкреплением (RL) позволяет моделям учиться напрямую по сигналам вознаграждения, стимулируя более широкое исследование вариантов рассуждения. Тем не менее, RL часто требует больших вычислительных ресурсов и сложен в настройке, что затрудняет его экономичное применение.

Прогресс в эффективных моделях рассуждения

После появления мощных моделей, таких как o1-preview, открытые проекты вроде STILL, Sky-T1, SimpleRL, PRIME и DeepScaleR исследовали легковесное обучение имитации, масштабируемую настройку инструкций и упрощённые RL-методы для достижения или превосходства возможностей o1 в рассуждении. Нововведение Group Relative Policy Optimization (GRPO) повышает эффективность RL, исключая необходимость отдельных value-сетей, как в DeepSeek-R1.

Использование Low-Rank Adaptation (LoRA) для экономичного дообучения

Для снижения затрат обучающие методы LoRA обновляют лишь небольшую часть параметров модели, сохраняя модульность и способности к рассуждению без затрат на полное обновление параметров.

Представляем Tina: компактные модели рассуждения от USC

Исследователи из USC представляют Tina — семейство компактных моделей рассуждения на базе модели с 1.5 млрд параметров, обучаемых с помощью RL и LoRA. Модели Tina превосходят или сравнимы с передовыми моделями, затрачивая при этом лишь малую часть вычислительных ресурсов. Лучшая модель показывает улучшение рассуждения более чем на 20% и достигает 43.33% Pass@1 на AIME24 при затратах всего $9 на дообучение.

Настройка обучения и оценки

Модели Tina основаны на DeepSeek-R1-Distill-Qwen-1.5B, дообучаемой с LoRA в рамках RL с использованием подхода GRPO. Обучение ориентировано на минимализм — маленькие модели, небольшие обновления параметров, низкие требования к оборудованию и бюджету. Обучение проводилось на публичных наборах данных, повторяя настройки моделей STILL-3, DeepScaleR и Open-RS с использованием двух GPU NVIDIA L40S и иногда RTX 6000 Ada. Стоимость каждого эксперимента была ниже $100.

Тестирование и результаты

Для справедливого сравнения базовые модели пересматривали с использованием LightEval и движка vLLM, устраняя различия из предыдущих исследований. Были использованы шесть бенчмарков, включая AIME 24/25, AMC 23, MATH 500, GPQA и Minerva. Модели Tina, обученные за 19–57% эпохи, часто превосходили модели с полным обновлением параметров. Абляционный анализ подтвердил важность качества данных, скорости обучения, ранга LoRA и выбора RL-алгоритма для оптимизации результатов.

Открытый исходный код и доступность

Весь код, логи и контрольные точки моделей открыты для свободного использования, что способствует доступным исследованиям и развитию моделей рассуждения.

Подробности доступны в статье и репозитории на GitHub. Следите за обновлениями в Twitter, Telegram, LinkedIn и присоединяйтесь к сообществу ML SubReddit.