Tina: Компактные модели USC с большими успехами в экономичном обучении с подкреплением
Исследователи USC представляют Tina — семейство компактных моделей рассуждения, использующих LoRA и обучение с подкреплением для эффективного достижения высоких результатов с минимальными затратами.
Проблемы многозадачного рассуждения в языковых моделях
Достижение надежного многозадачного рассуждения в языковых моделях остаётся серьезной задачей, несмотря на улучшения в общей производительности. Эта способность необходима для сложных областей, таких как научные исследования и стратегическое планирование. Традиционно для улучшения навыков рассуждения модели дообучают с учителем, имитируя шаги рассуждения продвинутых моделей, например o1. Однако такой подход требует дорогих, качественных демонстраций и может привести к поверхностному копированию, а не настоящему логическому анализу.
Обучение с подкреплением как альтернатива
Обучение с подкреплением (RL) позволяет моделям учиться напрямую по сигналам вознаграждения, стимулируя более широкое исследование вариантов рассуждения. Тем не менее, RL часто требует больших вычислительных ресурсов и сложен в настройке, что затрудняет его экономичное применение.
Прогресс в эффективных моделях рассуждения
После появления мощных моделей, таких как o1-preview, открытые проекты вроде STILL, Sky-T1, SimpleRL, PRIME и DeepScaleR исследовали легковесное обучение имитации, масштабируемую настройку инструкций и упрощённые RL-методы для достижения или превосходства возможностей o1 в рассуждении. Нововведение Group Relative Policy Optimization (GRPO) повышает эффективность RL, исключая необходимость отдельных value-сетей, как в DeepSeek-R1.
Использование Low-Rank Adaptation (LoRA) для экономичного дообучения
Для снижения затрат обучающие методы LoRA обновляют лишь небольшую часть параметров модели, сохраняя модульность и способности к рассуждению без затрат на полное обновление параметров.
Представляем Tina: компактные модели рассуждения от USC
Исследователи из USC представляют Tina — семейство компактных моделей рассуждения на базе модели с 1.5 млрд параметров, обучаемых с помощью RL и LoRA. Модели Tina превосходят или сравнимы с передовыми моделями, затрачивая при этом лишь малую часть вычислительных ресурсов. Лучшая модель показывает улучшение рассуждения более чем на 20% и достигает 43.33% Pass@1 на AIME24 при затратах всего $9 на дообучение.
Настройка обучения и оценки
Модели Tina основаны на DeepSeek-R1-Distill-Qwen-1.5B, дообучаемой с LoRA в рамках RL с использованием подхода GRPO. Обучение ориентировано на минимализм — маленькие модели, небольшие обновления параметров, низкие требования к оборудованию и бюджету. Обучение проводилось на публичных наборах данных, повторяя настройки моделей STILL-3, DeepScaleR и Open-RS с использованием двух GPU NVIDIA L40S и иногда RTX 6000 Ada. Стоимость каждого эксперимента была ниже $100.
Тестирование и результаты
Для справедливого сравнения базовые модели пересматривали с использованием LightEval и движка vLLM, устраняя различия из предыдущих исследований. Были использованы шесть бенчмарков, включая AIME 24/25, AMC 23, MATH 500, GPQA и Minerva. Модели Tina, обученные за 19–57% эпохи, часто превосходили модели с полным обновлением параметров. Абляционный анализ подтвердил важность качества данных, скорости обучения, ранга LoRA и выбора RL-алгоритма для оптимизации результатов.
Открытый исходный код и доступность
Весь код, логи и контрольные точки моделей открыты для свободного использования, что способствует доступным исследованиям и развитию моделей рассуждения.
Подробности доступны в статье и репозитории на GitHub. Следите за обновлениями в Twitter, Telegram, LinkedIn и присоединяйтесь к сообществу ML SubReddit.
Switch Language
Read this article in English