<НА ГЛАВНУЮ

Новый метод Meta и NYU: Полуонлайн обучение с подкреплением для улучшения выравнивания LLM

Meta и NYU разработали полуонлайн метод обучения с подкреплением, который балансирует офлайн и онлайн подходы для улучшения выравнивания больших языковых моделей и повышения их производительности в инструкциях и математике.

Обучение с подкреплением для выравнивания больших языковых моделей

Большие языковые модели (LLM) нуждаются в дополнительной настройке для лучшего соответствия человеческим ожиданиям. Обучение с подкреплением играет ключевую роль, позволяя моделям корректировать ответы на основе человеческой обратной связи или правильности выполнения задач, что улучшает их пригодность для инструкций и точных заданий, таких как решение математических задач.

Проблемы офлайн и онлайн подходов

Методы настройки делятся на офлайн и онлайн. Офлайн обучение использует статичные наборы данных и не адаптируется во время тренировки, тогда как онлайн обучение обновляет модель после каждого взаимодействия, но требует больших вычислительных ресурсов. Балансировка этих подходов сложна, особенно когда модели должны хорошо работать как на проверяемых (математических), так и на непроверяемых (открытых) задачах.

Существующие алгоритмы выравнивания: DPO и GRPO

Direct Preference Optimization (DPO) — офлайн метод, работающий с парами данных предпочтений, ценится за простоту и эффективность, но ограничен в адаптивности. Group Relative Policy Optimization (GRPO), основанный на PPO, выполняет онлайн настройку, сравнивая группы ответов для оценки преимуществ. Несмотря на адаптивность, GRPO требует больше ресурсов и сложнее в экспериментах.

Введение полуонлайн обучения с подкреплением

Исследователи из Meta и NYU предложили полуонлайн подход, который регулирует частоту синхронизации между генерацией модели и обучением. Вместо обновления на каждом шаге (онлайн) или отсутствия обновлений (офлайн), этот метод настраивает интервалы синхронизации, достигая баланса. Это сокращает время обучения и сохраняет адаптивность модели. Подход поддерживает гибкое использование DPO или GRPO с задачно-специфическими моделями награды.

Применение к выполнению инструкций и математическому рассуждению

Команда донастраивала модель Llama-3.1-8B-Instruct для двух типов задач: открытых инструкций и решения математических задач. Для открытых задач использовались запросы из набора WildChat-1M и оценка через модель награды Athene-RM-8B. Для проверяемых математических задач использовались NuminaMath и Math-Verify для сверки ответов. Эксперименты проводились на 32 GPU NVIDIA H200 для обучения и 8 GPU для инференса, сравнивая офлайн, полуонлайн и онлайн режимы.

Улучшение производительности на различных бенчмарках

На Math500 офлайн DPO показал 53,7% точности, полуонлайн DPO с интервалом синхронизации s = 100 достиг 58,9%. Онлайн DPO и GRPO продемонстрировали схожие результаты — 58,7% и 58,1%. На NuminaMath офлайн DPO набрал 36,4%, полуонлайн варианты — 39,4% (s = 10). Для непроверяемых задач по AlpacaEval 2.0 и Arena-Hard модели с комбинированными наградами показывали стабильное улучшение. Совмещение проверяемых и непроверяемых наград усиливало общую обобщаемость модели.

Гибкая и масштабируемая концепция

Исследование показывает, что не обязательно строго придерживаться офлайн или онлайн обучения. Настройка частоты синхронизации и балансировка типов наград позволяют повысить эффективность обучения и производительность модели по разным задачам без значительного увеличения вычислительных затрат. Этот гибкий подход открывает новые возможности для эффективного выравнивания LLM.

Подробности смотрите в оригинальной статье. Благодарность исследовательским группам Meta и NYU за этот прорыв.

🇬🇧

Switch Language

Read this article in English

Switch to English