Сближение In-Context Learning и Fine-Tuning: Новые достижения в обобщении языковых моделей

Проблемы при дообучении языковых моделей

Языковые модели (ЯМ), предобученные на больших корпусах текстов из интернета, отлично справляются с обучением в контексте, эффективно обобщая информацию по нескольким примерам. Однако дообучение (fine-tuning) для конкретных задач вызывает сложности. Оно требует сотен или тысяч примеров, а получаемые модели имеют ограниченные возможности обобщения. Например, модели, дообученные на утверждениях вроде «Мать B — это A», часто не могут ответить на вопросы «Кто сын A?», хотя при обучении в контексте ЯМ справляются с такими обратными связями.

Подходы к улучшению адаптивности

Учёные исследуют различные методы повышения адаптивности ЯМ. Изучают закономерности обучения в контексте как эмпирически, так и теоретически. Анализируют обучение вне контекста — как модели используют информацию, не включённую явно в подсказки. Методы увеличения данных применяют большие языковые модели для улучшения работы с ограниченными наборами данных, решая проблемы, такие как «проклятие обратимости», через жёстко заданные дополнения, обучение с дедуктивным замыканием и генерацию цепочек рассуждений. Синтетические данные эволюционировали от ручных примеров к автоматической генерации с помощью самих моделей.

Наборы данных и методы оценки

Исследователи из Google DeepMind и Стэнфордского университета создали наборы данных, изолирующие знания из предобучения для чистых тестов обобщения. Оценка моделей происходит через представление контролируемых подмножеств информации в контексте и при дообучении, используя многовариантное оценивание вероятности без показа вариантов ответов в подсказке. Эксперименты включали дообучение Gemini 1.5 Flash с размерами батчей 8 или 16. Для оценки в контексте комбинировали тренировочные документы, выбирая случайные подвыборки для минимизации помех.

Инновации в дополнении данных

Ключевая инновация — дополнение датасетов для дообучения выводами из обучения в контексте для расширения охвата. Использовались локальные и глобальные стратегии с разными контекстами и подсказками. На датасете Reversal Curse обучение в контексте почти достигает максимальной точности по обратимым задачам, тогда как классическое дообучение показывает почти нулевой результат, склоняясь к неправильным ответам из тренировочных данных. Однако дообучение с дополненными данными достигает уровня обучения в контексте. Аналогичные тенденции наблюдаются на задачах с бессмысленными обратимостями, но с меньшим эффектом.

Результаты на логических выводах

Для простых силлогизмов предобученная модель работает на уровне случайного выбора, что говорит об отсутствии утечки данных. Дообучение показывает результаты выше случайных для некоторых типов силлогизмов, где логические выводы соответствуют простым лингвистическим паттернам. Тем не менее обучение в контексте превосходит дообучение, а дополненное дообучение даёт лучшие общие результаты.

Значение и перспективы

Исследование подчёркивает различия в обобщении между обучением в контексте и дообучением при работе с новыми структурами информации. Превосходство in-context learning вдохновило на разработку методов включения контекстных выводов в данные для дообучения, улучшая производительность на downstream задачах. Ограничения включают зависимость от бессмысленных слов и узкий фокус на конкретных моделях, что требует дальнейших исследований на разных архитектурах, особенно новых моделях рассуждений.