Internal Coherence Maximization: революция в обучении больших языковых моделей без разметки

Проблемы человеческого надзора в больших языковых моделях

Методы дообучения языковых моделей обычно зависят от человеческого надзора через демонстрации или обратную связь с предпочтениями, чтобы задать желаемое поведение моделей. Однако по мере усложнения задач и возможностей моделей такой надзор становится ненадежным. Модели могут копировать ошибки из демонстраций или использовать слабости систем обратной связи. Это особенно критично для задач, которые превосходят человеческие возможности в надежности демонстраций или оценок. Недавние исследования выявили различные сбои, включая обход наград, основанных на человеко-созданных сигналах, и проблемы с самой человеческой обратной связью.

Поиск альтернатив человеческому надзору

Учёные изучают способы масштабирования обучения без человеческого контроля. Один из подходов — использование высококачественных проверяемых наград, например, сопоставление результатов модели с эталонными решениями в математике. Несмотря на сильные скрытые возможности предобученных моделей, пост-тренинг часто даёт лишь минимальный прирост. Метод Contrast Consistent Search (CCS) — это обучаемый без учителя подход, использующий логическую согласованность для извлечения знаний без надзора. Тем не менее, CCS уступает контролируемым методам и часто не выявляет знания из-за других признаков, удовлетворяющих критериям согласованности.

Введение Internal Coherence Maximization (ICM)

Группа исследователей из Anthropic, Schmidt Sciences, Independent, Constellation, Нью-Йоркского университета и Университета Джорджа Вашингтона предложила Internal Coherence Maximization (ICM) — новый метод, который дообучает предобученные модели на собственных сгенерированных метках без использования внешних разметок. ICM ищет наборы меток, логически согласованные и взаимно предсказуемые моделью. Поскольку оптимальный поиск меток вычислительно сложен, используется алгоритм, вдохновлённый имитацией отжига, для приближённого максимума цели. Этот метод достигает результатов, сравнимых с обучением на эталонных метках на TruthfulQA и GSM8K, и превосходит обучение на краудсорсинговых метках Alpaca.

Принцип работы алгоритма ICM

ICM выполняет итеративный трёхэтапный процесс:

Выбор нового немаркированного примера из датасета для возможного включения.
Определение оптимальной метки для примера с одновременным разрешением логических противоречий.
Оценка решения о принятии нового размеченного примера на основе функции оценки.

ICM протестирован на трёх датасетах: TruthfulQA (оценка правдивости), GSM8K-verification (математическая корректность) и Alpaca (полезность и безвредность). В экспериментах использовались четыре базовые линии — Zero-shot, Zero-shot (Chat), Golden Label и Human Label, а также две открытые модели с весами (Llama 3.1 8B и 70B) и две проприетарные модели (Claude 3 Haiku и Claude 3.5 Haiku).

Результаты и сравнения моделей

В задачах с требованиями сверхчеловеческих способностей ICM достигает точности 80%, сравнимой с золотым стандартом, что превосходит оценочную точность человека в 60%. С помощью моделей наград, созданных ICM, исследователи обучили чат-бота без человеческого надзора. Такая модель наград достигла 75,0% точности на RewardBench, превзойдя 72,2% точности моделей, обученных с человеческим надзором на производственных данных. Были обучены две политики с помощью RL — на основе несупервизированной и человеко-супервизированной моделей наград — для создания полезных, безвредных и честных ассистентов. Политика, обученная на несупервизированной модели, добилась 60% побед, однако уступила Claude 3.5 Haiku с 92%.

Перспективы и ограничения

ICM — значительный шаг вперёд в обучении без учителя, позволяющий дообучать модели на собственных метках и достигать или превосходить качество данных с человеческой разметкой в нескольких задачах. Ограничения включают зависимость от выраженности концепций в предобученной модели и трудности с длинными входами из-за ограничений контекстного окна. По мере развития языковых моделей, выходящих за пределы возможностей человеческой оценки, ICM предлагает перспективную альтернативу традиционному RLHF, помогая согласовать модели с человеческими намерениями без ограничений человеческого надзора.

Подробности доступны в оригинальной статье. Следите за обновлениями в Twitter и присоединяйтесь к сообществам ML.