Использование токсичных данных в предобучении LLM для улучшения детоксикации и управления

Проблема токсичных данных в предобучении LLM

Качество данных является ключевым фактором при обучении больших языковых моделей (LLM). Обычно токсичный контент удаляют из обучающих наборов, чтобы минимизировать вероятность вредных ответов. Однако это приводит к компромиссу: удаление токсичных данных снижает разнообразие и насыщенность обучающего материала, что может ухудшить способность модели распознавать токсичность и снизить качество работы в последующих задачах, например, в вопросно-ответных системах. Важно найти баланс: слишком много токсичных данных увеличивает риск вредных ответов, слишком мало ограничивает возможности модели.

Существующие методы детоксикации

Методы детоксикации делятся на две категории: основанные на дообучении и на декодировании. Дообучение с использованием обратной связи от человека (RLHF) и прямой оптимизации предпочтений (DPO) помогает выравнивать поведение модели с человеческими ценностями, но может снижать изначальные возможности модели и быть отменено последующим обучением. Методы управления генерацией во время инференса (например, изменение словаря, самодебаунсинг, внешние экспертные модели) снижают токсичность, но требуют больших вычислительных ресурсов и могут ухудшать плавность речи. Новые исследования исследуют изменение внутренних представлений модели, используя линейные структуры скрытых состояний для управления поведением.

Совместный подход к предобучению и постобучению

Исследователи из Гарварда предлагают переосмыслить качество данных через совместный подход, объединяющий предобучение и постобучение. Их результаты показывают, что предобучение с токсичными данными повышает базовую токсичность модели, но улучшает внутреннее представление токсичности, что облегчает подавление токсичности на этапе постобучения. На примере моделей Olmo-1B, обученных на разном соотношении чистых и токсичных данных, токсичность становится более линейно отделимой и управляемой.

Экспериментальные данные о включении токсичных данных

Было обучено несколько моделей Olmo-1B с долей токсичных данных от 0% до 25% при постоянном объеме чистых данных. Умеренное включение токсичных данных улучшило общие языковые навыки (по метрике MMLU) и способность распознавать токсичность (по ToxiGen). Пробные эксперименты показали, что модели, обученные с токсичными данными, формируют более сильные и разделяемые внутренние представления токсичности. Статистический анализ и визуализация на уровне токенов подтвердили, что такие модели точнее выявляют токсичный контент, улучшая обучение концептам без значительного ущерба общим способностям.

Улучшенная детоксикация и устойчивость

Исследование показало, что модели, обученные с до 10% токсичных данных, лучше поддаются методам детоксикации, таким как Inference-Time Intervention (ITI), prompting, дообучение с учителем (SFT) и DPO. Эти модели демонстрируют более низкий уровень токсичности с минимальными потерями в производительности. При проверке на устойчивость к атакам red-teaming такие модели показали большую надежность, что свидетельствует о лучшем внутреннем понимании вредного контента.

Значение для развития LLM

Результаты ставят под сомнение предположение, что всегда лучше исключать токсичные данные из предобучения. Включение части токсичных данных способствует формированию более разделяемых представлений токсичности, облегчая контроль на этапе постобучения. Хотя базовые модели с токсичными данными изначально генерируют больше вредного контента, методы детоксикации работают эффективнее, обеспечивая лучший баланс между безопасностью и качеством. Это открывает перспективы для улучшения управляемости и выравнивания моделей за счет выборочного включения «плохих» данных.

Дополнительные материалы

Подробности доступны в оригинальной статье. Следите за новостями в области машинного обучения в сообществах и рассылках, таких как r/machinelearningnews и airesearchinsights.com, а также на мероприятиях и в отчетах Marktechpost.