<НА ГЛАВНУЮ

От 100 000 до менее 500: как Google с помощью активного обучения сокращает разметку для LLM

'Google демонстрирует, что дообучение LLM возможно с менее чем 500 целевыми метками, сохраняя или улучшая качество модели при сокращении объема разметки на несколько порядков.'

Проблема объема данных при дообучении

Дообучение больших языковых моделей (LLM) для задач, требующих тонкой контекстной и культурной интерпретации — например, модерация или проверка рекламного контента — обычно требует огромных размеченных наборов данных. Большая часть примеров оказывается неинформативной, поэтому разметка тратит ресурсы на низкоценные случаи. При изменении политик или появлении новых паттернов злоупотреблений поддержка таких датасетов становится дорогой и медленной.

Модель как «скаут» для поиска важного

Google Research изменяет подход: сама модель сканирует огромный корпус и помечает те примеры, в которых она наиболее неуверенна. Это граничные случаи, где мнение эксперта действительно решает исход. Вместо разметки случайных примеров эксперты размечают узкий, но информативный набор спорных примеров.

Основные шаги метода:

  • LLM в роли скаута: модель определяет области собственной неуверенности на огромном корпусе.
  • Целевая разметка экспертами: люди размечают только пограничные и запутанные примеры.
  • Итеративная куртация: каждый раунд уточняет выборку новых проблемных примеров для разметки.
  • Быстрая сходимость: несколько раундов дообучения ведут к совпадению выводов модели и суждений экспертов, оцениваемому коэффициентом Каппа Коэна.

Сильное сокращение данных и улучшение качества

В опытах с моделями Gemini Nano-1 и Nano-2 выровненность с мнением экспертов достигалась при использовании всего 250–450 тщательно подобранных меток вместо примерно 100 000 случайных пометок — сокращение в 3–4 порядка. Для более сложных задач и больших моделей наблюдалось улучшение качества на 55–65% по сравнению с базой при условии высокой достоверности разметки (коэффициент Каппа > 0.8).

Почему это важно

Подход меняет представление о стоимости и скорости дообучения:

  • Снижение затрат: требуется гораздо меньше разметки, что уменьшает расходы и ускоряет процесс.
  • Быстрые обновления: модель можно оперативно адаптировать под новые паттерны злоупотреблений или изменения политики, используя небольшой набор примеров.
  • Повышение безопасности: фокус на спорных случаях даёт модели более надежное и контекстно-чувствительное поведение.

Метод Google показывает, что целевая разметка высокого качества, направляемая неуверенностью модели, может заменить огромные шумные датасеты и сделать дообучение LLM более экономным и гибким.

Для подробностей смотрите блог Google Research и сопроводительные ресурсы на GitHub и в сообществах.

🇬🇧

Switch Language

Read this article in English

Switch to English