От 100 000 до менее 500: как Google с помощью активного обучения сокращает разметку для LLM

Проблема объема данных при дообучении

Дообучение больших языковых моделей (LLM) для задач, требующих тонкой контекстной и культурной интерпретации — например, модерация или проверка рекламного контента — обычно требует огромных размеченных наборов данных. Большая часть примеров оказывается неинформативной, поэтому разметка тратит ресурсы на низкоценные случаи. При изменении политик или появлении новых паттернов злоупотреблений поддержка таких датасетов становится дорогой и медленной.

Модель как «скаут» для поиска важного

Google Research изменяет подход: сама модель сканирует огромный корпус и помечает те примеры, в которых она наиболее неуверенна. Это граничные случаи, где мнение эксперта действительно решает исход. Вместо разметки случайных примеров эксперты размечают узкий, но информативный набор спорных примеров.

Основные шаги метода:

LLM в роли скаута: модель определяет области собственной неуверенности на огромном корпусе.
Целевая разметка экспертами: люди размечают только пограничные и запутанные примеры.
Итеративная куртация: каждый раунд уточняет выборку новых проблемных примеров для разметки.
Быстрая сходимость: несколько раундов дообучения ведут к совпадению выводов модели и суждений экспертов, оцениваемому коэффициентом Каппа Коэна.

Сильное сокращение данных и улучшение качества

В опытах с моделями Gemini Nano-1 и Nano-2 выровненность с мнением экспертов достигалась при использовании всего 250–450 тщательно подобранных меток вместо примерно 100 000 случайных пометок — сокращение в 3–4 порядка. Для более сложных задач и больших моделей наблюдалось улучшение качества на 55–65% по сравнению с базой при условии высокой достоверности разметки (коэффициент Каппа > 0.8).

Почему это важно

Подход меняет представление о стоимости и скорости дообучения:

Снижение затрат: требуется гораздо меньше разметки, что уменьшает расходы и ускоряет процесс.
Быстрые обновления: модель можно оперативно адаптировать под новые паттерны злоупотреблений или изменения политики, используя небольшой набор примеров.
Повышение безопасности: фокус на спорных случаях даёт модели более надежное и контекстно-чувствительное поведение.

Метод Google показывает, что целевая разметка высокого качества, направляемая неуверенностью модели, может заменить огромные шумные датасеты и сделать дообучение LLM более экономным и гибким.

Для подробностей смотрите блог Google Research и сопроводительные ресурсы на GitHub и в сообществах.

От 100 000 до менее 500: как Google с помощью активного обучения сокращает разметку для LLM

Проблема объема данных при дообучении

Модель как «скаут» для поиска важного

Сильное сокращение данных и улучшение качества

Почему это важно

Switch Language