ИИ-модели запоминают тестовые данные, искажающие их результаты
Новое исследование показывает, что большие языковые модели часто запоминают тестовые наборы данных, такие как MovieLens-1M, что искажает их результаты и качество рекомендаций.
Запоминание вместо обучения в ИИ-моделях
Последние исследования выявили серьёзную проблему у больших языковых моделей (LLM) и систем рекомендаций: вместо настоящего обучения они часто запоминают данные, на которых их тестируют. Это приводит к завышенной оценке их эффективности и риску предоставления устаревших или неподходящих рекомендаций.
Тестовые выборки и загрязнение данных
В машинном обучении обычно используется разбиение данных: 80% для обучения и 20% для тестирования. Если тестовые данные случайно попадают в обучающую выборку, модель «жульничает», запоминая ответы, а не обобщая знания. При использовании огромных и разнородных корпусов данных, таких как Common Crawl, такое загрязнение стало массовым явлением, и ручное обнаружение ошибок невозможно.
Исследование на примере MovieLens-1M
Учёные из Политехнического университета Бари изучили популярный датасет MovieLens-1M и обнаружили, что ведущие LLM запомнили большие части этого набора — названия фильмов, данные пользователей и историю взаимодействий. Например, GPT-4o смог с помощью простого запроса вспомнить почти 80% названий фильмов.
Метод исследования
Для проверки запоминания модели запрашивали конкретные данные из датасета без подсказок. Проверялись три типа воспоминаний:
- Запоминание элементов: получение названий и жанров фильмов по ID.
- Запоминание пользователей: генерация данных пользователя по ID.
- Запоминание взаимодействий: прогноз следующей оценки пользователя по предыдущим.
Использовались методы zero-shot, chain-of-thought и few-shot prompting, где последний показал наилучшие результаты.
Результаты экспериментов
Тестировали модели GPT-4o, GPT-3.5 turbo и разные варианты Llama. Крупные модели успешно воспроизводили большую часть данных, в то время как меньшие — лишь часть. Размер модели коррелировал с уровнем запоминания и качеством рекомендаций.
Влияние на качество рекомендаций
Сравнивая LLM с традиционными алгоритмами (UserKNN, LightGCN и другими), некоторые модели превосходили базовые методы. Однако это связано с запоминанием, а не с обобщением. Модели с большим уровнем запоминания показывали лучшие метрики рекомендаций.
Популярность и предвзятость в запоминании
Исследование выявило, что модели лучше запоминают популярные фильмы. GPT-4o вспомнил около 90% самых популярных фильмов, но лишь 64% менее популярных, что отражает дисбаланс в данных обучения.
Проблемы и последствия
Рост объемов данных делает ручную проверку невозможной. Попадание тестовых данных в обучающую выборку приводит к завышенным оценкам моделей и ставит под сомнение надежность существующих методов оценки. Решение требует человеческого участия и новых подходов.
Итоги
Исследование подчеркивает риски загрязнения данных в обучении больших ИИ-моделей и необходимость улучшения управления датасетами и протоколов оценки, чтобы модели действительно учились, а не просто запоминали.
Switch Language
Read this article in English