ИИ-модели запоминают тестовые данные, искажающие их результаты

Запоминание вместо обучения в ИИ-моделях

Последние исследования выявили серьёзную проблему у больших языковых моделей (LLM) и систем рекомендаций: вместо настоящего обучения они часто запоминают данные, на которых их тестируют. Это приводит к завышенной оценке их эффективности и риску предоставления устаревших или неподходящих рекомендаций.

Тестовые выборки и загрязнение данных

В машинном обучении обычно используется разбиение данных: 80% для обучения и 20% для тестирования. Если тестовые данные случайно попадают в обучающую выборку, модель «жульничает», запоминая ответы, а не обобщая знания. При использовании огромных и разнородных корпусов данных, таких как Common Crawl, такое загрязнение стало массовым явлением, и ручное обнаружение ошибок невозможно.

Исследование на примере MovieLens-1M

Учёные из Политехнического университета Бари изучили популярный датасет MovieLens-1M и обнаружили, что ведущие LLM запомнили большие части этого набора — названия фильмов, данные пользователей и историю взаимодействий. Например, GPT-4o смог с помощью простого запроса вспомнить почти 80% названий фильмов.

Метод исследования

Для проверки запоминания модели запрашивали конкретные данные из датасета без подсказок. Проверялись три типа воспоминаний:

Запоминание элементов: получение названий и жанров фильмов по ID.
Запоминание пользователей: генерация данных пользователя по ID.
Запоминание взаимодействий: прогноз следующей оценки пользователя по предыдущим.

Использовались методы zero-shot, chain-of-thought и few-shot prompting, где последний показал наилучшие результаты.

Результаты экспериментов

Тестировали модели GPT-4o, GPT-3.5 turbo и разные варианты Llama. Крупные модели успешно воспроизводили большую часть данных, в то время как меньшие — лишь часть. Размер модели коррелировал с уровнем запоминания и качеством рекомендаций.

Влияние на качество рекомендаций

Сравнивая LLM с традиционными алгоритмами (UserKNN, LightGCN и другими), некоторые модели превосходили базовые методы. Однако это связано с запоминанием, а не с обобщением. Модели с большим уровнем запоминания показывали лучшие метрики рекомендаций.

Проблемы и последствия

Рост объемов данных делает ручную проверку невозможной. Попадание тестовых данных в обучающую выборку приводит к завышенным оценкам моделей и ставит под сомнение надежность существующих методов оценки. Решение требует человеческого участия и новых подходов.

Итоги

Исследование подчеркивает риски загрязнения данных в обучении больших ИИ-моделей и необходимость улучшения управления датасетами и протоколов оценки, чтобы модели действительно учились, а не просто запоминали.