Огромный набор данных для обучения ИИ содержит сотни миллионов личных документов и лиц

Обнаружение личных данных в наборах данных для обучения ИИ

Новое исследование показало, что один из крупнейших открытых наборов данных для обучения искусственного интеллекта, DataComp CommonPool, содержит миллионы изображений с персональными данными, такими как паспорта, кредитные карты, свидетельства о рождении и лица, позволяющие идентифицировать людей. Исследователи проверили всего 0,1% набора данных и оценили, что в целом таких изображений сотни миллионов.

Масштаб найденной чувствительной информации

Были обнаружены тысячи подтвержденных документов личности: кредитные карты, водительские удостоверения, паспорта, свидетельства о рождении. Также найдено более 800 подтвержденных резюме и сопроводительных писем, проверенных через LinkedIn и другие источники. В резюме содержатся чувствительные данные, включая статус инвалидности, результаты проверок, даты рождения и места рождения иждивенцев, расу, контактную информацию, государственные идентификаторы, домашние адреса и контакты других лиц.

История набора данных и его использование

DataComp CommonPool, выпущенный в 2023 году с 12,8 миллиардами пар изображений и текста, является крупнейшим публичным набором данных для обучения генеративных моделей текст-в-изображение. Он создан как преемник LAION-5B и основан на веб-скрейпинге, проведенном Common Crawl в период с 2014 по 2022 годы. Лицензия допускает как академическое, так и коммерческое использование.

Проблемы конфиденциальности и ограничения

Несмотря на попытки кураторов набора данных защитить конфиденциальность, например, автоматическое размытие лиц, исследователи нашли более 800 лиц, пропущенных алгоритмом в их выборке, и оценили, что по всему набору данных таких лиц около 102 миллионов. Кроме того, фильтры не применялись для обнаружения личных идентификаторов, таких как email или номера соцстрахования. Размытие лиц является опциональным и может быть отключено, а метаданные и подписи часто содержат дополнительную личную информацию.

Попытки смягчения рисков

Платформа Hugging Face, распространяющая CommonPool, предлагает инструмент, позволяющий людям искать и запрашивать удаление своих данных, но для этого нужно знать, что данные включены. Удаление из набора данных не гарантирует защиту, если обученные модели сохраняют информацию.

Юридические и этические аспекты

Исследование подчеркивает сложности регулирования данных, собранных с веба. Законы, такие как GDPR и CCPA, имеют ограничения и не охватывают все случаи, особенно академические наборы данных. Публично доступные данные часто считаются свободными для использования, однако исследование показывает, что многие из них являются чувствительной информацией.

Необходимость пересмотра практик сбора данных

Авторы призывают сообщество машинного обучения пересмотреть практики безразборного веб-скрейпинга. Наличие большого объема личной информации в наборах данных вызывает серьезные этические и правовые вопросы о согласии, конфиденциальности и защите данных при разработке ИИ.

Мнения экспертов

Уильям Агню из Университета Карнеги-Меллона отмечает: «Все, что вы выкладываете в интернет, скорее всего, уже было собранно». Рэйчел Хонг предупреждает, что многие модели ИИ обучены на этих данных, что усугубляет риски для конфиденциальности. Бен Винтерс из Consumer Federation of America называет это «первородным грехом» ИИ-систем, построенных на публичных данных, подчеркивая их эксплуататорский и опасный характер.

Итоги

Исследование призывает ИИ-сообщество активнее решать вопросы конфиденциальности, совершенствовать технологии фильтрации данных и разрабатывать политики, лучше защищающие людей, чьи данные используются без явного согласия.