Американские следователи используют ИИ, чтобы отличать сгенерированные ИИ изображения сексуального насилия над детьми
Контекст
Развитие генеративного ИИ упростило и удешевило создание реалистичных изображений, в том числе материалов сексуального насилия над детьми (CSAM). По данным правоохранительных органов, количество сгенерированного ИИ контента резко выросло, что мешает выявлять и защищать реальных жертв.
Контракт и участники
Кибер-центр по преступлениям DHS, который расследует трансграничную эксплуатацию детей, заключил контракт на 150 000 долларов с сан‑францисской компанией Hive AI. Публикация правительственного документа от 19 сентября содержит многочисленные зачеркивания, но подтверждает, что центр проведет эксперимент с инструментами Hive для определения, был ли снимок сгенерирован ИИ или изображает реального человека.
Сооснователь и CEO Hive Кевин Гуо сообщил MIT Technology Review, что не может обсуждать подробности контракта, но подтвердил, что алгоритмы компании по обнаружению ИИ будут применяться к делам с CSAM. В документе ссылаются на данные Национального центра по делам пропавших и эксплуатируемых детей (NCMEC), где отмечается рост инцидентов с участием генеративного ИИ на 1325% в 2024 году.
Как работают инструменты обнаружения
Hive предоставляет набор ИИ-инструментов: генеративные модели, системы модерации контента, которые могут помечать насилие, спам и сексуальные материалы, а также идентифицировать публичных личностей. Для борьбы с CSAM Hive предлагает инструмент, созданный совместно с некоммерческой организацией Thorn. Он использует систему хеширования, присваивающую уникальные идентификаторы известному CSAM и блокирующую такую загрузку. Этот подход стал стандартной защитой для технологических платформ.
Отдельно у Hive есть модель, определяющая, было ли изображение сгенерировано ИИ. По словам Гуо, модель не обучалась специально на CSAM, но находит сочетания пикселей и артефактов, характерных для синтетических изображений. Он утверждает, что модель может обобщать паттерны и что Hive проводит бенчмаркинг детекторов под конкретные сценарии использования.
Значение для следствия
Приоритет следователей — находить и останавливать случаи насилия, где жертва находится в текущем риске. Поток сгенерированного ИИ CSAM создает «шум», который затрудняет выявление материалов с реальными жертвами. Надежный инструмент, отмечающий изображения настоящих пострадавших, помог бы расставлять приоритеты в расследованиях и быстрее направлять ресурсы на спасение людей. В документе правительства прямо указывается, что отличение сгенерированного контента от материалов с реальными жертвами позволяет сосредоточить ресурсы на реальных случаях и защищать уязвимых людей.
Предыдущие исследования и контекст
В документе также упоминаются две опорные точки: исследование 2024 года Университета Чикаго, где, по данным, инструмент Hive превзошел четыре других детектора в распознавании сгенерированного ИИ арта, и контракт компании с Пентагоном по выявлению дипфейков. В декабре MIT Technology Review сообщал, что Hive продавала технологии обнаружения дипфейков военным США.
Ограничения и испытание
Многие части правительственного документа зачернены, и NCMEC не успел дать оценку эффективности таких моделей к моменту публикации. Hive отмечает, что модели требуют бенчмаркинга под конкретное применение, и заявляет, что их общий детектор применим и к CSAM, даже если он не был обучен на таком материале.
Правительство оправдало предоставление контракта без конкурсного отбора, ссылаясь на исследование и существующие контракты компании. Испытание детектора Hive, используемого Кибер-центром по преступлениям, рассчитано на три месяца.