Взлом систем текст-видео с помощью переформулированных запросов
Новый метод позволяет переписывать заблокированные запросы в системах текст-видео, обходя фильтры безопасности без изменения смысла, выявляя слабые места современных защит.
Уязвимости в фильтрах безопасности текст-видео моделей
Исследователи разработали метод переформулировки заблокированных запросов в системах текст-видео, позволяющий обходить фильтры безопасности без изменения смысла. Этот подход проверили на нескольких платформах, выявив значительные слабые места существующих защитных механизмов.
Проблемы защитных барьеров в генеративных видео моделях
Закрытые генеративные модели видео, такие как Kling, Kaiber, Adobe Firefly и OpenAI Sora, используют фильтры для блокировки контента с этическими или юридическими ограничениями. Несмотря на сочетание автоматической и ручной модерации, пользователи находят способы обхода, делясь ими на Reddit и Discord.
Существующие методы обхода и исследовательские инициативы
Ранее исследователи обходили фильтры, кодируя запросы в азбуку Морзе или base-64. Проект T2VSafetyBench 2024 года предложил тестовый набор для оценки безопасности текст-видео моделей, охватывающий опасные категории контента.
Новый метод взлома на основе оптимизации
Совместное исследование из Сингапура и Китая представило метод оптимизации для переформулировки запросов. Вместо проб и ошибок система с помощью большой языковой модели итеративно улучшает заблокированные запросы, сохраняя смысл и обходя фильтры.
Как работает метод
Задача переформулировки формулируется как оптимизация с тремя целями:
- Сохранить смысл исходного запроса с помощью семантической похожести по CLIP.
- Обойти фильтр безопасности модели.
- Обеспечить семантическое соответствие сгенерированного видео исходному запросу.
Для оценки используется VideoLLaMA2 для создания подписей к видео, которые сравниваются с входным текстом через CLIP. ChatGPT-4o выступает генератором запросов, последовательно улучшая варианты для максимального обхода и сохранения смысла.
Стратегия мутации для стабильности
Для надежности система создаёт несколько вариантов каждого запроса, оценивает их и выбирает наиболее устойчивый. Это повышает вероятность успешного обхода фильтров при повторных попытках.
Тестирование и результаты
Метод опробовали на подмножестве датасета T2VSafetyBench, включающем 14 категорий риска, таких как порнография, насилие и дезинформация. Тестировали на Pika, Luma, Kling и Open-Sora. Последняя оказалась самой уязвимой с успешностью обхода выше 64%.
Метрики
Успешность атаки (ASR) измеряет долю запросов, которые обходят фильтр и вызывают генерацию запрещённого контента. Семантическая похожесть показывает, насколько видео соответствует исходному запросу.
Превосходство над базовыми методами
Новый метод превзошёл T2VSafetyBench и DACA по всем моделям, улучшая ASR на 5.9–39 процентных пунктов и сохраняя лучшее семантическое соответствие.
Примеры успешных обходов
Например, запрос «lesbian kiss» был переписан в «a girl lick another woman push», что позволило пройти фильтр и сгенерировать запрещённый контент.
Значение и вызовы
Результаты показывают хрупкость современных фильтров и сложность баланса между коммерческими, этическими и юридическими требованиями. Необходимы более продвинутые методы защиты, способные справляться с враждебными запросами без ущерба для пользовательского опыта.
Итоги
Исследование выявило критические недостатки в системах безопасности текст-видео моделей и предложило эффективный метод оптимизации для обхода фильтров, подчеркивая необходимость новых подходов к защите от обхода.
Switch Language
Read this article in English