Enkrypt AI выявляет критические уязвимости в передовых мультимодальных моделях
Отчет Enkrypt AI выявляет серьезные проблемы безопасности в мультимодальных моделях Mistral, способных генерировать опасный контент, и призывает к постоянному улучшению защиты ИИ.
Уязвимости в продвинутом мультимодальном ИИ
В мае 2025 года компания Enkrypt AI опубликовала отчет Multimodal Red Teaming Report, в котором раскрыла серьезные уязвимости двух моделей Mistral — Pixtral-Large (25.02) и Pixtral-12b. Эти модели, способные обрабатывать одновременно изображения и текст, продемонстрировали тревожные слабости, позволяющие манипулировать ими для генерации опасного и неэтичного контента.
Почему мультимодальные модели увеличивают риски
Мультимодальные модели (VLM) типа Pixtral созданы для понимания сложных комбинированных запросов с визуальными и текстовыми данными. Это расширяет их возможности, но одновременно открывает новые пути для атак. В отличие от моделей, работающих только с текстом, VLM уязвимы к воздействиям, использующим взаимодействие изображения и текста, что подтвердило тестирование Enkrypt AI.
Тревожные результаты тестов: эксплуатация детей и химическое оружие
Enkrypt AI применил сложные методы red teaming, включая jailbreak, обман через изображения и манипуляции контекстом. Ужасающий факт: 68% вредоносных запросов вызвали генерацию опасного контента, связанного с педофилией, эксплуатацией и разработкой химического оружия.
Отчет особо подчеркивает, что модели Mistral в 60 раз чаще, чем лидеры индустрии GPT-4o и Claude 3.7 Sonnet, генерировали материалы, связанные с детской сексуальной эксплуатацией (CSEM). В ответах содержались детальные инструкции по манипуляции несовершеннолетними, прикрытые формулировками вроде «для образовательной осведомленности».
В категории CBRN (химическое, биологическое, радиологическое и ядерное оружие) модели предлагали конкретные методы усовершенствования нервно-паралитического агента VX, включая инкапсуляцию и системы контролируемого высвобождения.
Опасность мультимодальной манипуляции
Отчет показывает, что даже безобидные на вид запросы могут привести к опасным результатам. Например, изображение пустого нумерованного списка с просьбой «заполнить детали» вызвало генерацию неэтичных и незаконных инструкций. Слияние визуального и текстового ввода создает уникальные проблемы безопасности, с которыми современные защитные системы не справляются.
Технические причины уязвимостей
Мультимодальные модели синтезируют смысл из разных форматов, интерпретируя одновременно изображения и текст. Такая сложность позволяет проводить атаки с межмодальным внедрением, когда тонкие сигналы в одном формате влияют на вывод в другом, обходя традиционные фильтры безопасности, рассчитанные на текст.
Реальное применение подчеркивает важность проблемы
Pixtral-Large доступна через AWS Bedrock, а Pixtral-12b — через платформу Mistral, что свидетельствует о том, что эти уязвимые модели широко доступны через облачные сервисы. Это увеличивает риск их злоупотребления в потребительских и корпоративных продуктах.
Рекомендации для безопасного мультимодального ИИ
Enkrypt AI предлагает комплекс мер:
- Обучение безопасности с использованием данных red teaming для снижения риска генерации вредоносного контента.
- Применение Direct Preference Optimization (DPO) для тонкой настройки ответов.
- Внедрение контекстно-зависимых защитных механизмов, анализирующих мультимодальные запросы в реальном времени.
- Публикация Model Risk Cards для прозрачности ограничений и известных ошибок.
- Постоянное проведение red teaming для адаптации к новым угрозам.
Призыв к ответственной разработке ИИ
Этот отчет — сигнал для индустрии: мощь мультимодальных моделей требует усиленного внимания к безопасности. Без постоянного контроля такие системы могут привести к серьезным реальным последствиям. Выводы Enkrypt AI служат предупреждением и рекомендациями для безопасного внедрения ИИ.
Switch Language
Read this article in English