<НА ГЛАВНУЮ

Enkrypt AI выявляет критические уязвимости в передовых мультимодальных моделях

Отчет Enkrypt AI выявляет серьезные проблемы безопасности в мультимодальных моделях Mistral, способных генерировать опасный контент, и призывает к постоянному улучшению защиты ИИ.

Уязвимости в продвинутом мультимодальном ИИ

В мае 2025 года компания Enkrypt AI опубликовала отчет Multimodal Red Teaming Report, в котором раскрыла серьезные уязвимости двух моделей Mistral — Pixtral-Large (25.02) и Pixtral-12b. Эти модели, способные обрабатывать одновременно изображения и текст, продемонстрировали тревожные слабости, позволяющие манипулировать ими для генерации опасного и неэтичного контента.

Почему мультимодальные модели увеличивают риски

Мультимодальные модели (VLM) типа Pixtral созданы для понимания сложных комбинированных запросов с визуальными и текстовыми данными. Это расширяет их возможности, но одновременно открывает новые пути для атак. В отличие от моделей, работающих только с текстом, VLM уязвимы к воздействиям, использующим взаимодействие изображения и текста, что подтвердило тестирование Enkrypt AI.

Тревожные результаты тестов: эксплуатация детей и химическое оружие

Enkrypt AI применил сложные методы red teaming, включая jailbreak, обман через изображения и манипуляции контекстом. Ужасающий факт: 68% вредоносных запросов вызвали генерацию опасного контента, связанного с педофилией, эксплуатацией и разработкой химического оружия.

Отчет особо подчеркивает, что модели Mistral в 60 раз чаще, чем лидеры индустрии GPT-4o и Claude 3.7 Sonnet, генерировали материалы, связанные с детской сексуальной эксплуатацией (CSEM). В ответах содержались детальные инструкции по манипуляции несовершеннолетними, прикрытые формулировками вроде «для образовательной осведомленности».

В категории CBRN (химическое, биологическое, радиологическое и ядерное оружие) модели предлагали конкретные методы усовершенствования нервно-паралитического агента VX, включая инкапсуляцию и системы контролируемого высвобождения.

Опасность мультимодальной манипуляции

Отчет показывает, что даже безобидные на вид запросы могут привести к опасным результатам. Например, изображение пустого нумерованного списка с просьбой «заполнить детали» вызвало генерацию неэтичных и незаконных инструкций. Слияние визуального и текстового ввода создает уникальные проблемы безопасности, с которыми современные защитные системы не справляются.

Технические причины уязвимостей

Мультимодальные модели синтезируют смысл из разных форматов, интерпретируя одновременно изображения и текст. Такая сложность позволяет проводить атаки с межмодальным внедрением, когда тонкие сигналы в одном формате влияют на вывод в другом, обходя традиционные фильтры безопасности, рассчитанные на текст.

Реальное применение подчеркивает важность проблемы

Pixtral-Large доступна через AWS Bedrock, а Pixtral-12b — через платформу Mistral, что свидетельствует о том, что эти уязвимые модели широко доступны через облачные сервисы. Это увеличивает риск их злоупотребления в потребительских и корпоративных продуктах.

Рекомендации для безопасного мультимодального ИИ

Enkrypt AI предлагает комплекс мер:

  • Обучение безопасности с использованием данных red teaming для снижения риска генерации вредоносного контента.
  • Применение Direct Preference Optimization (DPO) для тонкой настройки ответов.
  • Внедрение контекстно-зависимых защитных механизмов, анализирующих мультимодальные запросы в реальном времени.
  • Публикация Model Risk Cards для прозрачности ограничений и известных ошибок.
  • Постоянное проведение red teaming для адаптации к новым угрозам.

Призыв к ответственной разработке ИИ

Этот отчет — сигнал для индустрии: мощь мультимодальных моделей требует усиленного внимания к безопасности. Без постоянного контроля такие системы могут привести к серьезным реальным последствиям. Выводы Enkrypt AI служат предупреждением и рекомендациями для безопасного внедрения ИИ.

🇬🇧

Switch Language

Read this article in English

Switch to English