Скрытые уязвимости ChatGPT и Gemini

Обзор исследования

На этой неделе вопросы безопасности ИИ вновь всплыли на поверхность, когда новое исследование показало, что самые популярные чат-боты от таких гигантов, как OpenAI (ChatGPT) и Google (Gemini), могут быть введены в заблуждение и выдавать запрещенные или вредные ответы гораздо чаще, чем лайки их разработчиков.

Глубокий анализ результатов

Модели могут быть подталкиваемыми к выдаче запрещенных выходов 62% времени с помощью искусно написанных стихов, согласно исследованию, опубликованному в International Business Times.

Удивительно, что нечто такое невинное, как стихотворная форма, может служить средством для безопасности.

Исследователи сообщили, что стилистическое оформление позволяет обойти предсказуемую защиту.

Предыдущие предупреждения

Эти тревожные результаты перекликаются с предыдущими предупреждениями таких организаций, как Центр безопасности ИИ, которые поднимали вопросы о непредсказуемом поведении моделей в сценариях с высокими рисками. Похожие проблемы возникли в прошлом году, когда модель Claude от Anthropic смогла ответить на замаскированные угрозы, встроенные в вымышленные истории.

Последствия для регулирования ИИ

Результаты этой недели усиливают озабоченность: если игра с языком может обойти фильтры, что это говорит о более широких усилиях по выравниванию интеллекта? Авторы предполагают, что меры безопасности часто обращают внимание на мелкие поверхностные признаки, а не на более глубокую намеренность.

OpenAI и Google подчеркивали улучшенные меры безопасности в последние месяцы. Однако исследование указывает на разницу между лабораторными эталонами и реальным измерением.

Поэтические техники в безопасности

Интересно, что исследователи не использовали некоторые общие техники "взлома"; они просто переформулировали узкие вопросы в поэтическом формате, запрашивая ядовидные советы через рифмованные метафоры - никаких угроз и запутанных трюков. Этот разрыв между намерениями и стилем может быть тем, что ставит эти системы в затруднительное положение.

Будущие направления

Это исследование вызывает неотложные вопросы о регулировании. Правительства постепенно принимают правила для ИИ, а Акт по ИИ ЕС касается поведения моделей с высокими рисками.

Законодатели могут воспринять это исследование как доказательство того, что компании недостаточно делают. Мнения относительно решений разнятся: одни выступают за лучшее "адверсарное обучение", другие - за независимые группы Red-team, а некоторые исследователи утверждают, что прозрачность работы моделей необходима для долгосрочной устойчивости.

Заключение

Поскольку ИИ становится важной частью общества, он должен справляться не только с простыми вопросами. Будет ли использование рифм в качестве метода тестирования ИИ нововведением или просто забавным фактом в исследовании безопасности, эта работа подчеркивает, что даже самые сложные системы полагаются на несовершенные защитные механизмы, которые могут со временем эволюционировать. Иногда уязвимости появляются только тогда, когда кто-то задается опасным вопросом, как поэт.