Вежливость не улучшает качество ответов ИИ

Споры о вежливости и ответах ИИ

Общественное мнение о том, влияет ли вежливость на ответы ИИ, часто меняется. Многие пользователи добавляют слова вроде «пожалуйста» и «спасибо» в свои запросы, полагая, что это может привести к более качественным или продуктивным ответам ИИ. Некоторые исследования, например японское исследование 2024 года, подтверждали, что вежливые запросы могут улучшать ясность и снижать количество отказов у крупных языковых моделей, таких как GPT-3.5, GPT-4, PaLM-2 и Claude-2.

Новое исследование ставит под сомнение влияние вежливости

Недавняя работа Университета Джорджа Вашингтона оспаривает это мнение, предлагая математическую модель, которая предсказывает момент, когда выходные данные языковой модели «рухают» — переходят от связного текста к вводящему в заблуждение или опасному содержанию. Исследователи утверждают, что вежливость не задерживает и не предотвращает этот срыв.

Механизмы ухудшения ответов ИИ

Авторы объясняют, что вежливые выражения обычно не связаны с основной темой запроса и поэтому не влияют на фокус модели. На примере упрощённой модели с одним attention head они показывают, что внутреннее состояние модели меняется под воздействием значимых токенов, а не вежливых слов. Вежливые слова добавляют «шум», но не меняют траекторию вывода.

Критический момент в ответах ИИ

Критический момент (tipping point) наступает, когда внутренний вектор контекста больше совпадает с «плохими» ответами, чем с «хорошими», что ведёт к ухудшению качества. Этот момент зависит от значимых токенов и данных обучения, а не от вежливых слов. Авторы приводят геометрические иллюстрации и формулы, точно предсказывающие этот переход.

Ограничения и перспективы исследований

Хотя модель является упрощённой и рассматривает только один attention head, авторы считают, что подобное поведение может проявляться и в более сложных многоголовых архитектурах, возможно, даже усиливаясь. Однако необходимы эмпирические проверки на современных системах, таких как ChatGPT и Claude.

Социальные и практические аспекты

В настоящее время вежливость к ИИ часто продиктована социальными привычками или надеждами на лучший результат. Некоторые исследования предупреждают, что обращение к ИИ как к человеку может обесценить значение языка, поскольку ИИ не имеет настоящих намерений, и вежливые фразы могут быть пустыми. Тем не менее, опросы показывают, что многие пользователи сохраняют вежливость по отношению к чатботам, считая это правильным.

Итоги

Новое исследование заставляет переосмыслить пользу вежливости при взаимодействии с ИИ, подчёркивая, что вежливые слова не влияют существенно на качество или безопасность ответов.

Вежливость не улучшает качество ответов ИИ — новое исследование