Революция в оценке ИИ: сила контекстуализированных запросов

Проблема неоднозначных запросов в языковых моделях

Пользователи часто задают вопросы языковым моделям без достаточной детализации, что затрудняет понимание их истинных намерений. Например, вопрос «Какую книгу мне прочитать дальше?» сильно зависит от личных предпочтений, а «Как работают антибиотики?» требует ответа, адаптированного под уровень знаний пользователя. Традиционные методы оценки часто игнорируют этот отсутствующий контекст, что приводит к непоследовательным или несправедливым оценкам ответов модели. Ответы, кажущиеся приемлемыми, например, похвала кофе, могут быть бесполезными или даже вредными в зависимости от конкретных обстоятельств пользователя.

Предыдущие подходы к работе с контекстом и персонализацией

Ранее исследования сосредотачивались на генерации уточняющих вопросов для устранения неоднозначностей в таких задачах, как вопросы и ответы, диалоговые системы и информационный поиск. Эти методы направлены на лучшее понимание намерений пользователя. Аналогично, изучение следования инструкциям и персонализации подчеркивает важность адаптации ответов под характеристики пользователя, такие как уровень экспертизы, возраст или предпочтения в стиле. Некоторые работы исследовали, как модели адаптируются к различным контекстам, и предлагали методы обучения для улучшения этой адаптивности. Кроме того, оценщики на базе языковых моделей, несмотря на свою эффективность, могут быть предвзяты, что вызывает усилия по повышению справедливости через более четкие критерии оценки.

Введение контекстуализированных оценок

Группа исследователей из Университета Пенсильвании, Института Аллена для ИИ и Университета Мэриленда, Колледж-Парк, предложила метод контекстуализированных оценок. Этот подход дополняет недостаточно определённые запросы синтетическим контекстом в виде пар уточняющих вопросов и ответов, чтобы прояснить неоднозначности при оценке языковых моделей. Их исследование показало, что добавление контекста существенно влияет на результаты оценки, иногда даже меняя рейтинги моделей, а также улучшает согласованность между оценщиками. Такой подход снижает зависимость от поверхностных характеристик, таких как стиль, и выявляет предвзятость в сторону WEIRD (западных, образованных, индустриализированных, богатых, демократических) контекстов в стандартных ответах моделей. Кроме того, он демонстрирует различную чувствительность моделей к разным пользовательским контекстам.

Методология и влияние

Исследователи разработали простой фреймворк для оценки производительности языковых моделей при работе с более понятными, контекстуализированными запросами. Они выбрали недостаточно определённые запросы из популярных бенчмарков и обогатили их парами уточняющих вопросов и ответов, имитирующих пользовательский контекст. Затем были собраны ответы различных моделей. Оценщики — как люди, так и модели — сравнивали ответы в двух условиях: с исходным запросом и с добавленным контекстом. Это позволило измерить влияние контекста на рейтинги моделей, согласованность оценщиков и критерии оценки, предоставляя практический способ проверки моделей в условиях реальной неоднозначности.

Основные выводы

Добавление контекста, такого как намерения пользователя или аудитория, существенно улучшает оценку моделей. Согласованность оценщиков увеличилась на 3–10%, а в некоторых случаях рейтинги моделей изменялись — например, GPT-4 превосходил Gemini-1.5-Flash только при наличии контекста. Без контекста оценки больше фокусируются на тоне или плавности, тогда как с контекстом акцент смещается на точность и полезность. Стандартные ответы часто отражают западные, формальные и общие аудитории, что снижает их эффективность для разнообразных пользователей. Игнорирование контекста в бенчмарках может приводить к ненадежным результатам. Для обеспечения справедливости и актуальности оценки должны сочетать контекстуализированные запросы с критериями, отражающими реальные потребности пользователей.

Значение для будущей оценки ИИ

Многие пользовательские запросы не содержат ключевого контекста, такого как намерения или уровень знаний, что делает оценку субъективной и ненадежной. Контекстуализированные оценки обогащают запросы релевантными уточняющими вопросами и ответами, смещая фокус на значимые критерии, такие как полезность, и выявляют скрытую предвзятость. Несмотря на ограниченный набор типов контекста и частичное использование автоматизированной оценки, исследование убедительно доказывает необходимость более контекстно-осознанных методов оценки в будущем.