IndQA: новый культурно ориентированный бенчмарк OpenAI для индийских языков

Почему появился IndQA

OpenAI создал IndQA, чтобы ответить на практический вопрос: действительно ли крупные языковые модели понимают индийские языки и культурный контекст, в котором формулируются вопросы? Большинство существующих мультиязычных тестов сводятся к задачам перевода или форматам с выбором ответа и часто показывают схожие высокие результаты у сильных моделей. Это затрудняет оценку реального понимания местного контекста, истории и повседневной жизни.

Набор данных, языки и культурные домены

IndQA включает 2 278 вопросов, составленных на 12 языках: бенгали, английском, хинди, хинглише, каннада, маратхи, одия, телугу, гуджарати, малаялам, панджаби и тамильском. Бенчмарк охватывает 10 культурных доменов: архитектуру и дизайн, искусство и культуру, повседневную жизнь, еду и кухню, историю, право и этику, литературу и лингвистику, медиа и развлечения, религию и духовность, спорт и отдых. Хинглиш включён, чтобы отражать распространённый код-слинг в разговорах.

Структура примеров и экспертная разработка

Каждая единица данных содержит четыре компонента: культурно обоснованный запрос на одном из индийских языков, английский перевод для аудита, детализированную рубрику с критериями и весами для оценки и эталонный ответ, отражающий ожидания экспертов. Для создания набора данных привлекли 261 эксперта по разным доменам из разных регионов Индии, что обеспечило региональную привязку и задания, требующие глубокого рассуждения.

Оценка по рубрике вместо точного совпадения

Вместо точного совпадения индикатов IndQA применяет процедуру оценки по рубрикам. Эксперты определяют несколько взвешенных критериев для каждого вопроса, описывающих, что должен содержать правильный ответ и чего следует избегать. Модель-грейдер проверяет ответы относительно этих критериев и выставляет частичный балл за удовлетворённые критерии. Такой подход фиксирует нюансы и культурную корректность, а не только поверхностное совпадение токенов.

Процесс создания и адвесарная фильтрация

OpenAI описывает четырёхшаговый конвейер: набор экспертов-носителей языка и предметных специалистов; адвесарная фильтрация — черновые вопросы прогоняли через сильнейшие модели (GPT-4o, OpenAI o3, GPT-4.5 и частично GPT-5) и оставляли только те вопросы, где большинство моделей не давало удовлетворительного ответа; повторное использование рубрик при оценке других моделей; и финальная доработка эталонных ответов, переводов и взаимная проверка качества экспертами. Адвесарная фильтрация сохраняет запас трудности, чтобы дальнейшие улучшения моделей были заметны на IndQA.

Измерение прогресса

OpenAI использует IndQA для оценки современных фронтирных моделей и отслеживания прогресса по индийским языкам за последние годы. По данным компании, производительность моделей улучшилась, но остался значительный простор для роста. Результаты приводятся по языкам и доменам и включают сравнения, например GPT-5 Thinking High с другими системами.

Зачем это важно

IndQA закрывает пробел в мультиязычной оценке, смещая фокус на культурно релевантное рассуждение на индийских языках. Экспертная курирование, оценка по рубрикам и адвесарная фильтрация делают его практическим ориентиром для проверки понимания региональных знаний и повседневного культурного контекста современными AI-системами.

IndQA: новый культурно ориентированный бенчмарк OpenAI для индийских языков

Switch Language