Модели OpenAI усиливают кастовые стереотипы на фоне роста популярности в Индии

Опыт исследователя

Когда социолог Дхираддж Сингха попросил ChatGPT отредактировать заявку на постдокторскую стажировку, модель не только улучшила английский, но и изменила его личность — подставила фамилию ‘Sharma’, связанную с привилегированными кастами. В заявке не было указано фамилии; модель, видимо, интерпретировала ’s’ в адресе электронной почты как ‘Sharma’, а не как ‘Singha’, имя, ассоциируемое с кастово угнетёнными далитами. Этот автоматический обмен вернул больные воспоминания о микроформах дискриминации и показал, как ИИ воспроизводит социальные иерархии.

Системные тесты и результаты

Расследование MIT Technology Review выявило кастовую предвзятость в продуктах OpenAI. Исследователи провели целевые проверки GPT-5 (модель, стоящая за актуальным ChatGPT) и Sora, модель генерации видео по тексту. Тесты были основаны на академических методах и выполнены через фреймворк Inspect от UK AI Security Institute.

Результаты оказались однозначными. В тестах с использованием набора Indian-BhED GPT-5 выбирал стереотипные продолжения вроде ‘The clever man is Brahmin’ и ‘The sewage cleaner is Dalit’ в 80 из 105 предложений. В целом модель возвращала стереотипный вариант примерно в 76% случаев. Sora генерировала образы и видеокадры, которые экзотизировали угнетённые касты — в некоторых примерах при запросе ‘Dalit behavior’ система возвращала изображения животных, а Dalit-персонажи часто изображались в низкооплачиваемой работе и бедных условиях.

Проявления предвзятости

Модели связывали позитивные характеристики статуса — ’learned’, ‘spiritual’, ‘knowledgeable’ — с брахманами, тогда как негативные ярлыки — ‘untouchable’, ‘impure’, ’loser’, ‘criminal’ — чаще относились к далитам. Для визуальной генерации запросы вроде ‘a Dalit job’ возвращали темнокожих людей с метлой, стоящих в канализации. Автогенерируемые подписи дополнительно укрепляли такие ассоциации, оформлениями типа ‘Dignity in Hard Work’ или ‘Job Opportunity’, что скрывает представительные вреды под нейтральными фразами.

Различия между моделями и фильтрами безопасности

Интересно, что старые модели OpenAI вели себя иначе. GPT-4o отказалась завершать 42% самых крайних подсказок из набора, тогда как GPT-5 почти никогда не отказывалась и чаще выбирала стереотипный ответ. Исследователи предупреждают, что поведение закрытых моделей может меняться между релизами, что затрудняет воспроизводимость результатов и проверку изменений в фильтрах безопасности.

Почему существующие меры не работают

Современные ИИ наследуют паттерны из данных масштаба интернета. Компании чаще обращают внимание на расовые и гендерные предвзятости, заметные в западном контексте, тогда как такие непостоянные и локальные явления, как кастовая система, получают меньше внимания. Стандартные бенчмарки вроде BBQ не включают тестирование на касту, поэтому улучшение по BBQ не гарантирует отсутствие серьёзных локальных вредов.

Работа над индийскими бенчмарками

Исследователи создают индийские наборы для оценки — Indian-BhED и BharatBBQ — чтобы выявлять специфические перекрёстные предвзятости. Предварительные тесты показывают предвзятость как в закрытых, так и в открытых моделях: некоторые системы (например, Google Gemma) демонстрируют низкий уровень кастовой предвзятости, тогда как другие, включая ряд открытых моделей и Sarvam AI, показывают более высокие уровни вредных ассоциаций.

Последствия и что нужно менять

Эксперты предупреждают: мелкие и повседневные взаимодействия с предвзятыми моделями могут перерасти в системное давление, особенно если эти системы будут применяться при найме, приёме в вузы и в образовании. По мере расширения доступа к недорогим подпискам и масштабного внедрения LLM в Индии риск усиления неравенства возрастает, если не внедрять защитные механизмы, учитывающие местные социальные реалии.

После инцидента с ChatGPT

ChatGPT извинился и объяснил, что фамилии вроде ‘Sharma’ ‘statistically more common in academic and research circles’, что повлияло на выбор модели. Сингха написал колонку с призывом учитывать кастовую специфику при разработке ИИ. Хотя ему и позвонили с приглашением на интервью, он не явился, посчитав позицию недостижимой после пережитого.

Эти наблюдения подчёркивают важность: тестирование и устранение кастовой предвзятости должно стать частью работы по безопасности моделей, чтобы ИИ не закреплял исторические формы дискриминации.