Скрытые издержки ошибок аннотаций в AI-датасетах раскрыты

Проблема улучшения аннотаций в AI-датасетах

В научных кругах машинного обучения распространено мнение, что само машинное обучение можно использовать для повышения качества аннотаций AI-датасетов, особенно описаний изображений для моделей, работающих с визуально-языковыми данными (VLM). Это связано с высокой стоимостью человеческой аннотации и необходимостью контролировать работу аннотаторов.

Однако эта идея напоминает известный мем «скачай больше оперативной памяти», где шутили над попытками решить аппаратные ограничения программными средствами. Качество аннотаций остаётся критически важным, но зачастую упускается из виду элементом в ML-пайплайнах.

Важность точных человеческих аннотаций

Модели машинного обучения зависят от качества и последовательности аннотаций, созданных людьми, которые принимают субъективные решения в неидеальных условиях. Попытки заменить человека алгоритмами моделирования поведения аннотаторов не могут полностью сработать, так как нет двух идентичных субъективных суждений, а эквивалентность между доменами остаётся серьёзной проблемой в компьютерном зрении.

Поэтому основа обучения AI-моделей неизбежно опирается на человеческий вклад.

Рост популярности RAG-агентов и их ограничения

Недавно стали популярны агенты с Retrieval-Augmented Generation (RAG), которые могут проверять факты через интернет-поиск, уменьшая количество галлюцинаций — случаев, когда AI выдумывает неверную информацию. Однако они увеличивают затраты ресурсов и задержки в запросах, и не могут заменить сложные внутренние связи обученной модели.

Было бы лучше, если бы данные для обучения изначально имели меньше ошибок, несмотря на субъективность процесса.

Исследование RePOPE выявляет ошибки аннотаций

Новое исследование из Германии показывает значительные ошибки в аннотациях широко используемых датасетов, например MSCOCO, особенно в описаниях изображений. Ошибки в бенчмарках могут скрывать или искажать истинное поведение галлюцинаций в VLM.

Например, если модель правильно видит велосипед на фото, но аннотация этого не указывает, модель ошибочно считается неверной. Такие ошибки накапливаются и искажают метрики точности и измерения галлюцинаций.

Исследование пересмотрело бенчмарк POPE, основанный на MSCOCO, который проверяет, может ли модель правильно ответить на простые вопросы о наличии объектов на изображении.

Методика и результаты

Учёные перепроверили аннотации MSCOCO с двумя аннотаторами на каждый объект, исключая неоднозначные случаи (например, медвежонок против медведя). Исправленный датасет RePOPE показал, что 9.3% положительных меток были ошибочными, 13.8% — неоднозначными. Среди отрицательных меток 1.7% были некорректны, 4.3% — неоднозначны.

Тесты на различных открытых VLM показали, что исправленные аннотации значительно меняют рейтинг моделей, особенно по F1-метрике. Модели, ранее на вершине рейтинга, опускаются, и наоборот, показывая, как ошибки аннотаций искажают оценку.

Влияние на оценку AI-моделей

Количество истинно положительных ответов снизилось, что говорит о том, что модели часто получали заслугу за ответы, верные лишь из-за ошибочных меток. Количество ложных срабатываний варьируется в разных поднаборах; в случайных поднаборах оно почти удвоилось, показывая пропущенные объекты в аннотациях. Это влияет на точность, полноту и особенно на F1, демонстрируя чувствительность оценки к качеству аннотаций.

Необходимость улучшения практик аннотирования

Исследование подчёркивает острую необходимость качественных и тщательно проверенных аннотаций для точной оценки и развития AI-моделей. Несмотря на то, что RePOPE предлагает более надёжный бенчмарк, проблема насыщения датасета остаётся, так как многие модели достигают более 90% точности по истинно положительным и отрицательным ответам.

Крупные и разнообразные датасеты будет сложнее аннотировать с такой же точностью, а масштабирование человеческой аннотации при сохранении качества остаётся нерешённой экономической и практической задачей.

Итог

Качество аннотаций — фундаментальный, но часто недооценённый фактор в исследованиях AI. Попытки заменить человеческую разметку только машинным обучением имеют серьёзные ограничения. Решение требует инвестиций в улучшение процессов аннотирования и признания субъективных сложностей в маркировке данных.

Исправленные метки RePOPE доступны публично, чтобы поддержать исследования более надёжной оценки VLM.