Чатботы ИИ ссылаются на отозванные исследования — угроза научной надёжности

сентября 23, 2025 · 3 min

Отозванные исследования в ответах ИИ

Недавние исследования показывают, что некоторые чатботы и инструменты для научного поиска используют материал из отозванных научных статей при формировании ответов. Вместо того чтобы выдумывать ссылки, эти системы подставляют реальную литературу, которая официально была снята с научной записи, что может ввести в заблуждение пользователей, не проверяющих первоисточник.

Что показали исследования

Учёные тестировали несколько ИИ-систем на вопросах, основанных на наборе отозванных статей по медицинской визуализации и другим областям. В одном исследовании ChatGPT с моделью GPT-4o ссылался на отозванные статьи в нескольких ответах и предупреждал об этом лишь изредка. Другая группа проверяла ChatGPT-4o mini на 217 отозванных или низкокачественных работах и не зафиксировала упоминаний о ретракциях в ответах.

Тесты специализированных инструментов для исследований, таких как Elicit, Ai2 ScholarQA, Perplexity и Consensus, выявили похожие проблемы: они ссылались на множество отозванных статей, не указывая на их статус. Некоторые сервисы после добавления данных о ретракциях сократили число таких ссылок.

Почему это важно

Пользователи обращаются к чатботам за медицинскими рекомендациями, диагностическими подсказками, краткими обзорами литературы и суммарными выводами. Если система опирается на отозванные исследования, это может раздувать влияние дискредитированных результатов и формировать ложную уверенность в недостоверных выводах. Риск особенно велик для неспециалистов, которые не переходят к оригинальной статье и не замечают заметку об отзыве.

Отозванные статьи могут оставаться доступными на препринт-серверах, в репозиториях и на других сайтах, поэтому их копии разбросаны по сети. Модели, обученные на устаревших данных, могут продолжать воспроизводить такие работы даже после их отзыва.

Как компании реагируют

Некоторые провайдеры начали интегрировать метаданные о ретракциях в свои процессы. Например, Consensus стал собирать данные о ретракциях из публикаций, агрегаторов, веб-сканирования и базы Retraction Watch, которая вручную кураторит заметки об отзывах. После обновления источников Consensus в тестах сократил число ссылок на отозванные статьи.

Другие инструменты применяют частичные решения: удаляют помеченные записи из индексов, собирают дополнительные источники данных о ретракциях или предупреждают пользователей о возможной неточности. Однако полное покрытие затруднено, потому что уведомления об отзывах публикуются по-разному и требуют ручной проверки.

Ограничения баз данных о ретракциях

Retraction Watch и другие базы ценны, но создание исчерпывающей и постоянно актуальной базы требует значительных ресурсов. Издатели помечают исправления и отозвания по-разному: correction, erratum, expression of concern, retracted и другие метки используются в разных случаях, а причины пометок могут отличаться.

Из-за разнородности форматов и децентрализованной природы научной публикации автоматическое обнаружение отозванного контента остаётся несовершенным. Модели с датой отсечения обучения до даты ретракции не будут знать о последующих отзывах, а многие академические поисковики не проверяют корпус на предмет ретракций в реальном времени.

Отозванные исследования в ответах ИИ

Что показали исследования

Почему это важно

Как компании реагируют

Ограничения баз данных о ретракциях

Рекомендации для пользователей и организаций