Чатботы ИИ ссылаются на отозванные исследования — угроза научной надёжности
Отозванные исследования в ответах ИИ
Недавние исследования показывают, что некоторые чатботы и инструменты для научного поиска используют материал из отозванных научных статей при формировании ответов. Вместо того чтобы выдумывать ссылки, эти системы подставляют реальную литературу, которая официально была снята с научной записи, что может ввести в заблуждение пользователей, не проверяющих первоисточник.
Что показали исследования
Учёные тестировали несколько ИИ-систем на вопросах, основанных на наборе отозванных статей по медицинской визуализации и другим областям. В одном исследовании ChatGPT с моделью GPT-4o ссылался на отозванные статьи в нескольких ответах и предупреждал об этом лишь изредка. Другая группа проверяла ChatGPT-4o mini на 217 отозванных или низкокачественных работах и не зафиксировала упоминаний о ретракциях в ответах.
Тесты специализированных инструментов для исследований, таких как Elicit, Ai2 ScholarQA, Perplexity и Consensus, выявили похожие проблемы: они ссылались на множество отозванных статей, не указывая на их статус. Некоторые сервисы после добавления данных о ретракциях сократили число таких ссылок.
Почему это важно
Пользователи обращаются к чатботам за медицинскими рекомендациями, диагностическими подсказками, краткими обзорами литературы и суммарными выводами. Если система опирается на отозванные исследования, это может раздувать влияние дискредитированных результатов и формировать ложную уверенность в недостоверных выводах. Риск особенно велик для неспециалистов, которые не переходят к оригинальной статье и не замечают заметку об отзыве.
Отозванные статьи могут оставаться доступными на препринт-серверах, в репозиториях и на других сайтах, поэтому их копии разбросаны по сети. Модели, обученные на устаревших данных, могут продолжать воспроизводить такие работы даже после их отзыва.
Как компании реагируют
Некоторые провайдеры начали интегрировать метаданные о ретракциях в свои процессы. Например, Consensus стал собирать данные о ретракциях из публикаций, агрегаторов, веб-сканирования и базы Retraction Watch, которая вручную кураторит заметки об отзывах. После обновления источников Consensus в тестах сократил число ссылок на отозванные статьи.
Другие инструменты применяют частичные решения: удаляют помеченные записи из индексов, собирают дополнительные источники данных о ретракциях или предупреждают пользователей о возможной неточности. Однако полное покрытие затруднено, потому что уведомления об отзывах публикуются по-разному и требуют ручной проверки.
Ограничения баз данных о ретракциях
Retraction Watch и другие базы ценны, но создание исчерпывающей и постоянно актуальной базы требует значительных ресурсов. Издатели помечают исправления и отозвания по-разному: correction, erratum, expression of concern, retracted и другие метки используются в разных случаях, а причины пометок могут отличаться.
Из-за разнородности форматов и децентрализованной природы научной публикации автоматическое обнаружение отозванного контента остаётся несовершенным. Модели с датой отсечения обучения до даты ретракции не будут знать о последующих отзывах, а многие академические поисковики не проверяют корпус на предмет ретракций в реальном времени.
Рекомендации для пользователей и организаций
Эксперты предлагают расширить контекстную информацию для моделей: публиковать рецензии, критические замечания с PubPeer и заметки об отзывах вместе с основной статьёй, чтобы системы могли лучше оценивать статус и качество публикации. Издатели, которые открыто публикуют и связывают уведомления об отзывах с оригинальными статьями, упрощают задачу обнаружения отозванного контента.
Пока обнаружение не станет надёжным, пользователям рекомендуется проверять источники, переходить к оригинальным статьям, искать уведомления об отзыве на сайтах издателей и обращаться к кураторным базам о ретракциях. Учёным, институтам и инвесторам, работающим над научными ИИ-моделями, следует приоритетно интегрировать метаданные о ретракциях, чтобы снизить риски и сохранить доверие к инструментам для исследований.