Как ИИ и Википедия загнали уязвимые языки в порочный цикл

Пыльная витрина содержания

Когда Кеннет Вехр взялся за управление разделом Википедии на языке гренландцев четыре года назад, он обнаружил видимость активности: около 1 500 статей и десятки тысяч слов. Но большая часть материала была написана теми, кто не владел языком, а многие страницы были явно сгенерированы или автоматически переведены. Вехр удалил значительную часть контента, пытаясь сохранить языковое достоинство ресурса.

Как автоматический перевод исказил маленькие разделы Википедии

С развитием и доступностью машинных переводов волонтеры и новички стали наполнять малые разделы автоматически созданными текстами. Для многих языков с небольшим числом носителей Википедия является одним из крупнейших источников онлайн-текста. Это делает проект и ценным, и уязвимым: плохие машинные переводы засоряют сеть, и обучаемые на этой сети ИИ воспроизводят и умножают ошибки.

Порочный цикл, который угрожает языковым данным

Современные модели перевода учатся на больших объёмах онлайн-текста. Если страницы Википедии на малом языке преимущественно состоят из ошибочных машинных переводов, модели усваивают эти ошибки и становятся ещё хуже. Получается замкнутая петля: ИИ создаёт плохие статьи, люди используют те же инструменты для создания новых статей, а модели обучаются на растущем массиве ошибок. Как отмечает Кевин Сканнелл, когда речь идёт о недостаточно представленных языках, у моделей часто нет других опорных материалов — ни грамматик, ни словарей — только сырые тексты, от которых и зависит качество результата.

Нагрузки на человеческие сообщества

У малых разделов Википедии зачастую нет достаточно большой активной общины, способной обнаруживать и исправлять ошибки. Люди, использующие Google Translate или ChatGPT, могут иметь благие намерения, считая, что оставят грубую заготовку, которую носители потом доработают. Но часто никто не приходит её править. Волонтёры вроде Абдулкадира Абдулкадира (Фулфульде) и Люси Ивуала (игбо) тратят часы на исправление страниц, которые становятся нечитаемыми или потенциально опасными — например, неправильные переводы советов по сельскому хозяйству.

Автоматизация и правила сообщества

У Википедии есть инструменты вроде Content Translate, упрощающие автоматический перевод, но они полагаются на внешние переводчики и страдают теми же слабостями. Фонд Викимедиа во многом оставляет решения о применении таких инструментов сообществам конкретных языковых разделов. Это работает там, где есть активная община, как в случае инарисаамского языка, но не работает там, где участников мало. Англоязычная Википедия, например, ограничила Content Translate после того, как обнаружила, что многие автоматически созданные статьи не отвечают стандартам качества.

Когда носители организуются — истории успеха

Есть и положительные примеры. Инарисаамский язык, некогда почти вымерший, теперь насчитывает несколько сотен носителей и имеет развитую Википедию с тысячами тщательно редактированных статей. Активисты использовали Википедию как хранилище письменного языка и инструмент обучения, интегрировав её в школьную программу и создавая новые слова для современных реалий. Этот пример показывает, что при участии носителей и с акцентом на качество Википедия может помочь возрождению языка.

Что случилось с гренландским и какой это даёт сигнал

Вехр в итоге подал запрос в Языковой комитет Википедии на закрытие раздела гренландского языка, поскольку автоматически сгенерированный контент часто представлял собой бессмыслицу и искажал язык. Комитет принял решение переместить оставшиеся статьи в Инкубатор. Но к тому моменту ошибки уже проникли в экосистему машинных переводов: крупнейшие инструменты до сих пор не умеют надежно выполнить базовые задачи на гренландском, например корректно считать до десяти.

Почему это важно за пределами Википедии

Последствия выходят за рамки энциклопедических статей. ИИ, обученный на загрязнённых данных, порождает учебные материалы и автоматизированные инструменты, которые вводят в заблуждение учащихся и сообщества. Лингвисты описывали некоторые сгенерированные ИИ фразеологические пособия как бессмыслицу и опасаются, что молодое поколение будет осваивать неверные формы, подрывая усилия по сохранению языка.

Куда двигаться дальше

Чтобы остановить разрушительный цикл, нужны человеческая кураторская работа: активные сообщества носителей, тщательный контроль автоматических вкладов и инвестиции в качественные материалы, созданные людьми. Там, где сообщество организовано и ставит качество во главу угла, Википедия может помочь; там, где его нет — автоматические инструменты рискуют ускорить эрозию языка. Проблема не только технологическая — она социальная, институциональная и срочная.