<НА ГЛАВНУЮ

Cloudflare против Perplexity: битва за веб-скрейпинг для ИИ

Cloudflare утверждает, что Perplexity скрывала бот, чтобы скрейпить сайты, отказавшиеся от индексации, что вызвало споры о доступе AI к онлайн-контенту и будущем монетизации издателей

Что обнаружил Cloudflare

Cloudflare опубликовал подробный отчет, в котором утверждается, что Perplexity AI систематически получала доступ и скрейпила контент с сайтов, которые явно сигнализировали, что не допускают AI-краулеров. По данным Cloudflare и независимых расследований, бот якобы менял user agent, имитируя популярные браузеры вроде Chrome на macOS, и менял номера автономных систем, чтобы ускользнуть от детекции и обходить блокировки, установленные владельцами сайтов.

Cloudflare заявляет, что такая активность затронула десятки тысяч доменов и генерировала миллионы запросов в день. Компания использовала машинное обучение и другие сетевые сигналы, чтобы сфингерпринтить краулер и сделать вывод о том, что он скрывает свою идентичность, чтобы получить данные с сайтов, которые отказались от индексации через robots.txt или другие механизмы блокировки.

Ответ Perplexity

Perplexity оспорила интерпретацию Cloudflare, назвав частично пост рекламным шагом и отрицая, что скриншоты демонстрируют фактический доступ к контенту. Позднее компания утверждала, что значительная часть трафика, который наблюдал Cloudflare, могла быть вызвана запросами пользователей, когда AI-агент извлекает контент по прямому запросу пользователя, а не скрытым автоматизированным скрейпингом. Perplexity уже сталкивалась с похожими претензиями ранее и продолжает работать над определением своей политики использования контента.

Почему это важно

В течение многих лет robots.txt выступал в роли негласного соглашения между сайтами и ботами. Хотя в большинстве юрисдикций это не имеет большой юридической силы, крупные игроки в сфере AI обычно уважали эти сигналы. Если Perplexity или похожие сервисы регулярно обходят такие блокировки, это подрывает ожидания владельцев сайтов и неформальные нормы, управляющие работой сети.

Спор возник в момент запуска Cloudflare рынка Pay Per Crawl, который позволяет издателям взимать плату за доступ AI и по умолчанию блокирует большинство краулеров. К этому сервису присоединились крупные издания, и миллионы сайтов теперь явно запрещают использование их контента для обучения AI, что указывает на переход к монетизации доступа вместо полагания исключительно на рекламу.

Широкие последствия

Реакция разделилась. Cloudflare позиционирует себя как защитника бизнес-моделей издателей и сторонника соблюдения сигналов блокировки. Perplexity настаивает, что запросы пользователя через AI-агента не должны отличаться от обычного просмотра страницы человеком через браузер. В соцсетях одни считают, что извлечение по запросу пользователя равноценно обычному браузингу, другие указывают на ущерб издателям, которые зависят от рекламных доходов и контроля над своим контентом.

В более широком смысле меняется экономика интернета. Модели монетизации контента трансформируются, требования к прозрачности и соблюдению правил становятся обязательными, а компании в сфере AI рискуют репутацией и юридическими проблемами при обнаружении обхода блокировок или злоупотребления контентом. Многие крупные игроки все активнее заключают лицензионные соглашения с издателями, вместо того чтобы полагаться на несанкционированный скрейпинг.

Независимо от того, несправедливо ли выделяют Perplexity или компания действительно нарушает веб-стандарты, этот спор становится поворотным моментом. Эпоха свободного сбора данных для обучения AI уходит, уступая место платному доступу, более строгому соблюдению предпочтений издателей и фрагментации доступных источников данных.

🇬🇧

Switch Language

Read this article in English

Switch to English