Sora под прицелом: обучалась ли модель OpenAI на материалах Netflix, TikTok и играх?

Новый видеогенератор OpenAI, Sora, привлекает внимание способностью создавать клипы уровня голливудских трейлеров по простым запросам.

Что обнаружили исследователи

Независимые тесты показывают, что результаты Sora могут содержать элементы, очень напоминающие защищённые авторским правом материалы. Выходы модели иногда выглядят подозрительно как трейлеры сериалов вроде Wednesday или как фирменные заставки студий типа DreamWorks. Были также примеры, где угадывались клипы с водяными знаками TikTok и логотипы видеоигр.

Как это могло произойти

Для обучения современных видео-моделей требуются огромные объёмы видео. Исследователи отмечают, что сбор материалов со сторонних платформ, в том числе YouTube и TikTok, долгое время использовался в разработке моделей. Существуют инструменты, позволяющие массово скачивать миллионы роликов, превращая платформы в источники данных для машинного обучения.

Хотя платформы часто запрещают такое сканирование в правилах использования, контроль бывает слабым. Сообщалось, что компании вроде Nvidia и Runway ML опирались на крупные наборы данных, полученные таким образом. OpenAI утверждает, что обучает модели только на ‘publicly available and licensed data’, но критики отмечают, что результаты выглядят иначе.

Юридические и этические вопросы

Ключевой вопрос в том, является ли использование защищённого контента для обучения нарушением или подпадает под добросовестное использование. Юристы, создатели контента и этики спорят. Одни сравнивают это с изучением материалов в библиотеке: модель изучает примеры, чтобы уловить паттерны. Другие считают это непозволительным использованием чужого труда, особенно если выходы модели повторяют коммерчески важные, узнаваемые произведения.

Группа создателей на YouTube уже подала иск против OpenAI, обвиняя компанию в неправомерном использовании миллионов часов транскрибированного аудио. Если суд встанет на сторону авторов, это может существенно ограничить, какие данные допускается использовать для обучения больших моделей.

Что стоит на кону для авторов и индустрии

С одной стороны, такие инструменты могут демократизировать создание контента, давая независимым авторам доступ к возможностям, ранее доступным только крупным студиям. С другой стороны, если модели способны воспроизводить стиль и образ известных франшиз без разрешения и компенсации, профессиональные аниматоры, режиссёры и монтажёры рискуют потерять ценность своего труда.

Этики, например Маргарет Митчелл, подчёркивают: речь идёт не только о праве, но и о морали — создатели должны иметь право решать, как используется их работа. Игнорирование согласия и лицензий может иметь серьёзные социальные последствия.

Возможные сценарии развития событий

Текущие судебные разбирательства и решения регуляторов определят, ужесточат ли правила по использованию тренировочных данных или индустрия продолжит опираться на широко собранные датасеты. Если суды и регуляторы ужесточат подход, компаниям придётся получать прозрачные лицензии и формировать “чистые” наборы данных. Если нет — следующая волна синтетического контента может стать массовой и узнаваемой, но принадлежащей никому конкретно.

Для авторов и зрителей исход определит, сколько культуры останется привязанным к её создателям и насколько сильно ИИ переосмыслит творческий ландшафт.