Как ИИ меняет прогнозирование блокбастеров
Исследователи Comcast и Джорджтаунского университета применяют ИИ и метаданные для прогнозирования будущих хитов в кино, предлагая новый подход к оценке контента.
Склонность к минимизации рисков в киноиндустрии
Несмотря на творческую природу, кино и телевидение традиционно избегают рисков из-за высоких затрат на производство и фрагментированного рынка, что затрудняет покрытие убытков для независимых компаний. Это вызвало интерес к машинному обучению для выявления трендов в реакции аудитории.
Традиционные источники данных и их ограничения
Основные источники данных — Nielsen и фокус-группы, которые либо обеспечивают масштаб, либо тщательно подобранную аудиторию. Отзывы с бесплатных превью фильмов также используются, но к этому моменту большая часть бюджета уже потрачена.
Ранние методы машинного обучения
Первоначальные методы опирались на классические статистические техники, такие как линейная регрессия, K-ближайших соседей, деревья решений и нейросети, часто комбинируемые для прогнозирования успеха, например, исследования 2019 года по предсказанию популярных ТВ-шоу по актерам и сценаристам.
Рекомендательные системы и проблема холодного старта
Рекомендательные системы анализируют уже успешный контент, но испытывают сложности с новинками из-за отсутствия данных о взаимодействии аудитории. Традиционные методы фильтрации не работают без пользовательских данных.
Подход Comcast к прогнозированию хитов с помощью ИИ
Недавняя работа Comcast Technology AI и Джорджтаунского университета предлагает использовать большие языковые модели (LLM), которые получают на вход структурированные метаданные (актеры, жанр, синопсис, рейтинг, настроение, награды) не выпущенных фильмов для ранжирования вероятных хитов, избегая смещения в пользу известных проектов.
Датасет и методология
Исследователи собрали датасет с платформы Comcast, сосредоточившись на фильмах и их популярности, измеряемой взаимодействиями пользователей. LLM выступал как «редакторский помощник», ранжируя фильмы по вероятной популярности через этапы создания датасета, установления базовой модели, оценки LLM и оптимизации через prompt engineering на основе моделей Llama.
Базовые модели и оценка
В качестве базовых использовались случайный порядок и популярные эмбеддинги с помощью моделей BERT V4, Linq-Embed-Mistral 7B и Llama 3.3 70B. Популярность предсказывалась через косинусное сходство между эмбеддингами фильмов и популярных топов.
Производительность LLM и настройка запросов
LLM оценивали с помощью парного и спискового ранжирования по метрикам Accuracy@1, Reciprocal Rank, NDCG@k и Recall@3. Лучшая производительность была у Llama 3.1 (405B) с максимально подробным запросом, особенно при включении наград актёров, что значительно повысило точность.
Выводы и ограничения
Модели меньшего размера хуже справлялись с комплексными запросами, а ограниченные метаданные (только жанр) были недостаточны. Временной разрыв между обучающими данными и релизами обеспечил отсутствие влияния пост-релизной информации.
Влияние на индустрию
Если метод подтвердит устойчивость, он сможет снизить зависимость от ретроспективных метрик и помочь редакторам получать ранние прогнозы интереса аудитории, расширяя возможности для новых релизов. LLM могут поддержать рекомендательные системы на этапе холодного старта и улучшить процесс обзора контента.
Перспективы
Хотя остаются проблемы с изменчивостью вкусов и способов доставки контента, использование LLM для предсказаний на основе метаданных открывает новые перспективы для стратегии контента в индустрии развлечений.
Switch Language
Read this article in English