PAN: интерактивная мировая модель MBZUAI для длинных видеосимуляций по командам на естественном языке

Персистентная мировая модель для симуляции по действиям

Большинство текстово-видео моделей генерируют единичный клип и на этом завершают работу. PAN из Института фундаментальных моделей MBZUAI решает иную задачу: поддерживать внутреннее латентное состояние мира, обновлять его по входящим командам на естественном языке и декодировать обновления в короткие видеосегменты, показывающие последствия каждой команды. Цикл повторяется, что позволяет моделировать длинные горизонты времени.

Архитектура GLP: разделение динамики и визуализации

PAN реализует Generative Latent Prediction, GLP, разделяя то, что происходит в мире, и то, как это выглядит. Конвейер включает три этапа:

Визуальный энкодер преобразует кадры в латентное состояние мира.
Автогрессионный бэкбон латентной динамики на базе VLM предсказывает следующий латент по истории и текущему действию.
Видео диффузионный декодер восстанавливает короткий видеосегмент из предсказанного латента.

В PAN используются Qwen2.5-VL-7B-Instruct для визионной части и языкового бэкбона. Визионная башня токенизирует кадры в патчи и формирует структурированные эмбеддинги. Языковой бэкбон обрабатывает историю латентов и действий вместе с обучаемыми query токенами и выводит следующий латент в общем мультимодальном пространстве VLM.

Видео декодер адаптирован из Wan2.1-T2V-14B и обучается с flow matching целью, используя тысячу шагов денойзинга и Rectified Flow. Декодер учитывает и предсказанный латент, и текст действия через отдельные cross attention потоки для состояния мира и для текста действия.

Causal Swin DPM и скользящее окно для стабильных ролл-аутов

Последовательное связывание одношотовых видео моделей, когда условием служит только последний кадр, ведет к разрывам и быстрому ухудшению качества по мере удлинения последовательности. PAN решает эту проблему с помощью Causal Swin DPM, который добавляет чанковую причинную внимательность к процессу денойзинга в скользящем окне. Декодер работает на окне, содержащем два чанка кадров с разными уровнями шума. При денойзинге один чанк становится чистым и покидает окно, в то время как новый шумный чанк входит с другого конца. Чанковая причинная внимательность не позволяет поздним чанкам смотреть на будущие действия, чего они еще не видели, что сглаживает переходы и уменьшает накопление ошибок.

PAN также добавляет контролируемый шум в условный кадр вместо использования идеально резкого изображения. Это подавляет случайные пиксельные детали и заставляет модель фокусироваться на стабильной структуре, например на объектах и планировке сцены.

Двухэтапное обучение и крупный вычислительный стек

Обучение идет в два этапа. Сначала команда адаптирует Wan2.1-T2V-14B к архитектуре Causal Swin DPM и тренирует декодер в BFloat16 с AdamW, косинусной схемой обучения, градиентным клиппингом, FlashAttention3 и FlexAttention ядрами в гибридной шардированной DataParallel схеме на 960 NVIDIA H200 GPU.

На втором этапе замороженный Qwen2.5-VL-7B-Instruct бэкбон интегрируют с видеодекодером под GLP цель. VLM остается замороженным, а обучаются query эмбеддинги и декодер, чтобы предсказанные латенты и восстановленные видео были согласованы. Длинные контексты обрабатываются с помощью sequence parallelism и Ulysses стайла шардинга внимания. Раннее прекращение останавливает обучение после одной эпохи, когда сходится валидация, хотя в расписании предусмотрено до пяти эпох.

Данные собираются из публичных видеокорпусов, покрывающих повседневные активности, взаимодействия с объектами, природные сцены и мультиагентные сценарии. Длительные ролики сегментируют по переходам кадров, затем фильтруют статику или чрезмерную динамику, ролики плохого качества, сильные текстовые оверлеи и запись экрана. Клипам присваивают плотные темпорально обусловленные подписи, которые акцентируют движение и причинные события.

Метрики и результаты

Модель оценивали по точности симуляции действий, долгосрочной устойчивости и способности к симулятивному планированию против открытых и коммерческих бенчмарков, включая WAN 2.1/2.2, Cosmos 1/2, V JEPA 2, KLING, MiniMax Hailuo и Gen 3.

Основные показатели:

Точность симуляции действий: 70.3% для агента, 47% для окружения, суммарно 58.6%, лучший показатель среди open source моделей.
Долгосрочная прогнозная стабильность: Transition Smoothness 53.6% и Simulation Consistency 64.1%, превосходит базовые методы.
Симулятивное планирование: в агентной петле OpenAI-o3 PAN достигает 56.1% по шаговой симуляции, лучший результат среди открытых мировых моделей.

Значение PAN

PAN демонстрирует, как GLP архитектура на базе Qwen2.5-VL-7B и Wan2.1-T2V-14B с Causal Swin DPM может стать практической интерактивной мировой моделью. Модель поддерживает многшаговую симуляцию по естественным языковым командам, позволяет прокатывать контрфактические сценарии и служить внутренним симулятором для планирующих агентов. Документирование обучения, подготовки данных и метрик делает проект прозрачным и применимым за пределами демонстрационных примеров.