FOFPred от Salesforce AI: Прогрессивное Устройство Управления Роботом

FOFPred: Прорыв в Прогнозировании Оптического Потока

Команда науки Salesforce AI представляет FOFPred, новаторский фреймворк, который интегрирует большие языковые модели видения с диффузионными трансформерами для надежного прогнозирования будущего оптического потока. Принимая одно или несколько изображений вместе с инструкциями на естественном языке, такими как «перемести бутылку справа налево», FOFPred предсказывает четыре будущих кадра оптического потока, которые описывают движение пикселей со временем.

Понимание Будущего Оптического Потока

Оптический поток обозначает смещение пикселей между кадрами, однако FOFPred фокусируется именно на прогнозировании будущего оптического потока. Этот подход предоставляет компактное представление для движения, идеальное для политик управления роботами и в качестве входных данных для видео диффузионных моделей. Подчеркивая движение вместо статического изображения, FOFPred упрощает распределение вывода без необходимости моделирования текстур, тем самым оптимизируя планирование движения.

Унификация Моделей Языка Видения и Диффузионных Трансформаций

Используя унифицированную архитектуру, FOFPred включает:

Qwen2.5-VL для кодирования языка и изображения.
Flux.1 VAE для кодирования латентных изображений.
DiT, диффузионный трансформер в стиле OmniGen, который генерирует латентные последовательности будущего потока.

Только DiT и MLP проекторы обучаются, а веса Qwen2.5-VL и Flux.1 остаются замороженными для использования предыдущей предобученной информации по редактированию изображений и возможностями многомодального рассуждения. Моделирование временных данных улучшено через кодирование пространственно-временных позиций, что обеспечивает эффективные механизмы внимания без добавления дополнительных параметров.

Обучение на Шумных Видео

Обучающая база включает 500,000 пар видео и подписей, взятых из наборов данных Something Something V2 и EgoDex. FOFPred использует концепцию соответствия потока от начала до конца, с такими параметрами, как управление без классификаторов для улучшения надежности. дополнительно используются относительные оптические потоки для создания надежных целевых значений тренировки:

Вычисляется плотный оптический поток.
Оценивается и вычитается движение камеры.
Сохраняются только сегменты с заметным движением для обучения.

Продвижение в Управлении Роботами

Первое применение FOFPred связано с управлением роботами, где он дообучается с использованием данных видеозаписей роботов для прогнозирования будущего потока с различных выводов камеры. В сочетании с политической сетью диффузии, FOFPred демонстрирует впечатляющие показатели на проверках:

CALVIN ABCD: Средняя длина задач 4.48.
RoboTwin 2.0: Средний показатель успешности 68.6%.

Улучшение Генерации Видео По Тексту

В задачах генерации видео по тексту, FOFPred улучшает управление движением по мере интеграции с Go with the Flow. Эта комбинация приводит к значительным улучшениям показателей, таких как SSIM и PSNR против эталонных методов.

Ключевые Выводы

FOFPred инновационно предсказывает будущие оптические потоки, позволяя компактное представление движения для критических приложений.
Использование унифицированной архитектуры VLM Diffusion способствует эффективному обучению на основе мощных наборов данных.
В области манипуляции роботами FOFPred демонстрирует выдающиеся результаты по различным проверкам, подтверждая свою практическую полезность в робототехнике и задачах синтеза движения.