<НА ГЛАВНУЮ

Meta AI представила открытый PE-AV для мультимодального поиска

Узнайте, как PE-AV от Meta кодирует аудио, видео и текст в единую структуру.

Обзор PE-AV

Исследователи Meta представили Perception Encoder Audiovisual (PEAV) — передовой кодер для совместного понимания аудио и видео. Модель использует подход контрастного обучения на большом объеме данных, задействуя около 100 миллионов пар аудио-видео в сочетании с текстовыми подписями для изучения согласованных представлений в общей пространстве эмбеддингов.

От Perception Encoder к PE-AV

Perception Encoder (PE) служит основой проектной модели восприятия в Meta. Он включает серию кодеров для изображений, видео и аудио, достигая высоких результатов на множестве бенчмарков с использованием унифицированной предварительной подготовки контрастного обучения. PE демонстрирует превосходство над SigLIP2 в задачах обработки изображений и InternVideo2 в задачах обработки видео. Расширение до PEAV дополнительно улучшает соответствие аудио-видео-текста, что значительно укрепляет кросс-модальное понимание.

Архитектура: Отдельные башни и слияние

Архитектура PEAV состоит из нескольких специализированных кодеров:

  • Видео-путь использует существующий кодер PE для RGB-кадров, а затем дополняется временным кодером видео.
  • Аудио-путь задействует DAC VAE в качестве кодека, преобразующего сырые волны в дискретные аудиотокены с фиксированной частотой 40 миллисекунд.

Эти компоненты объединяются в кодер слияния аудио-видео, который изучает общее представление для обеих модальностей. Дополнительно кодер текстов позволяет проецировать текстовые запросы в специализированные пространства, распространяя возможности поиска по различным модальностям.

Дата-двигатель: Синтетические аудиовизуальные подписи в масштабе

Команда исследователей Meta разработала двухуровневый аудиовизуальный дата-двигатель, который синтезирует высококачественные подписи для неразмеченных клипов. На первом этапе используются слабые модели аудиоподписей и видеоподписей для ввода в большую языковую модель (LLM), создающую три типа подписей для каждого клипа. Эта схема способствует обучению начальной модели PEAV с использованием синтетического надзора. На втором этапе модель PEAV объединяется с декодером Модели Языка Восприятия для уточнения подписей, значительно улучшая соответствие аудиовизуальных компонентов.

Контрастивная цель по десяти парам модальностей

PEAV использует контрастивную утрату на основе сигмоида, действующую на аудио, видео, текст и их слияние. Процесс предварительного обучения модели задействует восемь контрастивных пар, охватывающих различные комбинации модальностей. В результате PEAV поддерживает интеграцию классификации, поиска и соответствия задач.

Эффективность в области аудио, речи, музыки и видео

PEAV продемонстрировала впечатляющие результаты на нескольких бенчмарках, показывая свои возможности в нулевом поиске и классификационных задачах. Выделяются следующие моменты:

  • AudioCaps: улучшение поиска текста в аудио с 35.4 R@1 до 45.8 R@1.
  • VGGSound: увеличение точности классификации с 36.0% до 47.1%.
  • Поиск речи на задачах VCTK: точность достигла 85.6%.
  • ActivityNet: повышение поиска текста в видео с 60.4 R@1 до 66.5 R@1.
  • Kinetics 400: нулевое классификация видео улучшилась с 76.9% до 78.9%.

Заключительные замечания

В общем, PEAV соединяет аудио, видео и текстовые модальности через сложную архитектуру, использующую инновационные подходы к обработке данных и пошуку. Это развитие знаменует собой значительный шаг вперед в области мультимодального обучения и понимания мультимедиа.

🇬🇧

Switch Language

Read this article in English

Switch to English