Meta AI представила открытый PE-AV для мультимодального поиска

Обзор PE-AV

Исследователи Meta представили Perception Encoder Audiovisual (PE_AV) — передовой кодер для совместного понимания аудио и видео. Модель использует подход контрастного обучения на большом объеме данных, задействуя около 100 миллионов пар аудио-видео в сочетании с текстовыми подписями для изучения согласованных представлений в общей пространстве эмбеддингов.

От Perception Encoder к PE-AV

Perception Encoder (PE) служит основой проектной модели восприятия в Meta. Он включает серию кодеров для изображений, видео и аудио, достигая высоких результатов на множестве бенчмарков с использованием унифицированной предварительной подготовки контрастного обучения. PE демонстрирует превосходство над SigLIP2 в задачах обработки изображений и InternVideo2 в задачах обработки видео. Расширение до PE_AV дополнительно улучшает соответствие аудио-видео-текста, что значительно укрепляет кросс-модальное понимание.

Архитектура: Отдельные башни и слияние

Архитектура PE_AV состоит из нескольких специализированных кодеров:

Видео-путь использует существующий кодер PE для RGB-кадров, а затем дополняется временным кодером видео.
Аудио-путь задействует DAC VAE в качестве кодека, преобразующего сырые волны в дискретные аудиотокены с фиксированной частотой 40 миллисекунд.

Эти компоненты объединяются в кодер слияния аудио-видео, который изучает общее представление для обеих модальностей. Дополнительно кодер текстов позволяет проецировать текстовые запросы в специализированные пространства, распространяя возможности поиска по различным модальностям.

Дата-двигатель: Синтетические аудиовизуальные подписи в масштабе

Команда исследователей Meta разработала двухуровневый аудиовизуальный дата-двигатель, который синтезирует высококачественные подписи для неразмеченных клипов. На первом этапе используются слабые модели аудиоподписей и видеоподписей для ввода в большую языковую модель (LLM), создающую три типа подписей для каждого клипа. Эта схема способствует обучению начальной модели PE_AV с использованием синтетического надзора. На втором этапе модель PE_AV объединяется с декодером Модели Языка Восприятия для уточнения подписей, значительно улучшая соответствие аудиовизуальных компонентов.

Контрастивная цель по десяти парам модальностей

PE_AV использует контрастивную утрату на основе сигмоида, действующую на аудио, видео, текст и их слияние. Процесс предварительного обучения модели задействует восемь контрастивных пар, охватывающих различные комбинации модальностей. В результате PE_AV поддерживает интеграцию классификации, поиска и соответствия задач.

Эффективность в области аудио, речи, музыки и видео

PE_AV продемонстрировала впечатляющие результаты на нескольких бенчмарках, показывая свои возможности в нулевом поиске и классификационных задачах. Выделяются следующие моменты:

AudioCaps: улучшение поиска текста в аудио с 35.4 R@1 до 45.8 R@1.
VGGSound: увеличение точности классификации с 36.0% до 47.1%.
Поиск речи на задачах VCTK: точность достигла 85.6%.
ActivityNet: повышение поиска текста в видео с 60.4 R@1 до 66.5 R@1.
Kinetics 400: нулевое классификация видео улучшилась с 76.9% до 78.9%.

Заключительные замечания

В общем, PE_AV соединяет аудио, видео и текстовые модальности через сложную архитектуру, использующую инновационные подходы к обработке данных и пошуку. Это развитие знаменует собой значительный шаг вперед в области мультимодального обучения и понимания мультимедиа.