Meta AI представила открытый PE-AV для мультимодального поиска
Узнайте, как PE-AV от Meta кодирует аудио, видео и текст в единую структуру.
Обзор PE-AV
Исследователи Meta представили Perception Encoder Audiovisual (PEAV) — передовой кодер для совместного понимания аудио и видео. Модель использует подход контрастного обучения на большом объеме данных, задействуя около 100 миллионов пар аудио-видео в сочетании с текстовыми подписями для изучения согласованных представлений в общей пространстве эмбеддингов.
От Perception Encoder к PE-AV
Perception Encoder (PE) служит основой проектной модели восприятия в Meta. Он включает серию кодеров для изображений, видео и аудио, достигая высоких результатов на множестве бенчмарков с использованием унифицированной предварительной подготовки контрастного обучения. PE демонстрирует превосходство над SigLIP2 в задачах обработки изображений и InternVideo2 в задачах обработки видео. Расширение до PEAV дополнительно улучшает соответствие аудио-видео-текста, что значительно укрепляет кросс-модальное понимание.
Архитектура: Отдельные башни и слияние
Архитектура PEAV состоит из нескольких специализированных кодеров:
- Видео-путь использует существующий кодер PE для RGB-кадров, а затем дополняется временным кодером видео.
- Аудио-путь задействует DAC VAE в качестве кодека, преобразующего сырые волны в дискретные аудиотокены с фиксированной частотой 40 миллисекунд.
Эти компоненты объединяются в кодер слияния аудио-видео, который изучает общее представление для обеих модальностей. Дополнительно кодер текстов позволяет проецировать текстовые запросы в специализированные пространства, распространяя возможности поиска по различным модальностям.
Дата-двигатель: Синтетические аудиовизуальные подписи в масштабе
Команда исследователей Meta разработала двухуровневый аудиовизуальный дата-двигатель, который синтезирует высококачественные подписи для неразмеченных клипов. На первом этапе используются слабые модели аудиоподписей и видеоподписей для ввода в большую языковую модель (LLM), создающую три типа подписей для каждого клипа. Эта схема способствует обучению начальной модели PEAV с использованием синтетического надзора. На втором этапе модель PEAV объединяется с декодером Модели Языка Восприятия для уточнения подписей, значительно улучшая соответствие аудиовизуальных компонентов.
Контрастивная цель по десяти парам модальностей
PEAV использует контрастивную утрату на основе сигмоида, действующую на аудио, видео, текст и их слияние. Процесс предварительного обучения модели задействует восемь контрастивных пар, охватывающих различные комбинации модальностей. В результате PEAV поддерживает интеграцию классификации, поиска и соответствия задач.
Эффективность в области аудио, речи, музыки и видео
PEAV продемонстрировала впечатляющие результаты на нескольких бенчмарках, показывая свои возможности в нулевом поиске и классификационных задачах. Выделяются следующие моменты:
- AudioCaps: улучшение поиска текста в аудио с 35.4 R@1 до 45.8 R@1.
- VGGSound: увеличение точности классификации с 36.0% до 47.1%.
- Поиск речи на задачах VCTK: точность достигла 85.6%.
- ActivityNet: повышение поиска текста в видео с 60.4 R@1 до 66.5 R@1.
- Kinetics 400: нулевое классификация видео улучшилась с 76.9% до 78.9%.
Заключительные замечания
В общем, PEAV соединяет аудио, видео и текстовые модальности через сложную архитектуру, использующую инновационные подходы к обработке данных и пошуку. Это развитие знаменует собой значительный шаг вперед в области мультимодального обучения и понимания мультимедиа.
Switch Language
Read this article in English