<НА ГЛАВНУЮ

LongCat Flash Omni — открытая 560B омни-модальная модель для реального времени аудио-видео взаимодействия

'Meituan выпустил LongCat Flash Omni — 560B открытая омни-модальная модель, активирующая ~27B параметров на токен и поддерживающая синхронное аудио-визуальное взаимодействие с 128K контекстом.'

Обзор

Команда LongCat из Meituan представила LongCat Flash Omni — открытая омни-модальная модель на 560 миллиардов параметров с Mixture of Experts (MoE), которая активирует примерно 27 миллиардов параметров на токен. Модель расширяет текстовую основу LongCat Flash для работы с изображениями, видео и аудио, сохраняя при этом длинный контекст (128K токенов) для разговора и понимания документов в едином стеке.

Архитектура и подключение модальностей

Ядро языковой модели осталось без изменений, к ней добавлены перцептуальные модули. Унифицированный энкодер LongCat ViT обрабатывает и изображения, и кадры видео, поэтому отдельной видеобашни не требуется. Аудио преобразуется в дискретные токены с помощью аудиоэнкодера и LongCat Audio Codec; тот же поток LLM может потреблять эти токены и генерировать речь, что обеспечивает двунаправленное аудио-визуальное взаимодействие в реальном времени.

Потоковая обработка и интервальное чередование признаков

Исследователи описывают покадровое (чанковое) чередование аудио- и видеофич: аудио-, видеофичи и метки времени упаковываются в 1-секундные сегменты. Видео по умолчанию сэмплируется с частотой 2 кадра в секунду, а затем частота корректируется в зависимости от длительности ролика — это стратегия, обусловленная длительностью (duration-conditioned sampling), а не зависящая от фаз речи. Такой подход снижает задержку и сохраняет пространственный контекст для задач GUI, OCR и видео-вопросов.

Учебная программа обучения

Обучение проходит по этапам. Сначала тренируется текстовая backbone LongCat Flash, обеспечивающая активацию в диапазоне 18.6B–31.3B параметров на токен (в среднем ~27B). Затем выполняется продолженное предобучение для текст-речь, затем мультимодальное продолженное предобучение с изображениями и видео, расширение контекста до 128K и, наконец, выравнивание с аудиоэнкодером.

Системный дизайн и модально-разделённый параллелизм

Так как энкодеры и LLM имеют разные вычислительные паттерны, Meituan использует модально-разделённый параллелизм. Визуальные и аудиоэнкодеры работают с гибридным шардированием и recomputation активаций, LLM использует pipeline, context и expert параллелизм. Компонент ModalityBridge выравнивает эмбеддинги и градиенты между модулями. По заявлению команды, мультимодальная SFT сохраняет более 90% пропускной способности по сравнению с чисто текстовым обучением — ключевой системный результат релиза.

Бенчмарки

LongCat Flash Omni набирает 61.4 на OmniBench, что выше, чем у Qwen 3 Omni Instruct (58.5) и Qwen 2.5 Omni (55.0), но ниже Gemini 2.5 Pro (66.8). В VideoMME модель достигает 78.2, что сопоставимо с GPT-4o и Gemini 2.5 Flash, а в VoiceBench показывает 88.7, немного выше GPT-4o Audio в той же таблице.

Выводы и значение релиза

LongCat Flash Omni демонстрирует практический путь к омни-модальному взаимодействию: высокоёмкая MoE-основа совместима с эффективным выводом благодаря shortcut-connected экспертам, унифицированный энкодер видео/изображений и потоковая аудиодорожка поддерживают синхронизированную декодировку по модальностям. Вместе с duration-conditioned сэмплингом и модально-разделённым параллелизмом это делает реальное время "any-to-any" взаимодействие выполнимым, сохраняя при этом длинный контекст и конкурентоспособные показатели на бенчмарках.

Где посмотреть

Код, веса модели и документация доступны в репозитории проекта на GitHub, где также размещены бумаги и ноутбуки для воспроизведения и исследований.

🇬🇧

Switch Language

Read this article in English

Switch to English