ByteDance представляет Seed1.5-VL: прорывная модель для мульти-модального искусственного интеллекта
ByteDance представила Seed1.5-VL — мощную модель vision-language, которая достигает лучших результатов на многих бенчмарках и продвигает мульти-модальное понимание и рассуждение в ИИ.
Роль моделей Vision-Language в ИИ
Модели Vision-Language (VLM) стали ключевыми для создания ИИ-систем, которые понимают и взаимодействуют как в цифровой, так и в реальной среде. Объединяя визуальные и текстовые данные, такие модели способствуют прогрессу в мульти-модальном рассуждении, редактировании изображений, управлении GUI, робототехнике и влияют на сферы образования и здравоохранения. Однако VLM все еще уступают человеку в сложных задачах, таких как 3D-рассуждения, подсчет объектов, творческая визуальная интерпретация и интерактивные игры. Ограниченное количество разнообразных мульти-модальных датасетов и сложность их обучения и оценки остаются серьезными вызовами.
Seed1.5-VL: архитектура и возможности
Исследователи ByteDance разработали Seed1.5-VL — компактную, но мощную модель, сочетающую 532-миллионный визуальный энкодер и 20-миллиардную Mixture-of-Experts LLM. Несмотря на эффективность, Seed1.5-VL занимает лидирующие позиции в 38 из 60 публичных VLM-бенчмарков, особенно в задачах управления GUI, понимания видео и визуального рассуждения. Модель обучена на триллионах мульти-модальных токенов с помощью продвинутых методов синтеза данных и пост-тренировки с использованием обратной связи от людей. Инновации в обучении, такие как гибридный параллелизм и перераспределение токенов визуальных данных, повышают производительность. Это делает модель подходящей для реальных интерактивных приложений, например чат-ботов.
Технические особенности Seed1.5-VL
Архитектура включает визуальный энкодер Seed-ViT, MLP-адаптер и LLM. Seed-ViT поддерживает нативное разрешение изображений с помощью 2D rotary positional embeddings (RoPE) и обрабатывает изображения, разделяя их на патчи 14×14, после чего применяются усредняющий пуллинг и MLP.
Для видео используется метод Dynamic Frame-Resolution Sampling, который адаптирует частоту кадров и разрешение в зависимости от сложности контента, балансируя эффективность и детализацию. Это обеспечивает эффективное пространственно-временное понимание в рамках ограниченного количества токенов и позволяет полноценно представлять видео разной длины и сложности.
Обширные и разнообразные данные для обучения
Для предобучения были подготовлены 3 триллиона качественных токенов из разных областей. Пары изображений и текста с веба отфильтровали по CLIP-оценкам, размеру, соотношению сторон и удалили дубликаты для уменьшения шума. Стратегии выборки и дублирования по доменам позволили увеличить количество редких визуальных концепций, решая проблему дисбаланса классов.
Специализированные датасеты улучшили возможности в OCR с аннотированными и синтетическими изображениями с текстом, графиками и таблицами. Для задач объектной локализации и подсчета применялись ограничивающие рамки, точки и автоматически размеченные данные из интернета. Дополнительно учитывались 3D-пространственные задачи с использованием данных глубины и видеоаналитика через многофреймовое описание, вопросы-ответы и временную локализацию для анализа динамического контента.
Оценка и результаты
Seed-ViT, несмотря на меньший размер, по точности и надежности на задачах zero-shot классификации изображений, таких как ImageNet-A и ObjectNet, не уступает и превосходит крупные модели InternVL-C и EVA-CLIP.
Seed1.5-VL продемонстрировал высокие способности в мульти-модальном рассуждении, общем визуальном вопросно-ответном понимании, работе с документами и локализации. Модель достигла передовых результатов в сложных задачах рассуждения, подсчета и интерпретации диаграмм. Режим "мышления" с длинными цепочками рассуждений дополнительно улучшает производительность, показывая высокий уровень визуального понимания и обобщения.
Перспективы развития
Seed1.5-VL — компактная и мощная модель, которая конкурирует и превосходит такие решения, как OpenAI CUA и Claude 3.7 в различных задачах. Она отлично справляется с OCR, интерпретацией диаграмм, 3D-пониманием, анализом видео и агентными задачами, включая управление GUI и игры. Исследование подробно описывает архитектуру, pipeline данных и методы обучения, а также указывает на будущие направления, связанные с улучшением использования инструментов и визуального рассуждения.
Для дополнительной информации ознакомьтесь с публикацией и страницей проекта. Следите за исследователями в Twitter и присоединяйтесь к сообществу ML SubReddit с более чем 90 тысячами участников.
Switch Language
Read this article in English