ERNIE-4.5 'Thinking' от Baidu: компактное многомодальное рассуждение на уровне 3B

Обзор

Baidu представила ERNIE-4.5-VL-28B-A3B-Thinking, модель vision-language в составе открытой семейства ERNIE-4.5, оптимизированную для понимания документов, графиков и видео при поддержании эффективного бюджета активных параметров на уровне класса 3B. Релиз ориентирован на команды, которым нужен сильный многомодальный reasoning без затрат, характерных для крупных эталонных моделей.

Архитектура и этапы обучения

ERNIE-4.5-VL-28B-A3B-Thinking использует гетерогенную архитектуру Mixture of Experts. Модель принадлежит ветке 28B-VL с примерно 30B общих параметров, однако благодаря A3B-маршрутизации активируется лишь около 3B параметров на токен. Такой подход даёт профиль вычислений и памяти, характерный для моделей 3B, сохраняя при этом большой пул параметров для reasoning.

Модель проходит дополнительный этап mid training, сфокусированный на визуально-языковом reasoning. Этот этап усиливает представления и семантическое выравнивание между визуальной и языковой модальностями, что важно для плотного текста в документах и тонких структур на графиках. В обучение также включены мультимодальные методы reinforcement learning на верифицируемых задачах с применением GSPO и IcePop и динамической выборки по сложности, что стабилизирует обучение MoE и акцентирует внимание на сложных примерах.

Как работает Thinking with Images и использование инструментов

Thinking with Images позволяет модели итеративно увеличивать фрагменты изображения, анализировать кропы и интегрировать локальные наблюдения в итоговый ответ. Это обеспечивает пошаговую проверку документов и графиков вместо одношагового анализа.

Функция использования инструментов дополняет внутреннее reasoning вызовами внешних сервисов, например, image search, когда внутренних знаний недостаточно. Обе функции доступны через парсер reasoning и парсер вызовов инструментов при деплое, что позволяет строить конвейеры, комбинирующие внутренний мультимодальный анализ и внешние запросы.

Ключевые возможности

Официально модель поддерживает визуальное reasoning, STEM reasoning, визуальную локализацию, Thinking with Images, использование инструментов и понимание видео. Она демонстрирует силу на аналитических графиках, задачах по схемотехнике, визуальной привязке с JSON-bounding-boxes и локализации сегментов видео с отметками времени.

Ветки ERNIE-4.5-VL поддерживают режимы thinking и non-thinking. Режим thinking улучшает задачи, сфокусированные на рассуждении, сохраняя высокий уровень восприятия.

Производительность и позиционирование

По внутренним бенчмаркам ERNIE-4.5-VL-28B-A3B-Thinking показывает конкурентные или лучшие результаты по сравнению с Qwen-2.5-VL-7B и Qwen-2.5-VL-32B на многих задачах, при этом активируя меньше параметров. Baidu описывает variant Thinking как близкий по эффективности к флагманским моделям индустрии при меньшем рабочем бюджете параметров.

Деплой, лицензия и дообучение

Модель распространяется под лицензией Apache License 2.0 и поддерживает деплой через transformers, vLLM и FastDeploy. Для коммерческих мультимодальных приложений модель можно дообучать с помощью ERNIEKit используя SFT, LoRA и DPO.

Страница модели на Hugging Face: https://huggingface.co/baidu/ERNIE-4.5-VL-28B-A3B-Thinking

Кому подойдет

Модель пригодится командам, которым требуется точный мультимодальный анализ документов, графиков и видео при ограниченном бюджете активных параметров на уровне 3B. Она также полезна для сценариев с вызовами внешних инструментов и итеративным визуальным reasoning.