VeBrain: Революция в робототехнике с объединённым мультимодальным ИИ для зрения и управления

Связь восприятия и действия в робототехнике

Мультимодальные большие языковые модели (MLLM) открывают новые возможности для роботов — таких как роботизированные руки и шагающие роботы — воспринимать окружающую среду, понимать сложные ситуации и выполнять значимые действия. Внедрение такого интеллекта в физические машины продвигает робототехнику к автономным системам, которые не только видят и описывают, но и планируют и ориентируются в пространстве с учётом контекста.

Проблемы объединения зрения, рассуждений и управления

Несмотря на достижения MLLM, остаётся ключевая задача — эффективно соединить зрение, рассуждения и физическое взаимодействие в единую систему. Модели, обученные понимать изображения или текст, обычно испытывают сложности с управлением роботами в реальных условиях. Понимание сцены кардинально отличается от действий в ней. Мультимодальное восприятие ориентировано на анализ, тогда как управление требует точных и оперативных решений на основе этого анализа. Разрыв между этими аспектами ограничивает создание агентов, способных одновременно наблюдать, рассуждать и действовать в разнообразных ситуациях.

Ограничения существующих моделей Vision-Language-Action

Ранее разработанные модели управления роботами опирались на vision-language-action (VLA), обучавшиеся на больших наборах данных для преобразования визуальных наблюдений в управляющие команды. Некоторые сохраняли способность рассуждать, переводя команды в текстовые действия, но часто теряли точность и адаптивность во время выполнения. Модели VLA снижают эффективность при длительных или разнообразных задачах и плохо обобщаются на разные типы роботов и среды из-за разрыва между пониманием изображения и моторным управлением.

Представляем VeBrain: Унифицированная мультимодальная система

Исследователи из Shanghai AI Laboratory, Университета Цинхуа и SenseTime Research совместно с другими институтами разработали VeBrain (Visual Embodied Brain) — рамочную систему, которая переосмысливает управление роботами как текстовые задачи в 2D визуальном пространстве, что согласуется с работой MLLM. VeBrain объединяет мультимодальное восприятие, пространственное рассуждение и управление роботами в единую архитектуру. Специальный роботизированный адаптер преобразует выводы MLLM в исполнимые политики движения, позволяя одной модели управлять восприятием, рассуждениями и контролем.

Для обучения используется высококачественный набор инструкций VeBrain-600k, содержащий более 600 000 примеров мультимодальных задач, включая движения робота и шаги рассуждений.

Архитектура и компоненты роботизированного адаптера

VeBrain основан на архитектуре Qwen2.5-VL, дополненной возможностями управления в реальном мире. Роботизированный адаптер включает четыре ключевых модуля:

Трекер точек: обновляет 2D ключевые точки при изменении обзора робота для точного наведения.
Контроллер движения: преобразует 2D ключевые точки в 3D движения с использованием изображения и карт глубины.
Исполнитель навыков: сопоставляет предсказанные действия, такие как "повернуться" или "схватить", с предварительно обученными навыками робота.
Модуль динамического переключения: отслеживает сбои и аномалии, при необходимости возвращая управление MLLM.

Эти компоненты образуют замкнутую систему, которая принимает решения, выполняет действия и самокорректируется, что позволяет роботам эффективно работать в сложных и разнообразных условиях.

Результаты тестирования

VeBrain протестирован на 13 мультимодальных и 5 пространственных бенчмарках, показав значительные улучшения по сравнению с предыдущими моделями. Он превзошёл Qwen2.5-VL на 5,6% в MMVet, получил 101,5 по метрике CIDEr в ScanQA и 83,7 в MMBench. На бенчмарке VSI средний результат составил 39,9 против 35,9 у Qwen2.5-VL.

В робототехнических задачах VeBrain достиг успеха в 86,4% испытаний с семиногими роботами, значительно опередив модели VLA и π0, которые получили 32,1% и 31,4% соответственно. В задачах с роботизированной рукой показатель успеха составил 74,3%, превзойдя конкурентов на 80%. Эти результаты демонстрируют способность VeBrain надёжно справляться с длительными и пространственно сложными задачами управления.

Прогресс в области воплощённого ИИ

VeBrain переосмысливает управление роботами как задачу на языке, объединяя высокоуровневое рассуждение с низкоуровневыми действиями. Этот подход преодолевает разрыв между визуальным пониманием и физическим исполнением, предлагая функциональное и масштабируемое решение. Благодаря продуманной архитектуре и впечатляющим результатам VeBrain знаменует важный шаг к созданию единой интеллектуальной робототехнической системы, способной автономно работать в различных задачах и условиях.

Для подробностей ознакомьтесь с публикацией и репозиторием на GitHub. Следите за новостями в Twitter, присоединяйтесь к 99k+ подписчиков на ML SubReddit и подпишитесь на рассылку.