Gemini Robotics 1.5: стек ER↔VLA от DeepMind выводит агентов-роботов в реальный мир

Как устроен стек

DeepMind разделяет воплощенный интеллект на два взаимодействующих компонента, чтобы решать задачи с долгой горизонтом в реальном мире. Gemini Robotics-ER 1.5 отвечает за высокоуровневое воплощенное рассуждение: пространственное понимание, планирование, оценку прогресса и успеха, прицельную привязку к точкам сцены и вызов внешних инструментов. Gemini Robotics 1.5 (VLA) отвечает за низкоуровневое визуо-моторное исполнение и выдает явные следы рассуждений во время выполнения, чтобы дробить долгие задачи на короткие навыки.

Gemini Robotics-ER 1.5: модуль рассудка

ER 1.5 — это мультимодальный планировщик, который получает изображения и видео (опционально аудио), выполняет привязку ссылок через 2D-точки, отслеживает прогресс, детектирует успех и может обращаться к внешним инструментам или API для получения ограничений перед формулировкой подзадач. Возможность вызывать внешние инструменты позволяет учитывать внешнюю информацию, например местные правила. ER 1.5 доступен через Gemini API в Google AI Studio.

Gemini Robotics 1.5 (VLA): исполнитель

Модель VLA сосредоточена на управлении в замкнутом цикле. Она переводит инструкции и перцепты в моторные команды и генерирует промежуточные следы рассуждений во время выполнения. Эти следы помогают лучше декомпозировать долгие задачи и корректировать план по ходу. На начальном этапе доступ к VLA ограничен для выбранных партнеров.

Почему разделять когницию и контроль

Конечные VLAs часто испытывают трудности с надежным планированием, проверкой успеха и переносом между разными платформами. Разделение ролей — ER 1.5 для рассуждений и VLA для исполнения — повышает интерпретируемость благодаря видимым внутренним следам, улучшает восстановление после ошибок и повышает надежность на длинных горизонтах. Модульность также упрощает обновление или замену компонентов.

Motion Transfer между платформами

Ключевой вклад Robotics 1.5 — Motion Transfer. Идея в том, чтобы обучить VLA на едином представлении движения, собранном из разнородных данных роботов — например ALOHA, би-рукой Franka и Apptronik Apollo. MT позволяет навыкам, выученным на одной платформе, применяться нулевым или малым количеством адаптации на другой, снижая сбор данных для каждой платформы и сокращая разрыв сим-реал за счет переиспользования кросс-эмбедиментных приёмов.

Количественные результаты и испытания на железе

Команда DeepMind приводит управляемые A/B-сравнения на реальном оборудовании и в выровненных сценах MuJoCo. Отмечены преимущества по точному следованию инструкциям, обобщению действий и визуальному и предметному обобщению на трех платформах по сравнению с предыдущими базовыми версиями Gemini Robotics. Motion Transfer даёт измеримый прирост в прогрессе и успехе при переносах между роботами (например, Franka→ALOHA, ALOHA→Apollo). Включение мыслительных следов у VLA повышает долю завершения длинных задач и стабилизирует промежуточные корректировки планов. Сочетание ER 1.5 и VLA значительно улучшает прогресс в многошаговых задачах по сравнению с базой Gemini-2.5-Flash.

Безопасность, оценка и развёртывание

DeepMind применяет многослойные меры безопасности: выравнивание диалога и планирования с политиками, безопасная привязка обьектов (чтобы не указывать на опасные предметы), низкоуровневые физические ограничения и расширенные наборы тестов вроде ASIMOV и автоматического red-teaming для поиска краевых сбоев. Цель — обнаружить вымышленные возможности взаимодействия или несуществующие объекты до активации двигателей. ER 1.5 доступен через Gemini API с документацией и preview-настройками; VLA пока открыт для избранных партнеров по ожиданию.

Почему это важно

Gemini Robotics 1.5 формализует разделение рассуждения и исполнения, внедряет Motion Transfer для переиспользования данных между разнородными платформами и демонстрирует интерфейс рассуждений, доступный разработчикам. Для команд, создающих реальных агентов, это снижает нагрузку на сбор данных по каждой платформе, повышает надежность в долгих сценариях и делает безопасность ключевым аспектом разработки.