Google DeepMind представила Gemini Robotics On-Device: локальная AI-модель для реального времени и управления роботами без облака

Локальный AI для продвинутой робототехники

Google DeepMind анонсировала Gemini Robotics On-Device — компактную локальную версию своей мощной модели vision-language-action (VLA). Эта технология позволяет роботам работать с высоким уровнем интеллекта напрямую на устройстве, без постоянной связи с облаком, сохраняя гибкость и точность, характерные для семейства моделей Gemini.

Преодоление зависимости от облака

Ранее мощные VLA-модели требовали облачной обработки из-за высоких вычислительных и памятьевых затрат. Gemini Robotics On-Device меняет ситуацию, полностью работая на встроенных GPU роботов. Это особенно важно для сценариев с низкой задержкой и ограниченной пропускной способностью, таких как дома, больницы и производственные участки.

Основные возможности модели

Модель сохраняет ключевые функции Gemini Robotics: понимание человеческих команд, обработку мультимодальных данных (визуальных и текстовых) и генерацию точных моторных действий в реальном времени. Она эффективно обучается, требуя всего 50–100 примеров для освоения новых навыков, что делает её удобной для применения в различных условиях.

Ключевые особенности

Полностью локальное выполнение: работает на GPU робота без зависимости от интернета.
Двурукая ловкость: способна выполнять сложные координированные задачи обеими руками благодаря предобучению на наборе данных ALOHA и дообучению.
Совместимость с разными роботами: обобщается на различные платформы, включая гуманоидов и промышленные двухрукие манипуляторы.
Обучение по нескольким примерам: быстро осваивает новые задачи с минимальным количеством демонстраций, сокращая время разработки.

Реальные применения

Gemini Robotics On-Device обеспечивает тонкое управление при выполнении задач, таких как складывание одежды, сборка деталей и открытие банок, обеспечивая мгновенную обратную связь и минимальную задержку. Это критично для устройств на периферии сети, где связь нестабильна или важна конфиденциальность. Возможные области применения:

Домашние помощники для повседневных дел
Медицинские роботы для реабилитации и ухода за пожилыми
Промышленные автоматизированные сборочные линии

Инструменты для разработчиков и поддержка симуляции

DeepMind выпустила SDK Gemini Robotics для тестирования, настройки и интеграции модели. SDK поддерживает создание тренировочных пайплайнов для конкретных задач и совместим с разными типами роботов и камер. Также доступна оценка в open-source физическом симуляторе MuJoCo с новыми бенчмарками для двурукой ловкости.

Развитие локального воплощённого AI

Этот релиз объединяет восприятие, рассуждение и действие в физических условиях, приближая фундаментальные исследования AI к автономным роботам. Оптимизация вычислительных графов, сжатие моделей и архитектурные решения для встроенных GPU решают проблемы задержки и облачной зависимости старших моделей, таких как Gemini 1.5.

Влияние на робототехнику и внедрение AI

Отделение мощных AI-моделей от облака открывает путь к масштабируемой, защищённой конфиденциальностью робототехнике, поддерживая тренд edge AI — перенос вычислений ближе к источникам данных. Это повышает безопасность, быстродействие и надёжность роботов в условиях с жёсткими требованиями по задержке и приватности. Расширение доступности инструментов DeepMind для симуляции и бенчмарков помогает исследователям по всему миру создавать надёжные системы реального времени.

Подробности доступны в официальной статье и технической документации. Следите за новостями в Twitter, присоединяйтесь к ML-сообществу на Reddit и подписывайтесь на рассылку.