Google DeepMind представила Gemini Robotics On-Device: локальная AI-модель для реального времени и управления роботами без облака
Google DeepMind выпустила Gemini Robotics On-Device — локальную AI-модель, позволяющую роботам выполнять сложные задачи в реальном времени без подключения к облаку, открывая новые возможности для edge-робототехники.
Локальный AI для продвинутой робототехники
Google DeepMind анонсировала Gemini Robotics On-Device — компактную локальную версию своей мощной модели vision-language-action (VLA). Эта технология позволяет роботам работать с высоким уровнем интеллекта напрямую на устройстве, без постоянной связи с облаком, сохраняя гибкость и точность, характерные для семейства моделей Gemini.
Преодоление зависимости от облака
Ранее мощные VLA-модели требовали облачной обработки из-за высоких вычислительных и памятьевых затрат. Gemini Robotics On-Device меняет ситуацию, полностью работая на встроенных GPU роботов. Это особенно важно для сценариев с низкой задержкой и ограниченной пропускной способностью, таких как дома, больницы и производственные участки.
Основные возможности модели
Модель сохраняет ключевые функции Gemini Robotics: понимание человеческих команд, обработку мультимодальных данных (визуальных и текстовых) и генерацию точных моторных действий в реальном времени. Она эффективно обучается, требуя всего 50–100 примеров для освоения новых навыков, что делает её удобной для применения в различных условиях.
Ключевые особенности
- Полностью локальное выполнение: работает на GPU робота без зависимости от интернета.
- Двурукая ловкость: способна выполнять сложные координированные задачи обеими руками благодаря предобучению на наборе данных ALOHA и дообучению.
- Совместимость с разными роботами: обобщается на различные платформы, включая гуманоидов и промышленные двухрукие манипуляторы.
- Обучение по нескольким примерам: быстро осваивает новые задачи с минимальным количеством демонстраций, сокращая время разработки.
Реальные применения
Gemini Robotics On-Device обеспечивает тонкое управление при выполнении задач, таких как складывание одежды, сборка деталей и открытие банок, обеспечивая мгновенную обратную связь и минимальную задержку. Это критично для устройств на периферии сети, где связь нестабильна или важна конфиденциальность. Возможные области применения:
- Домашние помощники для повседневных дел
- Медицинские роботы для реабилитации и ухода за пожилыми
- Промышленные автоматизированные сборочные линии
Инструменты для разработчиков и поддержка симуляции
DeepMind выпустила SDK Gemini Robotics для тестирования, настройки и интеграции модели. SDK поддерживает создание тренировочных пайплайнов для конкретных задач и совместим с разными типами роботов и камер. Также доступна оценка в open-source физическом симуляторе MuJoCo с новыми бенчмарками для двурукой ловкости.
Развитие локального воплощённого AI
Этот релиз объединяет восприятие, рассуждение и действие в физических условиях, приближая фундаментальные исследования AI к автономным роботам. Оптимизация вычислительных графов, сжатие моделей и архитектурные решения для встроенных GPU решают проблемы задержки и облачной зависимости старших моделей, таких как Gemini 1.5.
Влияние на робототехнику и внедрение AI
Отделение мощных AI-моделей от облака открывает путь к масштабируемой, защищённой конфиденциальностью робототехнике, поддерживая тренд edge AI — перенос вычислений ближе к источникам данных. Это повышает безопасность, быстродействие и надёжность роботов в условиях с жёсткими требованиями по задержке и приватности. Расширение доступности инструментов DeepMind для симуляции и бенчмарков помогает исследователям по всему миру создавать надёжные системы реального времени.
Подробности доступны в официальной статье и технической документации. Следите за новостями в Twitter, присоединяйтесь к ML-сообществу на Reddit и подписывайтесь на рассылку.
Switch Language
Read this article in English