SIMA 2 от DeepMind: агент на базе Gemini для сложных 3D‑миров

Что представляет собой SIMA 2

SIMA 2 (Scalable Instructable Multiworld Agent) от DeepMind — это универсальный воплощённый агент для работы в сложных 3D‑игровых мирах. Новая версия сохраняет интерфейс взаимодействия через пиксели и виртуальную клавиатуру с мышью, но заменяет политику управления ядром на модель Gemini, что позволяет агенту формировать внутренние планы, объяснять намерения и обучаться через self‑play в разных средах.

От SIMA 1 к SIMA 2

SIMA 1 освоил более 600 языковых навыков, таких как 'turn left', 'climb the ladder' и 'open the map', управляя коммерческими играми исключительно с экрана и виртуальных вводов, без доступа к внутренним данным игр. На основном бенчмарке SIMA 1 показал примерно 31% успешного выполнения задач, тогда как люди достигали около 71%.

SIMA 2 сохраняет тот же воплощённый интерфейс, но использует в центре Gemini. По сообщениям, в роли движка рассуждений применяется Gemini 2.5 Flash Lite. Агент теперь не просто переводит пиксели в действия: он выводит цель высокого уровня, планирует в языке и исполняет последовательности действий через виртуальные вводы. DeepMind называет это переходом от следования инструкциям к интерактивному игровому компаньону.

Gemini в управляющем цикле

Архитектура SIMA 2 ставит Gemini в центр агента. Модель получает визуальные наблюдения и инструкции от пользователя, выводит цель и генерирует действия, отправляемые через виртуальную клавиатуру и мышь. Обучение использует смесь видео с демонстрациями людей и меток, созданных самой моделью Gemini. Такая схема выравнивает внутренние рассуждения агента с человеческими намерениями и модельными описаниями поведения.

Практическое преимущество — интерпретируемость: SIMA 2 может объяснить свои намерения, перечислить шаги выполнения, ответить на вопросы о текущей цели и показать прозрачную цепочку рассуждений о среде.

Обобщение и результаты

На основном наборе задач SIMA 2 примерно удваивает результат SIMA 1 — с ~31% до ~62% выполнения задач, при том что люди остаются около 70%. Важнее не абсолютные числа, а форма улучшения: новая версия сокращает большую часть разрыва между SIMA 1 и людьми по долгим задачам с языковыми инструкциями.

На исключённых из тренировки играх вроде ASKA и MineDojo наблюится похожая картина: SIMA 2 показывает значительно более высокий процент успешных задач, что указывает на реальное zero‑shot обобщение. Агент также переносит абстрактные понятия: например, понимание 'mining' в одной игре помогает при задаче 'harvest' в другой.

Мультимодальные инструкции

SIMA 2 расширяет канал инструкций за пределы простого текста. Демонстрации показывают следование устным командам, реакцию на эскизы на экране и выполнение задач по подсказкам в виде эмодзи. В одном примере пользователь просит идти к 'the house that is the color of a ripe tomato'; ядро Gemini делает вывод, что спелые помидоры — красные, выбирает красный дом и идет к нему.

Gemini поддерживает несколько языков и смешанные подсказки, где текст дополняется визуальными подсказками. Для разработчиков робототехники это готовый мультимодальный стек: общая репрезентация связывает текст, аудио, изображения и игровые действия, позволяя связывать абстрактные символы с конкретными управляющими последовательностями.

Самоулучшение в масштабе

Ключевой научный вклад SIMA 2 — явная петля самоулучшения. После начальной фазы с человеческими демонстрациями агент переводят в новые миры и позволяют учиться исключительно на собственном опыте. Отдельная модель Gemini генерирует задачи в каждом мире, а модель награды оценивает попытки. Траектории сохраняются в банке самогенерируемых данных; последующие поколения используют этот корпус при обучении, что позволяет добиваться успеха там, где предыдущие поколения терпели неудачу, без новых человеческих демонстраций.

Это пример многозадачного, model‑in‑the‑loop дата‑движка, где LLM задаёт цели и даёт обратную связь, а воплощённый агент превращает её в улучшенные политики.

Тестирование с Genie 3

Для расширения обобщения DeepMind комбинирует SIMA 2 с Genie 3 — мировой моделью, генерирующей интерактивные 3D‑сцены из одного изображения или текстового запроса. В таких мирах агент ориентируется, парсит инструкции и действует, даже если геометрия и ассеты отличаются от обучающих игр.

По отчетам, SIMA 2 может перемещаться по сценам Genie 3, распознавать объекты вроде скамеек и деревьев и выполнять запрошенные действия последовательно и корректно. Это показывает возможность работать одним агентом как в коммерческих титулах, так и в сгенерированных средах, используя один и тот же модуль рассуждений и интерфейс управления.

Последствия для робототехники и воплощённого ИИ

SIMA 2 — не просто победа на бенчмарке, а системный шаг: интеграция облегчённого Gemini 2.5 Flash Lite с мультимодальным восприятием, языковым планированием и петлёй самоулучшения, подтверждённая как в коммерческих играх, так и в сгенерированных мирах. Результаты предлагают практический рецепт для более универсальных воплощённых агентов и приблизят развитие более способных реальных роботов.