SIMA 2 на базе Gemini учится внутри Goat Simulator 3 и других миров

SIMA 2: агент, усиленный Gemini

SIMA 2 — новый агент от Google DeepMind, который сочетает идею масштабируемого инструктируемого мульти-мирового агента с возможностями языковой модели Gemini. Это следующая версия оригинального SIMA: агент воспринимает кадры игры, понимает инструкции и действует в различных 3D-виртуальных средах. В DeepMind рассматривают это как шаг к более универсальным агентам и будущим роботам.

Обучение на записях игры людей

Как и предыдущая версия, SIMA 2 обучался на записях людей, играющих в восемь коммерческих игр, в том числе No Man's Sky и Goat Simulator 3, а также на трех виртуальных мирах, созданных компанией. Обучение сопоставляет ввод с клавиатуры и мыши с действиями в игре, что позволяет агенту понять, как человеческие управления переводятся в поведение в виртуальном мире.

Роль Gemini в разъяснении и планировании

Подключение к Gemini улучшает следование инструкциям и способность решать задачи. Gemini помогает агенту задавать уточняющие вопросы, сообщать о прогрессе и генерировать подсказки при затруднениях. Это позволяет планировать многозадачные последовательности эффективнее, чем раньше.

Обобщение на новые среды

DeepMind испытывала SIMA 2 в средах, которых агент не видел при обучении. В одном эксперименте команда использовала Genie 3, их модель мира, чтобы процедурно сгенерировать новые миры и поместить в них SIMA 2. Агент смог ориентироваться и выполнять инструкции во многих таких новых средах, что показывает улучшенную способность к обобщению.

Обучение через пробу и ошибку

Когда SIMA 2 не справляется с задачей, Gemini может выдавать советы и подсказки. Агент может повторять попытки, учитывать сгенерированные Gemini рекомендации и часто улучшать результаты. Этот цикл попытка — подсказка — повторная попытка позволяет агенту решать более сложные задачи без прямого перепрограммирования человеком.

Как люди взаимодействуют с агентом

Пользователи управляют SIMA 2 через текстовый чат, голос или рисуя на экране игры. Агент обрабатывает эти инструкции вместе с видеопотоком и решает, какие вводы клавиатуры и мыши выполнить.

Ограничения и пробелы

SIMA 2 остается экспериментальным. Ему сложно выполнять очень длинные или сильно многошаговые задачи, его возможности ограничены сознательно урезанной долговременной памятью для повышения отклика. Кроме того, в некоторых сценариях агент заметно уступает людям в тонком управлении мышью и клавиатурой.

Реакция сообщества и применимость к робототехнике

Мнения исследователей разделились. Кто-то считает результат прогрессом в создании агентов, которые учатся по пикселям и инструкциям. Другие отмечают, что многие коммерческие игры используют схожие схемы ввода, что упрощает перенос навыков между играми. Критики указывают, что в реальном мире визуальные и физические задачи сложнее: камеры и визуал не так удобны для парсинга, а правила и динамика отличаются от игровых миров.

Дальше: бесконечные тренировочные доджо

DeepMind намерена продолжать работу с Genie 3 и Gemini, создавая нечто вроде бесконечного тренировочного доджо, где модель генерирует новые миры и задания. Цель — позволить агентам вроде SIMA 2 постепенно совершенствоваться через постоянную практику и испытания, накапливая навыки для более сложных сред и в перспективе для управления реальными роботами.

SIMA 2 на базе Gemini учится внутри Goat Simulator 3 и других миров

Switch Language