SIMA 2 на базе Gemini учится внутри Goat Simulator 3 и других миров
'DeepMind представил SIMA 2, агент на базе Gemini, который учится играть в различные игры включая Goat Simulator 3 и улучшает свои навыки через подсказки и повторные попытки.'
SIMA 2: агент, усиленный Gemini
SIMA 2 — новый агент от Google DeepMind, который сочетает идею масштабируемого инструктируемого мульти-мирового агента с возможностями языковой модели Gemini. Это следующая версия оригинального SIMA: агент воспринимает кадры игры, понимает инструкции и действует в различных 3D-виртуальных средах. В DeepMind рассматривают это как шаг к более универсальным агентам и будущим роботам.
Обучение на записях игры людей
Как и предыдущая версия, SIMA 2 обучался на записях людей, играющих в восемь коммерческих игр, в том числе No Man's Sky и Goat Simulator 3, а также на трех виртуальных мирах, созданных компанией. Обучение сопоставляет ввод с клавиатуры и мыши с действиями в игре, что позволяет агенту понять, как человеческие управления переводятся в поведение в виртуальном мире.
Роль Gemini в разъяснении и планировании
Подключение к Gemini улучшает следование инструкциям и способность решать задачи. Gemini помогает агенту задавать уточняющие вопросы, сообщать о прогрессе и генерировать подсказки при затруднениях. Это позволяет планировать многозадачные последовательности эффективнее, чем раньше.
Обобщение на новые среды
DeepMind испытывала SIMA 2 в средах, которых агент не видел при обучении. В одном эксперименте команда использовала Genie 3, их модель мира, чтобы процедурно сгенерировать новые миры и поместить в них SIMA 2. Агент смог ориентироваться и выполнять инструкции во многих таких новых средах, что показывает улучшенную способность к обобщению.
Обучение через пробу и ошибку
Когда SIMA 2 не справляется с задачей, Gemini может выдавать советы и подсказки. Агент может повторять попытки, учитывать сгенерированные Gemini рекомендации и часто улучшать результаты. Этот цикл попытка — подсказка — повторная попытка позволяет агенту решать более сложные задачи без прямого перепрограммирования человеком.
Как люди взаимодействуют с агентом
Пользователи управляют SIMA 2 через текстовый чат, голос или рисуя на экране игры. Агент обрабатывает эти инструкции вместе с видеопотоком и решает, какие вводы клавиатуры и мыши выполнить.
Ограничения и пробелы
SIMA 2 остается экспериментальным. Ему сложно выполнять очень длинные или сильно многошаговые задачи, его возможности ограничены сознательно урезанной долговременной памятью для повышения отклика. Кроме того, в некоторых сценариях агент заметно уступает людям в тонком управлении мышью и клавиатурой.
Реакция сообщества и применимость к робототехнике
Мнения исследователей разделились. Кто-то считает результат прогрессом в создании агентов, которые учатся по пикселям и инструкциям. Другие отмечают, что многие коммерческие игры используют схожие схемы ввода, что упрощает перенос навыков между играми. Критики указывают, что в реальном мире визуальные и физические задачи сложнее: камеры и визуал не так удобны для парсинга, а правила и динамика отличаются от игровых миров.
Дальше: бесконечные тренировочные доджо
DeepMind намерена продолжать работу с Genie 3 и Gemini, создавая нечто вроде бесконечного тренировочного доджо, где модель генерирует новые миры и задания. Цель — позволить агентам вроде SIMA 2 постепенно совершенствоваться через постоянную практику и испытания, накапливая навыки для более сложных сред и в перспективе для управления реальными роботами.
Switch Language
Read this article in English