NitroGen от NVIDIA: Революционная ИИ Модель для Игровых Агентов
NVIDIA представила NitroGen, ИИ модель, меняющую подход к игровым агентам.
Обзор
Команда исследований NVIDIA AI представила NitroGen — открытую модель для игровых агентов, способных обучаться игре в коммерческие игры напрямую из пикселей и действий геймпада с использованием интернет-видео. NitroGen обучался на 40 000 часов игрового процесса более чем в 1000 играх и включает в себя открытый набор данных, универсальный симулятор и предварительно обученную политику.
Набор Данных с Интернет-Видео
П pipeline разработан на основе публично доступных игровых видео с наложениями ввода, например, визуализациями геймпадов от стримеров. Команда собрала 71 000 часов сырых видео с такими наложениями и применила фильтрацию качества, оставив 40 000 часов данных из более чем 1000 игр.
Кураторский набор данных состоит из 38 739 видео от 818 создателей, охватывающих разнообразные названия по множеству жанров. RPG занимают 34.9%, платформеры 18.4%, и экшен-приключения 9.2%, остальное — спортивные, роглайк и гонки.
Извлечение Действий из Наложений Контроллеров
NitroGen использует трехступенчатый процесс извлечения действий:
- Сопоставление Шаблонов: Локализует наложения контроллеров с использованием около 300 шаблонов и извлекает 25 кадров для сопоставления.
- Сегментация SegFormer: Обрабатывает обрезанные контроллеры для выявления местоположения джойстиков.
- Уточнение Позиции Джойстиков: Нормализует координаты и фильтрует низкоактивные сегменты, минимизируя переоценку нулевых действий в обучении.
Бенчмарки показывают, что предсказания джойстиков достигают средней R² 0.84 и точности кнопок 0.96 на основных контроллерах, таких как Xbox и PlayStation.
Универсальный Симулятор и Бенчмарки
NitroGen включает универсальный симулятор с совместимым интерфейсом Gymnasium, позволяя взаимодействовать с играми без изменения кода. Наблюдения состоят из одного RGB-кадра, где действия представлены в объединенном 16-мерном двоичном векторе.
Бенчмарк охватывает 10 коммерческих игр и 30 задач, включая как 2D, так и 3D игровую механику.
Архитектура Модели NitroGen
Политика NitroGen основана на архитектуре GR00T N1, имея визуальный кодер и блок действий, обрабатывающий 256x256 RGB кадры. Модель использует диффузный трансформер (DiT) для формирования будущих действий.
Модель имеет размеры 4.93 миллиарда параметров, представляя 21x16 тензор для описания динамики действий.
Результаты Обучения и Преимущества Переноса
NitroGen обучен исключительно методом клонирования поведения на наборе данных интернет-видео. Благодаря разнообразным агрегациям изображений, результаты показывают коэффициент выполнения задач от 45% до 60% в нулевых оценках.
Перенос значений с NitroGen приносит улучшения от 10% до 25% и даже 52% в сценариях с малым объемом данных.
Ключевые Выводы
- Универсальная Модель: NitroGen эффективно сопоставляет игровые кадры со стандартизированными действиями без обучения с подкреплением.
- Обширный Набор Данных: Использует 40 000 часов игрового процесса с автоматической разметкой наложений.
- Перекрестный Перенос: Объединенное действие контроллера позволяет развертывать единые политики для нескольких игр.
- Современная Архитектура: Использует диффузные трансформеры для управления данными, обеспечивая надежный контроль.
- Увеличенная Эффективность: Предобучение с NitroGen улучшает выполнение задач в новых играх.
Switch Language
Read this article in English