NVIDIA представляет Cosmos-Reason1: революция в физическом здравом смысле и воплощённом рассуждении AI

Прорыв в понимании физического мира AI

Искусственный интеллект достиг больших успехов в обработке языка, математике и генерации кода, но понимание и взаимодействие с физическими средами остаётся сложной задачей. Физический AI стремится преодолеть этот разрыв, создавая системы, которые воспринимают сенсорные данные, например видео, и реагируют на основе законов реального мира. Такие системы необходимы для навигации, манипуляций и взаимодействия в динамичных условиях, опираясь на здравый смысл о пространстве, времени и физических законах.

Ограничения современных моделей AI

Большинство существующих моделей хорошо справляются с абстрактными задачами, но не имеют глубокого понимания физических явлений, таких как гравитация или пространственные отношения. Это снижает их надёжность в воплощённых задачах. Обучение непосредственно в физическом мире дорого и рискованно, что замедляет прогресс. Кроме того, разрозненные инструменты и отсутствие стандартных методик оценки тормозят развитие физического рассуждения.

Введение Cosmos-Reason1

Исследователи NVIDIA представили Cosmos-Reason1 — набор мультимодальных больших языковых моделей, специально созданных для задач физического рассуждения. Две модели, Cosmos-Reason1-7B и Cosmos-Reason1-56B, обучаются в два этапа: контролируемое дообучение (SFT) и обучение с подкреплением (RL).

Двойная онтологическая система

Ключевая инновация — система двойной онтологии, которая направляет обучение и оценку. Одна иерархическая онтология делит физический здравый смысл на три категории: Пространство, Время и Основные физические законы, с 16 подкатегориями. Вторая онтология отображает способности рассуждения пяти воплощённых агентов, включая человека, роботизированные руки, гуманоидных роботов и автономные транспортные средства. Такая структура обеспечивает стандартизированную основу для тестирования физического рассуждения AI.

Мультимодальная архитектура и данные обучения

Cosmos-Reason1 сочетает языковую модель с декодером и видеокодировщик, обрабатывая видео и текст в общем пространстве. Обучение проводится на огромном наборе данных — около 4 миллионов аннотированных пар видео и текста с описаниями действий, вопросами с несколькими вариантами и цепочечными рассуждениями. Этап обучения с подкреплением использует правила и проверяемые награды, основанные на аннотациях человека и задачах с видео, таких как определение временного направления и решение пространственно-временных головоломок.

Тестирование и результаты

Были разработаны тесты для физического здравого смысла (604 вопроса из 426 видео) и воплощённого рассуждения (610 вопросов из 600 видео). Модели Cosmos-Reason1 превзошли предыдущие результаты, особенно после обучения с подкреплением, показывая лучшие результаты в проверке выполнения задач, предсказании следующих действий и оценке физической реалистичности. Модель Cosmos-Reason1-56B показала более высокие показатели во многих метриках.

Значение и применение

Данные достижения открывают новые возможности для AI в робототехнике, автономном вождении и взаимодействии человека и машины, где важна быстрая реакция и физическое понимание. Интеграция структурированных онтологий и мультимодальных данных делает Cosmos-Reason1 важным шагом к AI, способному эффективно работать в реальных физических условиях.

Для подробностей ознакомьтесь с научной статьёй, проектной страницей, моделями на Hugging Face и репозиторием на GitHub. Следите за обновлениями в Twitter, присоединяйтесь к ML SubReddit и подписывайтесь на новостную рассылку.