NVIDIA ThinkAct: революция в управлении роботами через визуально-языковое планирование

Объединение высокого уровня рассуждений и управления роботами

Исследователи из NVIDIA и Национального университета Тайваня представили ThinkAct — инновационную систему, которая объединяет визуальную информацию, язык и действия через усиленное визуальное латентное планирование. В отличие от традиционных моделей, которые напрямую переводят входные данные в действия, ThinkAct разделяет этапы рассуждения и контроля, что обеспечивает более эффективное долгосрочное планирование и адаптацию в сложных условиях.

Двухкомпонентная архитектура

ThinkAct состоит из двух тесно связанных модулей:

Мультимодальный LLM для рассуждений (MLLM): Выполняет поэтапный анализ визуальных сцен и языковых инструкций, создавая визуальный план латент, который отражает высокоуровневые намерения и контекст планирования.
Модель действий: Трансформер, который выполняет действия робота на основе визуального плана.

Асинхронный подход позволяет модулю рассуждений работать медленно, формируя планы, а модулю управления — быстро выполнять точные действия.

Усиленное визуальное латентное планирование

Ключевым нововведением является использование обучения с подкреплением с визуальными вознаграждениями, согласованными с действиями:

Награда за достижение цели: Совмещает предсказанные начальные и конечные позиции с демонстрационными траекториями для успешного завершения задачи.
Награда за траекторию: С помощью динамического выравнивания времени (DTW) регулирует предсказанные траектории по образцу экспертов.

Эти награды комбинируются с оценкой корректности формата, стимулируя создание точных и физически реалистичных планов.

Процесс обучения

Обучение включает несколько этапов:

Супервизированная доводка (SFT): Обучение предсказанию траекторий, рассуждению и форматированию с использованием размеченных данных.
Усиленная доводка: Оптимизация рассуждений с помощью Group Relative Policy Optimization (GRPO) для максимизации визуальных вознаграждений.
Адаптация действий: Обучение политики действий через имитационное обучение с использованием замороженных латентных планов LLM.

Результаты на бенчмарках

ThinkAct показывает превосходство на различных тестах:

SimplerEnv: Превосходит сильные базовые модели на 11–17%, особенно в долгосрочных и визуально разнообразных задачах.
LIBERO: Достигает 84.4% успешности, лидируя в пространственных, объектных и долгосрочных задачах.

Рассуждения и адаптация

На задачах EgoPlan-Bench2 и RoboVQA ThinkAct демонстрирует высокую точность многошагового планирования и вопросов-ответов. Поддерживает обучение с малым числом примеров, показывая значительный рост успеха уже с 10 демонстрациями.

Саморефлексия и исправление

ThinkAct способен обнаруживать ошибки выполнения (например, падение предметов) и автоматически пересматривать планы для завершения задач.

Технические особенности

В основе лежит мультизадачный MLLM Qwen2.5-VL 7B, используются энкодеры зрения DINOv2, текстовые энкодеры CLIP и Q-Former для связи рассуждений с политикой действий. Система протестирована в симуляциях и реальных условиях, доказав масштабируемость и надежность.

ThinkAct устанавливает новый стандарт для систем воплощённого ИИ, обеспечивая роботов, способных к вдумчивому планированию, управлению в реальном времени, быстрой адаптации и самокоррекции в динамичных условиях.