NVIDIA ThinkAct: революция в управлении роботами через визуально-языковое планирование
Система ThinkAct от NVIDIA сочетает визуально-языковое рассуждение с усиленным латентным планированием, значительно улучшая управление роботами в сложных задачах.
Объединение высокого уровня рассуждений и управления роботами
Исследователи из NVIDIA и Национального университета Тайваня представили ThinkAct — инновационную систему, которая объединяет визуальную информацию, язык и действия через усиленное визуальное латентное планирование. В отличие от традиционных моделей, которые напрямую переводят входные данные в действия, ThinkAct разделяет этапы рассуждения и контроля, что обеспечивает более эффективное долгосрочное планирование и адаптацию в сложных условиях.
Двухкомпонентная архитектура
ThinkAct состоит из двух тесно связанных модулей:
- Мультимодальный LLM для рассуждений (MLLM): Выполняет поэтапный анализ визуальных сцен и языковых инструкций, создавая визуальный план латент, который отражает высокоуровневые намерения и контекст планирования.
- Модель действий: Трансформер, который выполняет действия робота на основе визуального плана.
Асинхронный подход позволяет модулю рассуждений работать медленно, формируя планы, а модулю управления — быстро выполнять точные действия.
Усиленное визуальное латентное планирование
Ключевым нововведением является использование обучения с подкреплением с визуальными вознаграждениями, согласованными с действиями:
- Награда за достижение цели: Совмещает предсказанные начальные и конечные позиции с демонстрационными траекториями для успешного завершения задачи.
- Награда за траекторию: С помощью динамического выравнивания времени (DTW) регулирует предсказанные траектории по образцу экспертов.
Эти награды комбинируются с оценкой корректности формата, стимулируя создание точных и физически реалистичных планов.
Процесс обучения
Обучение включает несколько этапов:
- Супервизированная доводка (SFT): Обучение предсказанию траекторий, рассуждению и форматированию с использованием размеченных данных.
- Усиленная доводка: Оптимизация рассуждений с помощью Group Relative Policy Optimization (GRPO) для максимизации визуальных вознаграждений.
- Адаптация действий: Обучение политики действий через имитационное обучение с использованием замороженных латентных планов LLM.
Результаты на бенчмарках
ThinkAct показывает превосходство на различных тестах:
- SimplerEnv: Превосходит сильные базовые модели на 11–17%, особенно в долгосрочных и визуально разнообразных задачах.
- LIBERO: Достигает 84.4% успешности, лидируя в пространственных, объектных и долгосрочных задачах.
Рассуждения и адаптация
На задачах EgoPlan-Bench2 и RoboVQA ThinkAct демонстрирует высокую точность многошагового планирования и вопросов-ответов. Поддерживает обучение с малым числом примеров, показывая значительный рост успеха уже с 10 демонстрациями.
Саморефлексия и исправление
ThinkAct способен обнаруживать ошибки выполнения (например, падение предметов) и автоматически пересматривать планы для завершения задач.
Технические особенности
В основе лежит мультизадачный MLLM Qwen2.5-VL 7B, используются энкодеры зрения DINOv2, текстовые энкодеры CLIP и Q-Former для связи рассуждений с политикой действий. Система протестирована в симуляциях и реальных условиях, доказав масштабируемость и надежность.
ThinkAct устанавливает новый стандарт для систем воплощённого ИИ, обеспечивая роботов, способных к вдумчивому планированию, управлению в реальном времени, быстрой адаптации и самокоррекции в динамичных условиях.
Switch Language
Read this article in English