Sensible Agent: как Google связывает 'что' и 'как', чтобы сделать AR менее неловким
Задача Sensible Agent
Sensible Agent — исследовательская рамочная система и прототип от Google, которая рассматривает помощь в дополненной реальности как единую задачу: не только что агент должен предложить, но и как эта подсказка должна быть подана. Система учитывает многомодальный контекст в реальном времени: заняты ли руки пользователя, уровень шума и социальную ситуацию. Цель — снизить трение и социальную неловкость, избегая качественных предложений, поданных через неподходящий канал.
Почему важно принимать решение вместе
Традиционные помощники разделяют выбор содержания и выбор канала взаимодействия. Основная идея Sensible Agent в том, что хорошее предложение через неверный канал превращается в шум. Фреймворк моделирует совместное решение: (a) действие, которое агент предлагает — рекомендовать, вести, напомнить или автоматизировать, и (b) способ презентации и подтверждения — визуально, аудио или комбинированно, с вводами типа кивка головой, взгляда, поз рук, короткой речи или нелекcических звуков. Связывая содержание с практической выполнимостью и социальной приемлемостью, система стремится снизить воспринимаемые усилия и сохранить полезность.
Архитектура во время работы
Прототип на гарнитуре класса Android реализует конвейер из трех этапов:
- Разбор контекста объединяет эгоцентричные изображения с выводами vision-language о сцене, активности и знакомости и классификатором фонового аудио на базе YAMNet для определения условий вроде шума или разговора.
- Генератор проактивных запросов передает большие мультимодальные модели few-shot примеры, чтобы выбрать действие, структуру запроса (бинарный, множественный выбор, иконка) и презентационную модальность.
- Слой взаимодействия открывает только те методы ввода, которые совместимы с текущей доступностью I/O. Например, он предлагает кивок головой для подтверждения, когда шепот невозможен, или фиксацию взгляда, когда руки заняты.
Откуда берутся few-shot политики
Политики были инициированы двумя исследованиями. Экспертная сессия с 12 участниками перечислила случаи, когда проактивная помощь полезна, и какие микро-вводы социально приемлемы. Исследование контекстов с 40 участниками дало 960 записей по сценариям повседневной жизни — спортзал, магазин, музей, дорога, готовка и т. п. Участники указали желаемые действия агента и предпочитаемый тип запроса и модальность для каждого контекста. Эти карты контекстов служат few-shot примерами на рантайме, переводя выбор ‘что+как’ из эвристик в паттерны, выведенные из данных.
Поддерживаемые техники взаимодействия
Прототип поддерживает набор низкоэнергетичных примитивов ввода, сопоставленных с типами запросов:
- Бинарные подтверждения: кивок/покачивание головой
- Множественный выбор: наклон головы влево/вправо/назад для опций 1/2/3
- Жесты пальцев для числового выбора и палец вверх/вниз
- Задержка взгляда для визуальных кнопок, когда точечное наведение неудобно
- Короткие слова типа ‘да’, ‘нет’, ‘один’, ‘два’, ‘три’ для минимальной голосовой команды
- Нелекcические звуки разговорного типа ‘мм-хм’ для шумных или шепотных контекстов
Конвеер предлагает только те модальности, которые выполнимы в текущем состоянии, подавляя аудио в тихих местах и избегая gaze dwell, если пользователь не смотрит на HUD.
Оценка и выводы
Пилотное исследование с 10 участниками в within-subjects дизайне сравнивало Sensible Agent с голосовым базовым подходом в AR и 360° VR. Отчеты показали меньшее воспринимаемое усилие и меньшую навязчивость при сопоставимой удобстве и предпочтении в пользу Sensible Agent. Это небольшая направляющая проверка, но результаты согласуются с гипотезой, что связка намерения и модальности снижает накладные расходы.
Почему YAMNet
YAMNet — легковесный классификатор аудио событий на базе MobileNet-v1, обученный на AudioSet и предсказывающий 521 класс. В задаче он полезен для быстрых оценок фоновых условий — наличие речи, музыки, толпы — и позволяет оперативно переключаться в сторону визуальных или жестовых взаимодействий. Наличие модели в TensorFlow Hub и гайды по развертыванию на устройствах делают её практичным выбором для on-device детекции.
Как внедрить идеи Sensible Agent
Минимальный план внедрения выглядит так:
- Инструментировать легковесный парсер контекста, который формирует компактное состояние из VLM на эгоцентричных кадрах и меток фонового аудио.
- Построить таблицу few-shot отображений контекст→(действие, тип запроса, модальность) на основе внутренних пилотов или пользовательских исследований.
- Запрашивать LMM, чтобы тот выдавал одновременно ‘что’ и ‘как’.
- Открывать только выполнимые методы ввода для каждого состояния и по умолчанию делать подтверждения бинарными.
- Логировать выборы и исходы для оффлайн-обучения политики.
Артефакты Sensible Agent показывают реализуемость в WebXR/Chrome на Android-классе железа, так что миграция на нативные HMD рантаймы или HUD на телефоне — это в основном инженерная работа.
Итог
Sensible Agent формализует проактивную AR-помощь как задачу совместного выбора действия и модальности, предлагает воспроизводимый набор данных контекст→(что/как), few-shot промпты и набор низкоэнергетичных примитивов ввода, которые учитывают социальные и I/O ограничения. Прототип и небольшая пользовательская проверка демонстрируют снижение затрат взаимодействия по сравнению с голосовым подходом.