Sensible Agent: как Google связывает 'что' и 'как', чтобы сделать AR менее неловким

Задача Sensible Agent

Sensible Agent — исследовательская рамочная система и прототип от Google, которая рассматривает помощь в дополненной реальности как единую задачу: не только что агент должен предложить, но и как эта подсказка должна быть подана. Система учитывает многомодальный контекст в реальном времени: заняты ли руки пользователя, уровень шума и социальную ситуацию. Цель — снизить трение и социальную неловкость, избегая качественных предложений, поданных через неподходящий канал.

Почему важно принимать решение вместе

Традиционные помощники разделяют выбор содержания и выбор канала взаимодействия. Основная идея Sensible Agent в том, что хорошее предложение через неверный канал превращается в шум. Фреймворк моделирует совместное решение: (a) действие, которое агент предлагает — рекомендовать, вести, напомнить или автоматизировать, и (b) способ презентации и подтверждения — визуально, аудио или комбинированно, с вводами типа кивка головой, взгляда, поз рук, короткой речи или нелекcических звуков. Связывая содержание с практической выполнимостью и социальной приемлемостью, система стремится снизить воспринимаемые усилия и сохранить полезность.

Архитектура во время работы

Прототип на гарнитуре класса Android реализует конвейер из трех этапов:

Откуда берутся few-shot политики

Политики были инициированы двумя исследованиями. Экспертная сессия с 12 участниками перечислила случаи, когда проактивная помощь полезна, и какие микро-вводы социально приемлемы. Исследование контекстов с 40 участниками дало 960 записей по сценариям повседневной жизни — спортзал, магазин, музей, дорога, готовка и т. п. Участники указали желаемые действия агента и предпочитаемый тип запроса и модальность для каждого контекста. Эти карты контекстов служат few-shot примерами на рантайме, переводя выбор ‘что+как’ из эвристик в паттерны, выведенные из данных.

Поддерживаемые техники взаимодействия

Прототип поддерживает набор низкоэнергетичных примитивов ввода, сопоставленных с типами запросов:

Конвеер предлагает только те модальности, которые выполнимы в текущем состоянии, подавляя аудио в тихих местах и избегая gaze dwell, если пользователь не смотрит на HUD.

Оценка и выводы

Пилотное исследование с 10 участниками в within-subjects дизайне сравнивало Sensible Agent с голосовым базовым подходом в AR и 360° VR. Отчеты показали меньшее воспринимаемое усилие и меньшую навязчивость при сопоставимой удобстве и предпочтении в пользу Sensible Agent. Это небольшая направляющая проверка, но результаты согласуются с гипотезой, что связка намерения и модальности снижает накладные расходы.

Почему YAMNet

YAMNet — легковесный классификатор аудио событий на базе MobileNet-v1, обученный на AudioSet и предсказывающий 521 класс. В задаче он полезен для быстрых оценок фоновых условий — наличие речи, музыки, толпы — и позволяет оперативно переключаться в сторону визуальных или жестовых взаимодействий. Наличие модели в TensorFlow Hub и гайды по развертыванию на устройствах делают её практичным выбором для on-device детекции.

Как внедрить идеи Sensible Agent

Минимальный план внедрения выглядит так:

  1. Инструментировать легковесный парсер контекста, который формирует компактное состояние из VLM на эгоцентричных кадрах и меток фонового аудио.
  2. Построить таблицу few-shot отображений контекст→(действие, тип запроса, модальность) на основе внутренних пилотов или пользовательских исследований.
  3. Запрашивать LMM, чтобы тот выдавал одновременно ‘что’ и ‘как’.
  4. Открывать только выполнимые методы ввода для каждого состояния и по умолчанию делать подтверждения бинарными.
  5. Логировать выборы и исходы для оффлайн-обучения политики.

Артефакты Sensible Agent показывают реализуемость в WebXR/Chrome на Android-классе железа, так что миграция на нативные HMD рантаймы или HUD на телефоне — это в основном инженерная работа.

Итог

Sensible Agent формализует проактивную AR-помощь как задачу совместного выбора действия и модальности, предлагает воспроизводимый набор данных контекст→(что/как), few-shot промпты и набор низкоэнергетичных примитивов ввода, которые учитывают социальные и I/O ограничения. Прототип и небольшая пользовательская проверка демонстрируют снижение затрат взаимодействия по сравнению с голосовым подходом.