Microsoft представляет Magentic-UI: открытый AI-агент для совместного выполнения сложных веб-задач
Microsoft представила Magentic-UI — открытый AI-агент, который совместно с пользователем выполняет сложные многоэтапные веб-задачи, значительно повышая эффективность за счёт взаимодействия человека и ИИ.
Повышение эффективности веб-задач с помощью совместного ИИ
Современное использование интернета включает множество повторяющихся и сложных операций: заполнение форм, управление аккаунтами, навигация по панелям управления. Несмотря на появление ИИ-агентов для автоматизации, многие из них работают автономно, что часто приводит к результатам, не соответствующим ожиданиям пользователей. Magentic-UI от Microsoft меняет этот подход, делая акцент на сотрудничестве между пользователем и ИИ, обеспечивая многоэтапное планирование и оперативное участие человека для повышения точности и доверия.
Проблемы автоматизации веб-задач ИИ
Одной из ключевых проблем современных систем является отсутствие прозрачности и возможности вмешательства пользователя. Пользователь часто не видит, какие шаги планирует агент, и не может их корректировать, что опасно при выполнении чувствительных операций, например, оплаты или интерпретации динамического контента. Существующие решения редко позволяют получить обратную связь или адаптироваться к изменениям, что снижает их надёжность.
Функции совместной работы Magentic-UI
Magentic-UI основан на фреймворке AutoGen от Microsoft и интегрирован с Azure AI Foundry Labs. Этот открытый прототип предлагает:
- Совместное планирование: просмотр и редактирование планов ИИ до начала выполнения.
- Совместное выполнение: возможность в реальном времени приостанавливать, править или брать управление на себя.
- Защитные механизмы: подтверждения для рискованных действий, чтобы избежать ошибок.
- Обучение планам: запоминание и улучшение последовательностей для будущих задач.
Команда агентов включает Оркестратора, управляющего планированием; WebSurfer для работы с браузером; Coder для безопасного выполнения кода; FileSurfer для обработки файлов и данных.
Технический процесс и взаимодействие с пользователем
При поступлении запроса Оркестратор создаёт подробный план, который пользователь может изменить через графический интерфейс. После утверждения план распределяется между специализированными агентами. Каждый агент отчитывается после выполнения задачи, и Оркестратор решает, продолжать ли, повторять шаг или запрашивать обратную связь. Пользователь может в любой момент остановить или перенаправить процесс, что обеспечивает адаптивность и безопасность.
Результаты тестирования и безопасность
В тестах на бенчмарке GAIA, включающем 162 сложных задачи, автономная работа Magentic-UI показала 30,3% успешного выполнения. При поддержке имитации пользователя успех вырос до 51,9%, что на 71% выше. Система запрашивала помощь пользователя лишь в 10% случаев, в среднем 1,1 раз на задачу.
Галерея "Сохранённые планы" ускоряет повторные задачи примерно в 3 раза. Все действия выполняются в контейнерах Docker для защиты данных. Пользователи могут настраивать списки разрешённых сайтов и подтверждения действий. Тесты на устойчивость к фишингу и инъекциям показали, что система либо запрашивает уточнения, либо блокирует подозрительные операции.
Основные выводы
- Простое участие человека повышает успешность задач на 71%.
- Минимальное, своевременное вмешательство снижает нагрузку на пользователя.
- Полный контроль через интерфейс совместного планирования повышает прозрачность.
- Модульные агенты специализируются на планировании, работе с браузером, кодом и данными.
- Повторное использование планов увеличивает эффективность.
- Надёжная изоляция и меры безопасности защищают пользователей.
- Проект открыт для сообщества, стимулируя исследование и развитие.
Magentic-UI существенно продвигает автоматизацию с участием человека, обеспечивая прозрачность, контроль и безопасность в сложных веб-задачах.
Для подробностей посетите страницу GitHub проекта и следите за обновлениями в соцсетях.
Switch Language
Read this article in English