OpenAGI Запускает Lux: Революционная Модель Использования Компьютера
Lux - значительный шаг вперед в автоматизации использования компьютера, показывающий лучшие результаты на бенчмарке Online Mind2Web.
Эволюция Автоматизированных Систем
Как преобразовать медленную, ручную работу с щелчками в браузерах и на настольных ПК в надежную, автоматизированную систему, которая может использовать компьютер в масштабе? Lux - последняя разработка для агентов, переходящих от демонстрации к инфраструктуре. Фонд OpenAGI выпустил Lux, модель, работающую с реальными настольными компьютерами и браузерами, набравшую 83.6 балла на бенчмарке Online Mind2Web, опередив таких конкурентов, как Google Gemini CUA (69.0), OpenAI Operator (61.3) и Anthropic Claude Sonnet 4 (61.0).
Что Делает Lux?
Lux - это не чат-модель с браузерным плагином; она преобразует цели на естественном языке в низкоуровневые действия, такие как щелчки и нажатия клавиш. Lux может управлять браузерами, текстовыми редакторами, таблицами, клиентами электронной почты и другими настольными приложениями, так как работает с отрисованным интерфейсом, а не с API конкретных приложений.
С точки зрения разработчика, Lux доступен через OpenAGI SDK и API консоль, обслуживая рабочие нагрузки, такие как QA программного обеспечения, глубокие исследования, управление социальными сетями, операции онлайн-магазинов и массовый ввод данных. Агент способен последовательно выполнять десятки или сотни действий пользовательского интерфейса, сохраняя соответствие с описанием задачи на естественном языке.
Три Режима Выполнения Для Разных Уровней Контроля
Lux предлагает три режима выполнения, которые обеспечивают баланс между скоростью, автономией и контролем:
- Режим Актёра: Быстрый путь с длительностью около 1 секунды на шаг.
- Режим Мыслителя: Обрабатывает нечеткие или многоступенчатые цели, разбивая высокоуровневые инструкции на более мелкие задачи.
- Режим Задач: Обеспечивает максимальную детерминированность с явным списком шагов на Python.
Бенчмарки, Задержка и Стоимость
Lux с успехом 83.6% на Online Mind2Web значительно превосходит конкурентов. Она обрабатывает каждый шаг за примерно 1 секунду, в то время как OpenAI Operator требует около 3 секунд на шаг и значительно дороже. Эта эффективность критически важна для агентов, выполняющих сотни действий за сессию.
Агентное Активное Предобучение и Почему Важно OSGym?
Lux использует метод, называемый Агентным Активным Предобучением, который отличается от традиционных методов обучения языковых моделей. Lux учится, действуя в цифровых средах, уточняя поведение через взаимодействия, а не просто минимизируя прогнозируемую потерю. Это поддерживается OSGym, открытым движком данных, позволяющим параллельно управлять несколькими средами для эффективного обучения агентов.
Ключевые Выводы
- Lux управляет полными рабочими столами и браузерами, показывая лучшие результаты на Online Mind2Web.
- Она включает три режима: Актёр, Мыслитель и Задача для гибкого управления рабочими процессами.
- Модель работает примерно за 1 секунду на шаг, предлагая значительные экономии по сравнению с конкурентами.
- Обучение через Агентное Активное Предобучение фокусируется на понимании действий вместо статического текста.
- OSGym обеспечивает обширные возможности для обучения, разрабатывая эффективные агенты компьютерного использования.
Switch Language
Read this article in English