OpenAGI Запускает Lux: Революционная Модель Использования Компьютера

Эволюция Автоматизированных Систем

Как преобразовать медленную, ручную работу с щелчками в браузерах и на настольных ПК в надежную, автоматизированную систему, которая может использовать компьютер в масштабе? Lux - последняя разработка для агентов, переходящих от демонстрации к инфраструктуре. Фонд OpenAGI выпустил Lux, модель, работающую с реальными настольными компьютерами и браузерами, набравшую 83.6 балла на бенчмарке Online Mind2Web, опередив таких конкурентов, как Google Gemini CUA (69.0), OpenAI Operator (61.3) и Anthropic Claude Sonnet 4 (61.0).

Что Делает Lux?

Lux - это не чат-модель с браузерным плагином; она преобразует цели на естественном языке в низкоуровневые действия, такие как щелчки и нажатия клавиш. Lux может управлять браузерами, текстовыми редакторами, таблицами, клиентами электронной почты и другими настольными приложениями, так как работает с отрисованным интерфейсом, а не с API конкретных приложений.

С точки зрения разработчика, Lux доступен через OpenAGI SDK и API консоль, обслуживая рабочие нагрузки, такие как QA программного обеспечения, глубокие исследования, управление социальными сетями, операции онлайн-магазинов и массовый ввод данных. Агент способен последовательно выполнять десятки или сотни действий пользовательского интерфейса, сохраняя соответствие с описанием задачи на естественном языке.

Три Режима Выполнения Для Разных Уровней Контроля

Lux предлагает три режима выполнения, которые обеспечивают баланс между скоростью, автономией и контролем:

Режим Актёра: Быстрый путь с длительностью около 1 секунды на шаг.
Режим Мыслителя: Обрабатывает нечеткие или многоступенчатые цели, разбивая высокоуровневые инструкции на более мелкие задачи.
Режим Задач: Обеспечивает максимальную детерминированность с явным списком шагов на Python.

Бенчмарки, Задержка и Стоимость

Lux с успехом 83.6% на Online Mind2Web значительно превосходит конкурентов. Она обрабатывает каждый шаг за примерно 1 секунду, в то время как OpenAI Operator требует около 3 секунд на шаг и значительно дороже. Эта эффективность критически важна для агентов, выполняющих сотни действий за сессию.

Агентное Активное Предобучение и Почему Важно OSGym?

Lux использует метод, называемый Агентным Активным Предобучением, который отличается от традиционных методов обучения языковых моделей. Lux учится, действуя в цифровых средах, уточняя поведение через взаимодействия, а не просто минимизируя прогнозируемую потерю. Это поддерживается OSGym, открытым движком данных, позволяющим параллельно управлять несколькими средами для эффективного обучения агентов.

Ключевые Выводы

Lux управляет полными рабочими столами и браузерами, показывая лучшие результаты на Online Mind2Web.
Она включает три режима: Актёр, Мыслитель и Задача для гибкого управления рабочими процессами.
Модель работает примерно за 1 секунду на шаг, предлагая значительные экономии по сравнению с конкурентами.
Обучение через Агентное Активное Предобучение фокусируется на понимании действий вместо статического текста.
OSGym обеспечивает обширные возможности для обучения, разрабатывая эффективные агенты компьютерного использования.