Эффективные AI-агенты: как сократить расходы без потери качества

Рост стоимости AI-агентов

Агенты, решающие многошаговые задачи, опираются на большие языковые модели и инструменты, но их эксплуатация становится дороже. Современные системы могут требовать сотни API-вызовов на одну задачу, что делает масштабирование дорогим для бизнеса и исследователей. Команда OPPO AI Agent Team проанализировала, откуда берутся расходы, и предложила практичную альтернативу.

Метрика, которая имеет значение: cost-of-pass

В исследовании введена метрика cost-of-pass — это общая стоимость получения корректного ответа на задачу. Метрика учитывает стоимость токенов (входных и выходных) и вероятность успеха с первой попытки. Она показывает явную взаимосвязь между точностью модели и экономической эффективностью: модель с чуть меньшей точностью, но значительно меньшей стоимостью за успешный проход может быть предпочтительнее при масштабировании.

Из чего складываются расходы агентов

Выбор основной модели

Модели уровня Claude 3.7 Sonnet показывают высокую точность (61.82% на сложном бенчмарке), но обходятся дорого — примерно $3.54 за успешную задачу. GPT-4.1 демонстрирует 53.33% точности при цене около $0.98 за успешный проход. Для простых задач модели типа Qwen3-30B-A3B снижают расходы еще сильнее — до примерно $0.13.

Планирование и масштабирование

Увеличение числа шагов планирования или трюки вроде Best-of-N быстро растят вычислительные затраты. При этом улучшение точности часто оказывается незначительным.

Использование инструментов

Агенты, которые обращаются к браузеру, поисковикам и другим инструментам, получают актуальную информацию, однако сложные действия в браузере добавляют стоимость без заметного выигрыша. Широкие, но простые поисковые запросы по качественным источникам чаще оказываются более эффективными.

Дизайн памяти агента

Простая память — хранение только действий и наблюдений — дала лучший баланс стоимости и эффективности. Дополнительные модули памяти делали агентов медленнее и дороже при небольшой прибавке к качеству.

План Efficient Agents

Фреймворк Efficient Agents предлагает практичный набор решений:

Использовать адекватную, но не чрезмерно дорогую модель (например, GPT-4.1).
Ограничить число шагов планирования, чтобы избежать лишних вычислений.
Искать информацию широко, но не углубляться в дорогие браузерные операции.
Держать память минимальной и сфокусированной на последних действиях и наблюдениях.

Вместе эти решения обеспечили агента с 96.7% производительности по сравнению с лучшими открытыми решениями (например, OWL), но с затратами менее чем в три четверти — это снижение расходов примерно на 28.4% без заметной потери результатов.

Почему это важно

Исследование подчеркивает: разумный дизайн важен не меньше, чем мощность модели. Команды, которые развертывают агентов в продуктиве, должны оценивать cost-of-pass и оптимизировать модель, глубину планирования, использование инструментов и память под эту метрику. Поскольку Efficient Agents открыт и доступен, организации могут тестировать подход уже сейчас.