<НА ГЛАВНУЮ

AI-агенты в 2025: что работает, какие риски и как запускать

'Короткое руководство по AI-агентам в 2025: что это, где они работают надёжно, основные риски и как выстраивать продакшен.'

Кратко

AI-агент в 2025 году — это система на базе больших языковых моделей, ориентированная на достижение целей: она воспринимает контекст, планирует шаги, использует инструменты, действует в приложениях и хранит состояние. Агент стабильно работает в узких, хорошо инструментированных сценариях — разработка, дата-операции, шаблонные клиентские процессы. Для запуска важны простой планировщик, типизированные инструменты, песочницы, тестирование и защитные механизмы.

Что такое AI-агент в 2025

Агент — это не просто ассистент, который отвечает: он выполняет действия. Типичный цикл включает:

  • Восприятие и сбор контекста: текст, изображения, логи, код, извлечённые документы.
  • Планирование и управление: разбиение цели на шаги и выбор действий (ReAct, древовидные или простые планировщики).
  • Использование инструментов и актуация: вызовы API, запуск кода, управление браузером/ОС, запросы к БД.
  • Память и состояние: краткосрочная (шаг), задача/поток и долговременная (профиль рабочего пространства) с ретривалом.
  • Наблюдение и корректировка: чтение результатов, обнаружение ошибок, повтор или эскалация.

Что работает надёжно сегодня

  • Автоматизация браузера и настольных приложений для детерминированных потоков: заполнение форм, работа с документами и простая навигация.
  • Задачи для разработчиков и DevOps: триаж тестов, исправления простых ошибок, статические проверки, упаковка артефактов и черновики PR с комментариями.
  • Дата-операции: рутинные отчёты, SQL с учётом схемы, создание каркасов пайплайнов и сценарии миграций.
  • Клиентские операции: проверка заказов, политики, ответы по шаблону и инициирование RMA при структурированных правилах.
  • Бэк-офис: поиск по закупкам, очистка счёт-фактур, базовые проверки соответствия и генерация шаблонных писем.

Ограничения: надёжность падает при нестабильных селекторах, аутентификации/CAPTCHA, неясных политиках или при знании, которое не задокументировано.

Бенчмарки и реальная эффективность

Бенчмарки стали реалистичнее и измеряют end-to-end работу с компьютером и вебом. Тенденции:

  • Лучшие системы достигают около 50–60% верифицированного успеха на сложных наборах задач.
  • Навигация по вебу хороша для контентных задач, но слабее на сложных формах, логинах и антибот-защите.
  • Кодовые агенты исправляют заметную долю проблем на кураторных репозиториях, но важно учитывать конструкцию датасетов и возможную запоминалку.

Бенчмарки полезны для сравнения, но обязательна валидация на вашем наборе задач перед продуктивом.

Изменения 2025 vs 2024

  • Стандартизированное подключение инструментов: протоколы и SDK от вендоров уменьшают хрупкие склеивающие слои.
  • Длинный контекст и мультимодальность: миллионные контексты позволяют работать с многими файлами и большими логами, но возрастает стоимость и задержки.
  • Зрелость работы с компьютером: улучшенные инструменты для DOM/ОС, восстановление после ошибок и гибридные подходы, обходящие GUI при безопасности.

Влияние для компаний

Результаты видны при узких и хорошо измеренных сценариях:

  • Рост продуктивности в высокообъёмных задачах с низкой изменчивостью.
  • Снижение издержек за счёт частичной автоматизации и ускорения решений.
  • Важность человеческого контроля: HIL-чекпоинты и чёткие пути эскалации остаются критичными.

Широкая автопроцессация по гетерогенным процессам пока менее зрелая.

Архитектура production-агента

Рекомендуем минимальную, композиционную стековую структуру:

  • Оркестратор/runtime графа для шагов, повторов и ветвлений (лёгкий DAG или конечный автомат).
  • Инструменты с типизированными схемами входа/выхода: поиск, БД, файловое хранилище, песочница для кода, контроллер браузера/ОС, доменные API; использовать принцип наименьших привилегий.
  • Память и знания: эпемерные заметки для шага, память по задаче, долговременные профили и документы через ретривал.
  • Предпочтения актуации: API вместо GUI, GUI только если нет API, код как действие для сокращения кликовых путей.
  • Оценивание: unit-тесты для инструментов, офлайн-сценарии, онлайн-канареечные тесты; метрики: success rate, steps-to-goal, latency, safety signals.

Девиз: маленький планировщик, мощные инструменты, сильные оценки и защитные механизмы.

Основные сбои и риски безопасности

  • Инъекции в промпты и злоупотребление инструментами.
  • Небезопасная обработка выводов (командная или SQL-инъекция).
  • Утечки данных из-за широких скоупов или неочищенных логов.
  • Риски цепочки поставок в сторонних плагинах.
  • Побег из окружения при недостаточной песочнице браузера/ОС.
  • DoS модели и рост затрат из-за петлей или большого контекста.

Контрмеры: allow-listы и типизированные схемы, детерминированные обёртки инструментов, валидация вывода, изолированные окружения, scoped OAuth/ключи, rate limits, аудит-логи, adversarial тестирование и ред-тиминг.

Регуляция в 2025

Обязательства по общим моделям начинают вступать в силу и затрагивают документацию провайдеров, оценки и инцидент-репортинг. Базовые меры по управлению рисками ориентированы на измерение, прозрачность и безопасность по дизайну. Раннее выравнивание снижает будущее переработки и повышает доверие стейкхолдеров.

Оценивание помимо публичных бенчмарков

Четырёхуровневая лестница:

  • Уровень 0 — Unit: детерминированные тесты инструментов и guardrails.
  • Уровень 1 — Simulation: бенчмарки, близкие к вашей предметной области.
  • Уровень 2 — Shadow/proxy: реплей реальных тикетов и логов в песочнице.
  • Уровень 3 — Controlled production: канареечный трафик с жёсткими воротами и метриками.

Непрерывно триажируйте отказы и вносите правки в промпты, инструменты и guardrails.

RAG против длинного контекста

Оба подхода имеют место: длинный контекст удобен для больших артефактов и трасс, но дороже и медленнее. Ретрив обеспечивает заземление, свежесть и контроль затрат. Поддерживайте компактные контексты, точечный ретрив и храните только то, что действительно улучшает успех.

Первые разумные кейсы

  • Внутренние: поиск знаний, рутинные отчёты, валидация данных, триаж unit-тестов, суммаризация PR и проверка документов.
  • Внешние: проверка статуса заказов, ответы по политике, инициирование RMA, проверка KYC с жёсткими схемами.

Начинайте с одного высокообъёмного процесса и расширяйтесь по смежности.

Build vs Buy vs Hybrid

  • Buy, если вендорские агенты тесно интегрируются с вашим SaaS и стэком данных.
  • Build (тонко), если процессы уникальны: маленький планировщик, типизированные инструменты и строгие оценки.
  • Hybrid: вендор для товарных задач, кастомное для дифференциаторов.

Затраты и задержки

Cost(task) приблизительно сумма токенов, стоимости вызовов инструментов и минут браузера. Latency — время модели плюс RTT инструментов и время шагов окружения. Главные драйверы: повторы, количество шагов в браузере, ширина ретривала и пост-хок валидации. Код как действие поможет сократить длинные кликовые пути.

Посетите наш GitHub для туториалов и ноутбуков, подпишитесь на рассылку и следите за обновлениями.

🇬🇧

Switch Language

Read this article in English

Switch to English