5% ИИ, 100% инженерии: почему агенты зависят от инфраструктуры

Что такое doc-to-chat pipeline

Doc-to-chat pipeline принимает корпоративные документы, нормализует и стандартизирует их, накладывает требования управления, индексирует эмбеддинги рядом со структурными фичами и предоставляет поиск + генерацию через аутентифицированные API с контрольными точками human-in-the-loop (HITL). Это практическая архитектура для агентных Q&A, копилотов и автоматизации рабочих процессов, где ответы должны соблюдать права доступа и быть готовыми к аудиту.

На production это обычно RAG (retrieval-augmented generation), усиленный guardrails, политиками и трассировкой на базе OpenTelemetry для воспроизводимости.

Как интегрироваться в существующий стек

Используйте стандартные сервисные границы (REST/JSON, gRPC) и хранилище, которому доверяет организация. Для табличных данных Iceberg дает ACID, эволюцию схем и партиций, и снапшоты—это важно для повторяемых извлечений и бэкофов. Для векторов выбирайте стратегию, совместимую с SQL-фильтрами:

Во многих командах используют оба подхода: SQL+pgvector для транзакционных джойнов и политик, Milvus для интенсивного retrieval.

Основные компоненты и их свойства

Координация агентов, людей и рабочих процессов

Production-агенты требуют явных точек координации, где люди одобряют, правят или эскалируют результаты. AWS A2I предоставляет управляемые HITL-петли (private workforces, flow definitions) и служит реальным примером для гейтинга низко-уверенных выводов.

Фреймворки вроде LangGraph моделируют эти проверки как шаги в графе агента, чтобы одобрения были первоклассными узлами DAG, а не ad hoc callback’ами. Используйте такие ворота для публикации сводок, создания тикетов или коммитов кода. Сохраняйте все артефакты (промпты, наборы извлечений, решения) для аудита и повторных прогонов.

Схема: LLM → проверки уверенности/guardrails → HITL-ворота → побочные эффекты.

Надежность до модели

Надежность — это многослойная защита:

Большинство инцидентов — не регрессии модели, а проблемы данных, прав доступа, деградация retrieval или отсутствие телеметрии.

Масштабирование индексации и поиска

Два направления важны: throughput при ingest и конкурентность запросов.

Для смешанных данных (структурированные + неструктурированные) предпочитайте гибридный retrieval (BM25 + ANN + reranker) и храните структурные признаки рядом с векторами для фильтров и реранкинга.

Наблюдаемость выше логов

Связывайте трассы, метрики и оценки:

Добавляйте профилирование схем/маппинг на этапе ingest, чтобы observability оставалась связанной с изменениями формы данных и объясняла регрессии retrieval при смене upstream-источников.

Пример референс-флоу

Ingest: connectors → text extraction → normalization → Iceberg write (ACID, snapshots). Govern: PII scan (Presidio) → redact/mask → catalog registration with ACL policies. Index: embedding jobs → pgvector (policy-aware joins) and Milvus (high-QPS ANN). Serve: REST/gRPC → hybrid retrieval → guardrails → LLM → tool use. HITL: low-confidence paths route to A2I/LangGraph approval steps. Observe: OTEL traces to LangSmith/APM + scheduled RAG evaluations.

Почему ‘5% ИИ, 100% инженерии’

Ключ к надежным, безопасным и правдоподобным агентам — не выбор модели, а инженерные контролы: ACID-таблицы, каталоги ACL, PII-guardrails, гибридный retrieval, телеметрия и человеческие ворота. Эти механизмы определяют, будет ли выбранная модель безопасной, быстрой и заслуживающей доверия. Меняйте модель позже, но сначала вкладывайтесь в инфраструктуру и процессы.