Понимание проблем с агентными ИИ-системами
Новое исследование объясняет, почему агентные ИИ-системы сталкиваются с трудностями в реальном применении.
Обзор агентных ИИ-систем
Агентные ИИ-системы располагаются на больших языковых моделях и соединяются с инструментами, памятью и внешней средой. Они поддерживают научные открытия, разработку программного обеспечения и клинические исследования, но сталкиваются с ненадежным использованием инструментов, недостаточным планированием на длительные горизонты и плохой обобщаемостью. Исследовательская работа Адаптация агентного ИИ от Стэнфорда, Гарварда, UC Berkeley и Caltech предлагает единую точку зрения на то, как эти системы должны адаптироваться, связывая существующие методы в математически определённую рамку.
Как это исследование моделирует агентную ИИ-систему
Исследование определяет агентную ИИ-систему как агент модели основы с тремя ключевыми компонентами:
- Модуль планирования: Декомпозирует цели на последовательности действий, используя такие методы, как цепочка размышлений и дерево размышлений.
- Модуль использования инструментов: Соединяет агента с различными инструментами, такими как веб-поисковые системы и API.
- Модуль памяти: Хранит как краткосрочный контекст, так и долгосрочные знания.
Адаптация изменяет подсказки или параметры этих компонентов с помощью таких методов, как контролируемая дообучение и методы глубокого обучения.
Четыре парадигмы адаптации
Рамка определяет четыре парадигмы адаптации, используя два бинарных измерения: цель (адаптация агента против адаптации инструмента) и сигнал контроля (исполнение инструмента против вывода агента), что приводит к:
- A1: Адаптация агента с сигнализацией выполнения инструмента
- A2: Адаптация агента с сигнализацией вывода агента
- T1: Адаптация инструмента, не зависящая от агента
- T2: Адаптация инструмента под контролем фиксированного агента
A1: Обучение с использованием проверяемой обратной связи по инструментам
В A1 агент получает ввод, производит вызовы инструментов, и обучающий объект оценивает успех инструмента. Методы, такие как Toolformer и DeepRetrieval, используют обратную связь от выполнения инструмента для повышения производительности агента.
A2: Обучение на основе окончательных выводов агента
Эта парадигма фокусируется на оптимизации агента, основываясь на его окончательных выводах. Необходимо контролировать вызовы инструментов, чтобы гарантировать их использование.
T1: Обучение инструментам, не зависящим от агента
Этот подход замораживает основного агента, оптимизируя инструменты для широкой применимости, измеряемой такими метриками, как точность извлечения.
T2: Инструменты, оптимизированные под замороженным агентом
В T2 мощный фиксированный агент контролирует обучающие сигналы для инструмента. Этот метод был применён в недавних системах, таких как s3 и AgentFlow.
Основные выводы
- Исследование представляет структурированную рамку для адаптации агентных ИИ-систем с использованием различных парадигм адаптации.
- Методы A1 используют обратную связь инструментов, в то время как A2 полагается на окончательные выводы, что демонстрирует взаимосвязанность этих стратегий.
- T1 и T2 смещают фокус обучения с агента на инструменты и память, увеличивая устойчивость и масштабируемость в практических применениях ИИ.
Switch Language
Read this article in English