Понимание проблем с агентными ИИ-системами

Обзор агентных ИИ-систем

Агентные ИИ-системы располагаются на больших языковых моделях и соединяются с инструментами, памятью и внешней средой. Они поддерживают научные открытия, разработку программного обеспечения и клинические исследования, но сталкиваются с ненадежным использованием инструментов, недостаточным планированием на длительные горизонты и плохой обобщаемостью. Исследовательская работа Адаптация агентного ИИ от Стэнфорда, Гарварда, UC Berkeley и Caltech предлагает единую точку зрения на то, как эти системы должны адаптироваться, связывая существующие методы в математически определённую рамку.

Как это исследование моделирует агентную ИИ-систему

Исследование определяет агентную ИИ-систему как агент модели основы с тремя ключевыми компонентами:

Модуль планирования: Декомпозирует цели на последовательности действий, используя такие методы, как цепочка размышлений и дерево размышлений.
Модуль использования инструментов: Соединяет агента с различными инструментами, такими как веб-поисковые системы и API.
Модуль памяти: Хранит как краткосрочный контекст, так и долгосрочные знания.

Адаптация изменяет подсказки или параметры этих компонентов с помощью таких методов, как контролируемая дообучение и методы глубокого обучения.

Четыре парадигмы адаптации

Рамка определяет четыре парадигмы адаптации, используя два бинарных измерения: цель (адаптация агента против адаптации инструмента) и сигнал контроля (исполнение инструмента против вывода агента), что приводит к:

A1: Адаптация агента с сигнализацией выполнения инструмента
A2: Адаптация агента с сигнализацией вывода агента
T1: Адаптация инструмента, не зависящая от агента
T2: Адаптация инструмента под контролем фиксированного агента

A1: Обучение с использованием проверяемой обратной связи по инструментам

В A1 агент получает ввод, производит вызовы инструментов, и обучающий объект оценивает успех инструмента. Методы, такие как Toolformer и DeepRetrieval, используют обратную связь от выполнения инструмента для повышения производительности агента.

A2: Обучение на основе окончательных выводов агента

Эта парадигма фокусируется на оптимизации агента, основываясь на его окончательных выводах. Необходимо контролировать вызовы инструментов, чтобы гарантировать их использование.

T1: Обучение инструментам, не зависящим от агента

Этот подход замораживает основного агента, оптимизируя инструменты для широкой применимости, измеряемой такими метриками, как точность извлечения.

T2: Инструменты, оптимизированные под замороженным агентом

В T2 мощный фиксированный агент контролирует обучающие сигналы для инструмента. Этот метод был применён в недавних системах, таких как s3 и AgentFlow.

Основные выводы

Исследование представляет структурированную рамку для адаптации агентных ИИ-систем с использованием различных парадигм адаптации.
Методы A1 используют обратную связь инструментов, в то время как A2 полагается на окончательные выводы, что демонстрирует взаимосвязанность этих стратегий.
T1 и T2 смещают фокус обучения с агента на инструменты и память, увеличивая устойчивость и масштабируемость в практических применениях ИИ.