Group Think: революция в коллективном мышлении для ускоренного вывода LLM

Совместное мышление в больших языковых моделях

Большие языковые модели (LLM) всё чаще разрабатываются для совместной работы через мультиагентные системы. Такие системы делят сложные задачи на части, которые решаются одновременно разными агентами, что повышает эффективность и снижает задержки, особенно в реальном времени.

Проблемы существующих мультиагентных систем

Большинство современных систем работают поочередно, когда агенты ждут завершения шагов рассуждений других. Это замедляет процесс и приводит к дублированию усилий и непоследовательным результатам, так как агенты не видят текущие мысли коллег во время генерации. Такая задержка и избыточность ограничивают применение мультиагентных LLM на устройствах с ограниченными ресурсами.

Ограничения текущих техник рассуждения

Методы вроде Chain-of-Thought помогают структурировать решения, но увеличивают время вывода. Более продвинутые, как Tree-of-Thoughts и Graph-of-Thoughts, расширяют пути рассуждений, но не обеспечивают взаимную адаптацию в реальном времени. Коллаборативные системы обычно используют поочередный обмен сообщениями, что снова ведёт к задержкам. Сложные динамические схемы или распределение ролей не оптимизированы для эффективного вывода.

Представляем Group Think: параллельное рассуждение на уровне токенов

Исследователи MediaTek предложили Group Think — новый метод, позволяющий нескольким агентам внутри одной LLM работать одновременно. Агенты наблюдают частичные результаты друг друга на уровне токенов, адаптируя рассуждения в реальном времени. Это снижает дублирование и позволяет переключать направления, если другой агент лучше подходит для конкретной линии рассуждений.

Group Think использует механизм внимания на уровне токенов, позволяющий каждому агенту учитывать токены всех участников. Каждому агенту выделяется своя последовательность индексов токенов, которые чередуются в памяти и сохраняются в общем кэше. Это обеспечивает эффективное внимание между потоками рассуждений без изменений архитектуры трансформера. Метод работает как на персональных устройствах, так и в дата-центрах, эффективно используя простой вычислительный ресурс и обрабатывая несколько запросов вместе с правильной динамикой внимания.

Результаты и производительность

Group Think значительно улучшает задержки и качество вывода. В задачах перечисления, например, списка из 100 имён, он быстрее достигает почти полного результата, чем Chain-of-Thought. Ускорение пропорционально числу агентов: четыре агента сокращают время примерно в четыре раза. В задачах разделяй и властвуй, например, алгоритме Флойда–Уоршелла на графе из пяти узлов, четыре агента выполняют задачу вдвое быстрее одного. Group Think также эффективен для генерации кода, быстрее создавая корректные сегменты кода при использовании четырёх и более агентов.

Эмерджентное коллективное поведение и перспективы

Хотя модели не обучались специально для сотрудничества, в Group Think агенты естественно распределяют задачи, избегая дублирования, разделяя работу по темам или направлениям. Эти результаты показывают потенциал для улучшения эффективности с помощью специализированного обучения на коллаборативных данных.

Полный текст исследования доступен в оригинальной статье. Следите за обновлениями в Twitter, присоединяйтесь к сообществу ML на Reddit и подписывайтесь на рассылку для новых материалов.