Преодоление разрыва между знанием и действием: как Google DeepMind улучшает принятие решений в LLM с помощью дообучения с подкреплением

Проблема принятия решений в больших языковых моделях

Большие языковые модели, обученные на обширных датасетах, демонстрируют впечатляющие способности к пониманию и генерации языка. Помимо языковых задач, эти модели могут выступать в роли агентов, принимающих решения в интерактивных средах. Однако, несмотря на умение строить точные рассуждения, они часто не способны эффективно применять свои знания на практике — это известно как разрыв между знанием и действием. Также модели сталкиваются с проблемами жадности — преждевременного выбора действий с высоким вознаграждением, и частотного смещения, когда небольшие модели предпочитают часто встречающиеся действия, что мешает исследованию новых стратегий.

Существующие подходы и их ограничения

Традиционные методы обучения с подкреплением, такие как алгоритмы для многоруких бандитов (например, Upper-Confidence Bound, UCB), пытаются балансировать между исследованием и эксплуатацией. Подходы, основанные на обучении из контекста и клонировании поведения, имитируют экспертные траектории, но часто усиливают существующие предвзятости в принятии решений. Эти методы лишь незначительно улучшают результаты и не обеспечивают надежного механизма перевода внутреннего рассуждения в оптимальные действия, особенно в сложных или стохастических средах.

Метод дообучения с подкреплением (RLFT)

Исследователи из Google DeepMind и лаборатории LIT AI при JKU Linz предложили новый подход — дообучение с подкреплением (RLFT), который использует самостоятельно сгенерированные рассуждения в цепочке мыслей (Chain-of-Thought, CoT) в качестве сигналов обучения. Модель оценивает вознаграждения за действия, которые следуют за конкретными этапами рассуждений, и учится предпочитать решения, логичные и приносящие высокую практическую пользу. Этот метод связывает рассуждения модели с обратной связью из среды, уменьшая разрыв между мышлением и действиями.

Детали методологии

Процесс RLFT основан на по-токеновом дообучении через взаимодействие с окружающей средой. На каждом шаге модель получает входную инструкцию и историю предыдущих действий с вознаграждениями, после чего генерирует последовательность, включающую рассуждение и выбранное действие. Результаты оцениваются по вознаграждениям среды и соответствию заданному формату, при этом за неверные действия накладываются штрафы. Формирование вознаграждения стимулирует поддержание консистентного формата и исследование стратегии.

Для задач переменной длины, таких как крестики-нолики, используются оценки с базовой линией Монте-Карло и обобщённая оценка преимущества, что позволяет модели обучаться на разнообразных последовательностях решений.

Значительные улучшения в производительности

RLFT заметно улучшил способности моделей к принятию решений. В среде с 10 вариантами выбора в многоруком бандите покрытие действий модели с 2 миллиардами параметров выросло с 40% до более 52% после 30 000 обновлений. Частотное смещение снизилось с 70% до 35%. В крестиках-ноликах эта модель увеличила процент побед над случайным соперником с 15% до 75% и достигла ничьих с оптимальным агентом на основе Монте-Карло, улучшив средний результат с -0,95 до 0,0. Более крупные модели с 27 миллиардами параметров, генерируя корректные рассуждения в 87% случаев, изначально выбирали оптимальное действие лишь в 21%, но RLFT значительно сократил этот разрыв.

Значение для будущего ИИ-агентов

Исследование демонстрирует важность связи между рассуждением и действием для создания надежных агентов на базе больших языковых моделей. Дообучение с подкреплением на рассуждениях помогает исправлять распространённые ошибки в решениях и укреплять успешное поведение, что открывает путь к более автономным и эффективным системам искусственного интеллекта.

Для подробностей ознакомьтесь с оригинальной статьёй и следите за обновлениями исследователей в Twitter и сообществе ML SubReddit.