Переосмысление разреженного внимания: прорывы для эффективных больших языковых моделей с длинным контекстом

Проблемы плотного внимания в больших языковых моделях с длинным контекстом

Большие языковые модели на базе трансформеров используют механизм самовнимания, но стандартное плотное внимание масштабируется квадратично по длине последовательности на этапе предварительной обработки. Это приводит к росту вычислительных затрат, увеличению времени до первого токена и высокой нагрузке на пропускную способность памяти в фазе декодирования из-за линейного роста размера кеша. Эти проблемы усложняют обработку длинных последовательностей и масштабирование инференса.

Обещания и ограничения разреженного внимания

Разреженное внимание пытается приблизить плотное внимание, используя только часть пар ключ-запрос, что снижает вычислительную и память затратность, сохраняя при этом точность. Несмотря на потенциал ускорения обработки длинных последовательностей, разреженное внимание пока мало исследовано на больших масштабах. Предыдущие работы ограничивались малыми моделями, короткими последовательностями или специфическими задачами, что затрудняет оценку производительности на длинных контекстах.

Комплексное исследование от Эдинбурга, Cohere и Meta

Команда из Университета Эдинбурга, Cohere и Meta провела глубокое исследование методов разреженного внимания без обучения на различных размерах моделей (до 72 млрд параметров), длинах последовательностей (до 128 тысяч токенов) и уровнях разреженности (до 95%). Они протестировали девять задач с длинным контекстом, включая новые бенчмарки на естественном языке для реалистичной оценки.

Основные выводы:

При фиксированном вычислительном бюджете большие разреженные модели превосходят меньшие плотные, особенно на очень длинных последовательностях.
Высокая разреженность лучше переносится на этапе декодирования, чем на этапе предварительной обработки.
Нет универсальной стратегии разреженного внимания, которая бы работала лучше всех для всех задач.
Введены законы масштабирования, прогнозирующие точность в зависимости от размера модели, длины и разреженности.
Выпущены стандартизированные реализации для воспроизводимости и практического применения.

Методы и стратегии разреженного внимания

Разреженное внимание вычисляет только важные взаимодействия ключ-запрос, используя удержание блоков или окон в матрице внимания, оценку важности фиксированными или динамическими паттернами и адаптивное распределение ресурсов по слоям и головам. В фазе декодирования методы балансируют между экономией памяти и сохранением информации, удаляя менее важные пары ключ-значение или загружая только нужные части кеша.

Производительность и чувствительность задач

При коротких последовательностях (~32k токенов) более эффективны малые плотные модели, а при длинных (~128k токенов) — большие разреженные. Крупные модели сохраняют точность при 20× разреженности, но некоторые задачи чувствительны к сжатию. Методы на основе чанков, такие как Quest, лучше всего работают на декодировании, а Vertical-Slash — на предварительной обработке простых задач.

Влияние и перспективы

Исследование показывает, что разреженное внимание перспективно для повышения эффективности больших языковых моделей с длинным контекстом, но требует тщательной настройки под конкретные задачи. Законы масштабирования и открытые реализации станут полезными инструментами для дальнейших исследований и внедрения разреженных механизмов внимания.

Для подробностей ознакомьтесь с оригинальной статьей и следите за обсуждениями в Twitter, Telegram, LinkedIn и ML SubReddit.