<НА ГЛАВНУЮ

RWKV-X: Революция в моделировании длинных контекстов с помощью разреженного внимания и рекуррентной памяти

RWKV-X представляет гибридную модель, объединяющую разреженное внимание и рекуррентную память для эффективного декодирования очень длинных последовательностей с линейной сложностью, превосходя предыдущие модели RWKV в задачах с длинным контекстом.

Проблемы масштабирования моделей на базе трансформеров

Большие языковые модели (LLM), основанные на архитектуре трансформеров, сталкиваются с серьезными проблемами при обработке длинных контекстов из-за квадратичной сложности вычислений по длине последовательности. Для решения этих задач разработаны альтернативы, такие как модели с линейным вниманием, модели с пространством состояний (например, Mamba), линейные RNN (DeltaNet) и RWKV. Однако такие линейные архитектуры испытывают трудности с пониманием очень длинных контекстов. Например, модель RWKV-7 (2,9 млрд параметров) показывает высокую точность при извлечении ключей до 28K токенов, но быстро теряет эффективность за этим пределом, даже при непрерывном дообучении на данных длиной 128K токенов.

Возникновение моделей с линейной сложностью

Модели с линейной сложностью становятся перспективной альтернативой трансформерам, которые требуют квадратичных вычислительных ресурсов для длинных последовательностей. Серия моделей RWKV совмещает параллельность трансформеров во время обучения с представлением состояния, подобным RNN. Модель эволюционировала от RWKV-4 до RWKV-7, улучшая эффективность и производительность. Другие гибридные модели, такие как Jamba, Zamba и MiniMax, также предлагают уникальные конструкции. Механизмы разреженного внимания (Native Sparse Attention) организуют токены в временные блоки с тремя путями внимания: сжатые токены крупного масштаба, выборочно сохраняемые мелкомасштабные токены и скользящие окна для локального контекста. Другие механизмы внимания включают SeerAttention и Block Attention (MoBA).

Представляем RWKV-X: новую гибридную архитектуру

Группа исследователей из Гуандунской лаборатории искусственного интеллекта и цифровой экономики, Хохайского университета, Шэньчжэньского университета и Цинхайского университета предложила RWKV-X — архитектуру, объединяющую эффективность RWKV для коротких зависимостей с разреженным вниманием для длинных контекстов. RWKV-X достигает линейной сложности при обучении и постоянной сложности при выводе, что является значительным прорывом.

Стратегия обучения и результаты

RWKV-X сочетает блоки RWKV-7 с блоками разреженного внимания, используя подход с перемежающимся расширением блоков и инициализацией с нуля по образцу LLaMA Pro. Обучение проходит в два этапа:

  • Первый этап: обучение на коротких контекстах длиной 1024 токена из набора MiniPile, при этом заморожены все параметры, кроме добавленных блоков.
  • Второй этап: непрерывное дообучение на длинных контекстах с использованием ProLong-64K (64K токенов), обработка около 1 миллиарда токенов с оптимизацией всех параметров.

Для обучения используется функция потерь Long-context Cross-Entropy (LongCE), которая динамически взвешивает токены по их значимости.

Оценка производительности

В задачах с коротким контекстом RWKV-X показывает конкурентоспособные результаты. Модель меньшего размера (0,22 млрд параметров) достигает 51.0, близко к RWKV-7 (51.8). Большая модель (3,6 млрд) показывает 71.9, почти сравнима с RWKV-7 (2,9 млрд) и Qwen2.5-3B, превосходя LLaMA3.2-3B. Анализ эффективности демонстрирует превосходство RWKV-X при работе с длинными последовательностями: при 128K токенах скорость выше Flash-Attention v3 в 1,37 раза, и преимущество растет с увеличением длины контекста.

Ограничения и перспективы

У RWKV-X есть ограничения. Разреженный механизм внимания основан на эвристическом выборе топ-k чанков, что может приводить к пропуску семантически важных связей. Кроме того, декодирование с разреженным вниманием работает медленнее, чем у стандартного RWKV, что требует дальнейших инженерных улучшений.

RWKV-X является значительным шагом вперёд в создании эффективных языковых моделей для длинных контекстов, объединяя рекуррентную память и разреженное внимание. Будущие исследования и оптимизации позволят ещё больше повысить его возможности.

Подробности доступны в оригинальной статье, а новости публикуются в Twitter.

🇬🇧

Switch Language

Read this article in English

Switch to English