WINA от Microsoft: Революция в эффективном запуске больших языковых моделей без дообучения

Проблемы при инференсе больших языковых моделей

Большие языковые модели (LLM) с миллиардами параметров становятся ключевыми в различных AI-сервисах, но их огромный размер приводит к высоким вычислительным затратам во время инференса. Обычно при обработке каждого запроса активируется вся модель, что требует больших ресурсов, хотя на самом деле значимую роль играет лишь небольшой набор нейронов.

Ограничения существующих методов разреженной активации

Существующие методы, например Mixture-of-Experts (MoE) в GPT-4 и Mistral, требуют дополнительного обучения для выбора активируемых нейронов. Другие подходы, такие как TEAL и CATS, отбирают нейроны на основе величин активаций, но игнорируют важность весовых матриц, что ведет к ошибкам аппроксимации и ухудшению качества, особенно при высокой разреженности. Также они нуждаются в индивидуальной настройке порогов для каждой модели, снижая гибкость.

Представляем WINA: Weight Informed Neuron Activation

Исследователи из Microsoft, Университета Жэньминь Китая, Нью-Йоркского университета и Южно-Китайского технологического университета разработали WINA — метод разреженной активации без обучения. WINA учитывает одновременно величины скрытых состояний и ℓ2-нормы столбцов весовых матриц для выбора активных нейронов, что обеспечивает более эффективную и адаптивную разреженность без необходимости дообучения.

Принцип работы WINA

WINA вычисляет поэлементное произведение скрытых состояний и норм весов, выбирая топ-K нейронов по этому объединённому показателю. Такой подход формирует разреженную подсеть, сохраняющую важные сигналы и отбрасывающую избыточные активации. Также применяется преобразование тензоров для обеспечения ортогональности столбцов весовых матриц, что помогает снизить ошибки аппроксимации и улучшить реальную производительность.

Оценка эффективности

Метод проверили на нескольких LLM — Qwen-2.5-7B, LLaMA-2-7B, LLaMA-3-8B и Phi-4-14B — при разных уровнях разреженности и задачах. WINA превосходила TEAL и CATS по всем параметрам. Например, при 65% разреженности WINA улучшила среднюю производительность Qwen-2.5-7B на 2.94% по сравнению с TEAL и на 1.41% по сравнению с TEAL-Transform. На LLaMA-3-8B прирост составил 1.06% при 50% и 2.41% при 65%. Даже на сложных задачах, требующих рассуждения (GSM8K, ARC Challenge), WINA сохраняла высокое качество. Кроме того, вычислительные затраты снизились до 63.7% на LLaMA-2-7B и 62.7% на Phi-4-14B.

Значение и перспективы

WINA предлагает надёжное решение для разреженной активации без обучения, устраняя ограничения предыдущих методов. Интеграция норм весовых матриц с величинами активаций снижает ошибки, повышает точность и существенно экономит вычислительные ресурсы. Это открывает новые возможности для эффективного и универсального инференса больших языковых моделей без дополнительного обучения и настройки.

Подробности можно найти в оригинальной статье и на GitHub исследователей.