Исследователи UNC представили TACQ: сохранение точности LLM при 2-битном квантовании с учётом задач

Проблемы в развертывании больших языковых моделей (LLM)

Большие языковые модели демонстрируют впечатляющие возможности, но ограничены высокими требованиями к вычислительным ресурсам и памяти. Эти ограничения особенно критичны в случаях локального развертывания для обеспечения конфиденциальности, например, при работе с чувствительными медицинскими данными, или в условиях ограниченных вычислительных ресурсов, таких как системы обслуживания клиентов в реальном времени и периферийные устройства.

Посттренировочное квантование и его ограничения

Посттренировочное квантование (PTQ) — перспективный метод сжатия предварительно обученных моделей, позволяющий снизить использование памяти в 2-4 раза. Однако при квантовании ниже 4 бит качество модели сильно ухудшается. Большинство существующих методов PTQ используют небольшие мини-батчи общего тренировочного набора для учета изменений активаций после квантования.

Существующие методы квантования

Основные подходы к сжатию LLM:

Равномерное квантование: сжатие 16-битных весов, преобразуя их в целые числа по строкам на основе минимальных и максимальных значений в каналах.
Квантование GPTQ: минимизирует потерю при восстановлении весов по слоям.
Квантование с переменной точностью: назначает разрядность битов в зависимости от важности весов, сохраняя особо чувствительные веса с большей точностью.

Введение TACQ: TaskCircuit Quantization

Исследователи из UNC представили TACQ — новый метод смешанного квантования после тренировки. TACQ вдохновлен автоматическим обнаружением цепей и ориентируется на определённые весовые цепи, важные для производительности задачи. Он сравнивает исходные веса с равномерно квантованными, оценивая ожидаемые изменения и используя градиенты для прогнозирования влияния на задачу, что позволяет сохранить критичные веса.

TACQ стабильно превосходит существующие методы при меньших затратах данных и ресурсов, особенно при квантовании в 2 и 3 бита.

Принцип работы TACQ: Метрика значимости

TACQ использует метрику значимости для выявления критических весов:

Квантование с учётом локализации (QAL): оценивает, как производительность меняется при ожидаемых изменениях весов.
Градиент с усилением по величине (MSG): универсальная метрика важности веса, адаптированная из методов атрибуции входов, которая стабилизирует TACQ и исправляет смещения QAL.

Эта метрика вычисляется за один проход назад, позволяя сохранить верхний процент весов с 16-битной точностью.

Преимущества TACQ

При 2-битном квантовании TACQ увеличивает точность по сравнению с SliM-LLM на 16.0% (GSM8k), 14.1% (MMLU) и 21.9% (Spider). Другие методы падают до почти случайного уровня.

При 3-битном квантовании TACQ сохраняет около 91%, 96% и 89% точности на GSM8k, MMLU и Spider соответственно, опережая SliM-LLM на 1–2%.

Особенно TACQ эффективен в задачах генерации, например в Spider для преобразования текста в SQL, где он единственный способен сохранить значимую точность при 2-битном сжатии.

Значение и применение

TACQ — значительный прорыв в посттренировочном квантовании с учётом задач, позволяющий моделям сохранять высокую точность при ультранизких битах, где прежние методы не справлялись. Сохраняя лишь небольшую часть важных весов, TACQ подтверждает идею о влиянии разреженных весовых цепей на конкретные задачи.

Метод особенно полезен для задач генерации и предсказания программ, а также для агентов, генерирующих множество исполняемых выводов, обеспечивая эффективность и высокую производительность.

Для подробностей ознакомьтесь с оригинальной статьей и репозиторием на GitHub. Следите за обновлениями в Twitter, Telegram и LinkedIn.