Исследователи UNC представили TACQ: сохранение точности LLM при 2-битном квантовании с учётом задач
Исследователи из UNC Chapel Hill представили TACQ — метод квантования, который сохраняет критически важные весовые цепи и позволяет большим языковым моделям сохранять высокую точность даже при 2-битном сжатии.
Проблемы в развертывании больших языковых моделей (LLM)
Большие языковые модели демонстрируют впечатляющие возможности, но ограничены высокими требованиями к вычислительным ресурсам и памяти. Эти ограничения особенно критичны в случаях локального развертывания для обеспечения конфиденциальности, например, при работе с чувствительными медицинскими данными, или в условиях ограниченных вычислительных ресурсов, таких как системы обслуживания клиентов в реальном времени и периферийные устройства.
Посттренировочное квантование и его ограничения
Посттренировочное квантование (PTQ) — перспективный метод сжатия предварительно обученных моделей, позволяющий снизить использование памяти в 2-4 раза. Однако при квантовании ниже 4 бит качество модели сильно ухудшается. Большинство существующих методов PTQ используют небольшие мини-батчи общего тренировочного набора для учета изменений активаций после квантования.
Существующие методы квантования
Основные подходы к сжатию LLM:
- Равномерное квантование: сжатие 16-битных весов, преобразуя их в целые числа по строкам на основе минимальных и максимальных значений в каналах.
- Квантование GPTQ: минимизирует потерю при восстановлении весов по слоям.
- Квантование с переменной точностью: назначает разрядность битов в зависимости от важности весов, сохраняя особо чувствительные веса с большей точностью.
Введение TACQ: TaskCircuit Quantization
Исследователи из UNC представили TACQ — новый метод смешанного квантования после тренировки. TACQ вдохновлен автоматическим обнаружением цепей и ориентируется на определённые весовые цепи, важные для производительности задачи. Он сравнивает исходные веса с равномерно квантованными, оценивая ожидаемые изменения и используя градиенты для прогнозирования влияния на задачу, что позволяет сохранить критичные веса.
TACQ стабильно превосходит существующие методы при меньших затратах данных и ресурсов, особенно при квантовании в 2 и 3 бита.
Принцип работы TACQ: Метрика значимости
TACQ использует метрику значимости для выявления критических весов:
- Квантование с учётом локализации (QAL): оценивает, как производительность меняется при ожидаемых изменениях весов.
- Градиент с усилением по величине (MSG): универсальная метрика важности веса, адаптированная из методов атрибуции входов, которая стабилизирует TACQ и исправляет смещения QAL.
Эта метрика вычисляется за один проход назад, позволяя сохранить верхний процент весов с 16-битной точностью.
Преимущества TACQ
При 2-битном квантовании TACQ увеличивает точность по сравнению с SliM-LLM на 16.0% (GSM8k), 14.1% (MMLU) и 21.9% (Spider). Другие методы падают до почти случайного уровня.
При 3-битном квантовании TACQ сохраняет около 91%, 96% и 89% точности на GSM8k, MMLU и Spider соответственно, опережая SliM-LLM на 1–2%.
Особенно TACQ эффективен в задачах генерации, например в Spider для преобразования текста в SQL, где он единственный способен сохранить значимую точность при 2-битном сжатии.
Значение и применение
TACQ — значительный прорыв в посттренировочном квантовании с учётом задач, позволяющий моделям сохранять высокую точность при ультранизких битах, где прежние методы не справлялись. Сохраняя лишь небольшую часть важных весов, TACQ подтверждает идею о влиянии разреженных весовых цепей на конкретные задачи.
Метод особенно полезен для задач генерации и предсказания программ, а также для агентов, генерирующих множество исполняемых выводов, обеспечивая эффективность и высокую производительность.
Для подробностей ознакомьтесь с оригинальной статьей и репозиторием на GitHub. Следите за обновлениями в Twitter, Telegram и LinkedIn.
Switch Language
Read this article in English