Аналоговые Foundation Models: как сделать LLM устойчивыми к шуму в in-memory AI
Зачем важны аналоговые вычисления для больших языковых моделей
Аналоговые in-memory вычисления (AIMC) выполняют умножение матриц на векторы непосредственно внутри массивов энергонезависимой памяти, устраняя постоянные передачи данных между памятью и блоками вычислений в традиционных GPU и TPU. Такая архитектура обещает существенный прирост пропускной способности и энергоэффективности и может позволить foundation-моделям работать на компактных ускорителях вне центров обработки данных.
В чем проблема: шум, мешающий практическому использованию
AIMC-устройства подвержены стохастическому шуму из-за вариативности приборов, квантования DAC/ADC и флуктуаций во времени. В отличие от детерминированного квантования на цифровых ускорителях, аналоговые ошибки непредсказуемы и могут критически ухудшать точность моделей. Ранее малые сети (CNN, RNN) удавалось адаптировать к такому шуму, но LLM с миллиардами параметров зачастую разрушались в условиях AIMC.
Как Analog Foundation Models решают проблему шума
Исследователи из IBM и ETH Zürich предложили pipeline аппаратно-ориентированного обучения, чтобы сделать LLM пригодными для аналогового выполнения. Основные методы включают:
- внедрение шума в процессе обучения для моделирования случайности AIMC
- итеративное обрезание весов для стабилизации распределений в пределах возможностей устройств
- обучение статических диапазонов квантования на входе и выходе в соответствии с реальными аппаратными ограничениями
- дистилляция из заранее обученных LLM с использованием большого синтетического корпуса (20B токенов)
Эти методы реализованы с помощью AIHWKIT-Lightning и применены к моделям Phi-3-mini-4k-instruct и Llama-3.2-1B-Instruct. В условиях аналогового шума AFM сохраняют производительность на уровне весово-квантизованных 4-битных/8-битных активаций и превосходят QAT и post-training методы вроде SpinQuant по ряду тестов на рассуждение и фактические знания.
Преимущества не только для аналогового железа
Неожиданным результатом стало то, что AFM хорошо работают и на низкопрецизионном цифровом железе. Поскольку модели обучаются переносить шум и обрезание, они более устойчивы к простому post-training округлению до ближайшего значения, что делает их полезными как для AIMC-ускорителей, так и для существующего цифрового инференса.
Масштабирование вычислений на инференсе и оставшиеся вопросы
Исследователи проверяли масштабирование вычислений во время инференса на MATH-500, генерируя несколько ответов на запрос и выбирая лучший с помощью модели вознаграждения. AFM показали лучшую способность к масштабированию по сравнению с QAT, и разрыв в точности сокращался при увеличении вычислительных ресурсов. При этом обучение AFM остаётся ресурсоёмким, а для некоторых задач рассуждения (например, GSM8K) всё ещё наблюдаются отличия от полнопредказательного baselines.
Влияние на будущее AIMC
Работа представляет собой первое систематическое доказательство того, что большие LLM можно адаптировать под AIMC без катастрофической потери точности. Комбинация энергоэффективности, устойчивости к шуму и совместимости с цифровым железом открывает практический путь для запуска foundation-моделей за пределами возможностей традиционных GPU и приближает крупные модели к использованию на edge- и встроенных устройствах.
Подробности и результаты экспериментов доступны в статье (https://arxiv.org/pdf/2505.09663) и на сопроводительной странице GitHub.