Аналоговые Foundation Models: как сделать LLM устойчивыми к шуму в in-memory AI

Зачем важны аналоговые вычисления для больших языковых моделей

Аналоговые in-memory вычисления (AIMC) выполняют умножение матриц на векторы непосредственно внутри массивов энергонезависимой памяти, устраняя постоянные передачи данных между памятью и блоками вычислений в традиционных GPU и TPU. Такая архитектура обещает существенный прирост пропускной способности и энергоэффективности и может позволить foundation-моделям работать на компактных ускорителях вне центров обработки данных.

В чем проблема: шум, мешающий практическому использованию

AIMC-устройства подвержены стохастическому шуму из-за вариативности приборов, квантования DAC/ADC и флуктуаций во времени. В отличие от детерминированного квантования на цифровых ускорителях, аналоговые ошибки непредсказуемы и могут критически ухудшать точность моделей. Ранее малые сети (CNN, RNN) удавалось адаптировать к такому шуму, но LLM с миллиардами параметров зачастую разрушались в условиях AIMC.

Как Analog Foundation Models решают проблему шума

Исследователи из IBM и ETH Zürich предложили pipeline аппаратно-ориентированного обучения, чтобы сделать LLM пригодными для аналогового выполнения. Основные методы включают:

Эти методы реализованы с помощью AIHWKIT-Lightning и применены к моделям Phi-3-mini-4k-instruct и Llama-3.2-1B-Instruct. В условиях аналогового шума AFM сохраняют производительность на уровне весово-квантизованных 4-битных/8-битных активаций и превосходят QAT и post-training методы вроде SpinQuant по ряду тестов на рассуждение и фактические знания.

Преимущества не только для аналогового железа

Неожиданным результатом стало то, что AFM хорошо работают и на низкопрецизионном цифровом железе. Поскольку модели обучаются переносить шум и обрезание, они более устойчивы к простому post-training округлению до ближайшего значения, что делает их полезными как для AIMC-ускорителей, так и для существующего цифрового инференса.

Масштабирование вычислений на инференсе и оставшиеся вопросы

Исследователи проверяли масштабирование вычислений во время инференса на MATH-500, генерируя несколько ответов на запрос и выбирая лучший с помощью модели вознаграждения. AFM показали лучшую способность к масштабированию по сравнению с QAT, и разрыв в точности сокращался при увеличении вычислительных ресурсов. При этом обучение AFM остаётся ресурсоёмким, а для некоторых задач рассуждения (например, GSM8K) всё ещё наблюдаются отличия от полнопредказательного baselines.

Влияние на будущее AIMC

Работа представляет собой первое систематическое доказательство того, что большие LLM можно адаптировать под AIMC без катастрофической потери точности. Комбинация энергоэффективности, устойчивости к шуму и совместимости с цифровым железом открывает практический путь для запуска foundation-моделей за пределами возможностей традиционных GPU и приближает крупные модели к использованию на edge- и встроенных устройствах.

Подробности и результаты экспериментов доступны в статье (https://arxiv.org/pdf/2505.09663) и на сопроводительной странице GitHub.