Amazon представила AI-архитектуру, сокращающую время вывода на 30% за счет активации только релевантных нейронов

Вдохновение работой человеческого мозга

Исследователи Amazon разработали новую AI-архитектуру, которая значительно сокращает время вывода, активируя только те нейроны, которые релевантны конкретной задаче. Такой подход вдохновлен работой человеческого мозга, где для решения конкретных задач задействуются специализированные области, а не все нейроны подряд.

Решение проблемы неэффективности больших моделей AI

Традиционные большие языковые модели (LLM) и базовые AI-системы активируют всю сеть при каждом запросе, что обеспечивает универсальность, но приводит к неэффективности. Большая часть активности сети оказывается избыточной для конкретного запроса, что увеличивает вычислительные затраты и задержки.

Динамическая, контекстно-зависимая обрезка

Ключевая инновация — динамическая, контекстно-зависимая обрезка, которая происходит во время вывода, а не статически во время обучения. Модель оценивает, какие нейроны или модули наиболее полезны на основе контекста, включая тип задачи (например, юридическое письмо, перевод или помощь в программировании), язык и другие признаки. Легкий gate predictor создает бинарную маску, определяющую, какие нейроны активировать или пропустить, что обеспечивает реальную экономию ресурсов без потери универсальности.

Как работает архитектура

Архитектура использует контекстно-зависимый механизм управления активацией, который анализирует входные данные и дополнительную информацию (например, для моделей речи) и выбирает необходимые модули, такие как блоки самовнимания, feed-forward сети или свертки. Обрезка происходит на уровне целых модулей или слоев, что сохраняет эффективность работы на GPU и современных ускорителях.

Обучение gate predictor

Обучение проводится с использованием функции потерь, стимулирующей достижение заданного уровня разреженности — доли пропущенных модулей. Применяются методы, такие как Gumbel-Softmax, позволяющие сохранять дифференцируемость во время оптимизации, но приводящие к четкому бинарному выбору нейронов при выводе.

Впечатляющие результаты

Эксперименты показали:

Сокращение времени вывода до 34% в задачах многоязычного преобразования речи в текст и автоматического распознавания речи (ASR).
Снижение числа операций с плавающей точкой (FLOPs) более чем на 60% при высокой разреженности, что уменьшает затраты на облако и оборудование.
Сохранение качества вывода: показатели BLEU и WER остаются стабильными до агрессивной обрезки.
Повышенную интерпретируемость за счет выявления ключевых модулей для каждого контекста.

Адаптация под задачи и языки

Оптимальная стратегия обрезки меняется в зависимости от задачи и языка. В ASR важны локальные контекстные модули, что позволяет сильно обрезать декодер без потери точности. В задачах перевода речи требуется сбалансированное внимание к энкодеру и декодеру. В многоязычных и многозадачных сценариях выбор модулей адаптируется, но сохраняет характерные закономерности.

Широкое значение

Динамическая модульная обрезка открывает возможности для:

Более энергоэффективного и масштабируемого AI.
Персонализированных вычислительных путей в зависимости от задачи, пользователя, региона или устройства.
Переноса подхода в другие области, включая обработку естественного языка и компьютерное зрение.

Архитектура Amazon, вдохновленная биологической эффективностью нейронов, прокладывает путь к мощному и практичному AI для реальных задач.

Для подробностей смотрите оригинальную статью и технические материалы исследователей.