Amazon представила AI-архитектуру, сокращающую время вывода на 30% за счет активации только релевантных нейронов
Исследователи Amazon создали AI-архитектуру, которая сокращает время вывода на 30%, активируя только нейроны, релевантные конкретной задаче, по аналогии с эффективностью человеческого мозга.
Вдохновение работой человеческого мозга
Исследователи Amazon разработали новую AI-архитектуру, которая значительно сокращает время вывода, активируя только те нейроны, которые релевантны конкретной задаче. Такой подход вдохновлен работой человеческого мозга, где для решения конкретных задач задействуются специализированные области, а не все нейроны подряд.
Решение проблемы неэффективности больших моделей AI
Традиционные большие языковые модели (LLM) и базовые AI-системы активируют всю сеть при каждом запросе, что обеспечивает универсальность, но приводит к неэффективности. Большая часть активности сети оказывается избыточной для конкретного запроса, что увеличивает вычислительные затраты и задержки.
Динамическая, контекстно-зависимая обрезка
Ключевая инновация — динамическая, контекстно-зависимая обрезка, которая происходит во время вывода, а не статически во время обучения. Модель оценивает, какие нейроны или модули наиболее полезны на основе контекста, включая тип задачи (например, юридическое письмо, перевод или помощь в программировании), язык и другие признаки. Легкий gate predictor создает бинарную маску, определяющую, какие нейроны активировать или пропустить, что обеспечивает реальную экономию ресурсов без потери универсальности.
Как работает архитектура
Архитектура использует контекстно-зависимый механизм управления активацией, который анализирует входные данные и дополнительную информацию (например, для моделей речи) и выбирает необходимые модули, такие как блоки самовнимания, feed-forward сети или свертки. Обрезка происходит на уровне целых модулей или слоев, что сохраняет эффективность работы на GPU и современных ускорителях.
Обучение gate predictor
Обучение проводится с использованием функции потерь, стимулирующей достижение заданного уровня разреженности — доли пропущенных модулей. Применяются методы, такие как Gumbel-Softmax, позволяющие сохранять дифференцируемость во время оптимизации, но приводящие к четкому бинарному выбору нейронов при выводе.
Впечатляющие результаты
Эксперименты показали:
- Сокращение времени вывода до 34% в задачах многоязычного преобразования речи в текст и автоматического распознавания речи (ASR).
- Снижение числа операций с плавающей точкой (FLOPs) более чем на 60% при высокой разреженности, что уменьшает затраты на облако и оборудование.
- Сохранение качества вывода: показатели BLEU и WER остаются стабильными до агрессивной обрезки.
- Повышенную интерпретируемость за счет выявления ключевых модулей для каждого контекста.
Адаптация под задачи и языки
Оптимальная стратегия обрезки меняется в зависимости от задачи и языка. В ASR важны локальные контекстные модули, что позволяет сильно обрезать декодер без потери точности. В задачах перевода речи требуется сбалансированное внимание к энкодеру и декодеру. В многоязычных и многозадачных сценариях выбор модулей адаптируется, но сохраняет характерные закономерности.
Широкое значение
Динамическая модульная обрезка открывает возможности для:
- Более энергоэффективного и масштабируемого AI.
- Персонализированных вычислительных путей в зависимости от задачи, пользователя, региона или устройства.
- Переноса подхода в другие области, включая обработку естественного языка и компьютерное зрение.
Архитектура Amazon, вдохновленная биологической эффективностью нейронов, прокладывает путь к мощному и практичному AI для реальных задач.
Для подробностей смотрите оригинальную статью и технические материалы исследователей.
Switch Language
Read this article in English