Google представила Magenta RealTime: открытую модель для мгновенной генерации музыки с ИИ
'Google представила Magenta RealTime — открытую трансформер-модель для интерактивной генерации музыки с ИИ в реальном времени, поддерживающую динамическое управление стилем и низкую задержку.'
Magenta RealTime для интерактивного создания музыки
Команда Google Magenta выпустила Magenta RealTime (Magenta RT) — инновационную открытую модель для генерации музыки в реальном времени. Модель поддерживает динамические и управляемые пользователем стилистические запросы, позволяя музыкантам и создателям мгновенно взаимодействовать с генеративным аудио.
Возможности генерации музыки в реальном времени
В отличие от предыдущих проектов Magenta, сфокусированных на выразительном управлении и моделировании сигналов, Magenta RT расширяет эти идеи до полноспектрального синтеза аудио с обратной связью в реальном времени. Модель сокращает разрыв между AI-генерацией музыки и живым композицированием, обеспечивая мгновенный отклик и развитие музыкального потока.
Техническая архитектура
Magenta RT использует трансформер с 800 миллионами параметров, обученный на дискретных аудиотокенах, полученных с помощью нейрокодека с частотой 48 кГц в стерео. Модель генерирует 2-секундные аудиосегменты в потоке, используя 10-секундное окно контекста для плавного и связного музыкального развития.
Модель поддерживает мультимодальное управление стилем через текстовые запросы или эталонное аудио с помощью модуля встраивания MusicCoCa, гибрида MuLan и CoCa. Это позволяет управлять жанром, инструментами и стилем музыки в реальном времени.
Обучающие данные и режимы ввода
Обучение проводилось на около 190 000 часов инструментальной музыки, что обеспечивает широкую генерализацию по жанрам и адаптацию к различным музыкальным контекстам. Условие генерации учитывает запрос пользователя и 10 секунд предыдущего аудио для непрерывности.
Стилевые запросы могут быть в виде текста или аудио, преобразованные в общее пространство встраивания, что позволяет изменять жанр и смешивать инструменты в реальном времени — важные функции для выступлений и прототипирования.
Производительность и инференс в реальном времени
Несмотря на большой размер, Magenta RT генерирует 2 секунды аудио примерно за 1.25 секунды, обеспечивая работу в реальном времени и даже на бесплатных TPU в Google Colab.
Генерация разбита на 2-секундные сегменты с перекрытием для поддержания плавности звука. Оптимизации в компиляции модели и кешировании минимизируют задержки.
Применение модели
Magenta RT подходит для живых выступлений, DJ-сетов, быстрого прототипирования креативных идей, образовательных программ и интерактивных аудиоинсталляций. В планах — поддержка инференса на устройстве и персональная донастройка для адаптации к индивидуальному стилю.
Отличия от других моделей
В сравнении с MusicFX, RealTime API от Lyria, MusicGen и MusicLM, Magenta RT выделяется открытостью, низкой задержкой и интерактивностью. В отличие от моделей с латентной диффузией или автокорреляционными декодерами, она ориентирована на предсказание кодек-токенов для минимальной задержки.
Magenta RT — важный шаг в развитии AI-музыки, сочетая высокое качество, скорость и контроль пользователя. Модель приглашает исследователей, разработчиков и музыкантов к новым возможностям совместного и отзывчивого генеративного аудио.
Ознакомьтесь с моделью на GitHub и Hugging Face, а также с технической документацией и Colab-ноутбуком для практического использования.
Switch Language
Read this article in English