Google представила Magenta RealTime: открытую модель для мгновенной генерации музыки с ИИ

Magenta RealTime для интерактивного создания музыки

Команда Google Magenta выпустила Magenta RealTime (Magenta RT) — инновационную открытую модель для генерации музыки в реальном времени. Модель поддерживает динамические и управляемые пользователем стилистические запросы, позволяя музыкантам и создателям мгновенно взаимодействовать с генеративным аудио.

Возможности генерации музыки в реальном времени

В отличие от предыдущих проектов Magenta, сфокусированных на выразительном управлении и моделировании сигналов, Magenta RT расширяет эти идеи до полноспектрального синтеза аудио с обратной связью в реальном времени. Модель сокращает разрыв между AI-генерацией музыки и живым композицированием, обеспечивая мгновенный отклик и развитие музыкального потока.

Техническая архитектура

Magenta RT использует трансформер с 800 миллионами параметров, обученный на дискретных аудиотокенах, полученных с помощью нейрокодека с частотой 48 кГц в стерео. Модель генерирует 2-секундные аудиосегменты в потоке, используя 10-секундное окно контекста для плавного и связного музыкального развития.

Модель поддерживает мультимодальное управление стилем через текстовые запросы или эталонное аудио с помощью модуля встраивания MusicCoCa, гибрида MuLan и CoCa. Это позволяет управлять жанром, инструментами и стилем музыки в реальном времени.

Обучающие данные и режимы ввода

Обучение проводилось на около 190 000 часов инструментальной музыки, что обеспечивает широкую генерализацию по жанрам и адаптацию к различным музыкальным контекстам. Условие генерации учитывает запрос пользователя и 10 секунд предыдущего аудио для непрерывности.

Стилевые запросы могут быть в виде текста или аудио, преобразованные в общее пространство встраивания, что позволяет изменять жанр и смешивать инструменты в реальном времени — важные функции для выступлений и прототипирования.

Производительность и инференс в реальном времени

Несмотря на большой размер, Magenta RT генерирует 2 секунды аудио примерно за 1.25 секунды, обеспечивая работу в реальном времени и даже на бесплатных TPU в Google Colab.

Генерация разбита на 2-секундные сегменты с перекрытием для поддержания плавности звука. Оптимизации в компиляции модели и кешировании минимизируют задержки.

Применение модели

Magenta RT подходит для живых выступлений, DJ-сетов, быстрого прототипирования креативных идей, образовательных программ и интерактивных аудиоинсталляций. В планах — поддержка инференса на устройстве и персональная донастройка для адаптации к индивидуальному стилю.

Отличия от других моделей

В сравнении с MusicFX, RealTime API от Lyria, MusicGen и MusicLM, Magenta RT выделяется открытостью, низкой задержкой и интерактивностью. В отличие от моделей с латентной диффузией или автокорреляционными декодерами, она ориентирована на предсказание кодек-токенов для минимальной задержки.

Magenta RT — важный шаг в развитии AI-музыки, сочетая высокое качество, скорость и контроль пользователя. Модель приглашает исследователей, разработчиков и музыкантов к новым возможностям совместного и отзывчивого генеративного аудио.

Ознакомьтесь с моделью на GitHub и Hugging Face, а также с технической документацией и Colab-ноутбуком для практического использования.