Microsoft представляет MAI-Voice-1 и MAI-1-preview — собственные модели для голоса и языкового ИИ

MAI-Voice-1: качественный голос с низкой задержкой

Microsoft AI Lab представил MAI-Voice-1, модель генерации речи на основе трансформеров, оптимизированную для скорости и качества. Модель способна сгенерировать одну минуту естественного звучания аудио менее чем за секунду на одном GPU, что делает её подходящей для задач с низкой задержкой: интерактивных ассистентов, живых озвучек и функций доступности. MAI-Voice-1 поддерживает как синтез одного говорящего, так и многоголосные сценарии, обучена на разнообразном многоязычном корпусе и выдает выразительные, контекстно подходящие голосовые ответы.

MAI-Voice-1 уже интегрирована в продукты Microsoft, такие как Copilot Daily для голосовых обновлений и сводок новостей, и доступна для тестирования в Copilot Labs, где пользователи могут превращать текстовые подсказки в аудиорассказы и проводимые инструкции.

MAI-1-preview: внутренняя foundation модель для диалогов

MAI-1-preview — первая полностью внутренняя foundation языковая модель Microsoft, обученная целиком на собственной инфраструктуре. Модель использует архитектуру mixture-of-experts и обучалась на крупном кластере с примерно 15 000 GPU NVIDIA H100. В отличие от ранее интегрированных или лицензированных внешних моделей, MAI-1-preview разработана внутри компании и оптимизирована для выполнения инструкций и бытовых разговорных задач.

Microsoft постепенно открывает доступ к MAI-1-preview для выбранных текстовых сценариев в Copilot, планируя расширять доступ по мере сбора отзывов и доработки модели. Основные целевые применения — составление писем, ответы на вопросы, суммаризация текстов и помощь в учебных задачах в разговорном формате.

Инфраструктура обучения и инженерный подход

Обе модели разрабатывались с использованием следующего поколения GPU-кластера GB200 и значительных инвестиций в команду, инструменты и процессы. Подход акцентирует равновесие между фундаментальной наукой и практическим внедрением, чтобы модели были не только продвинутыми по возможностям, но и эффективными, надежными и пригодными для интеграции в продукты.

Решение вести разработку моделей внутри компании позволяет Microsoft лучше контролировать подбор данных, процесс обучения и постепенное развертывание, а также тесную интеграцию с существующими сервисами.

Применения и развёртывание

MAI-Voice-1 подходит для ассистентов в реальном времени, создания аудиоконтента для медиа и образования, улучшения доступности, а также интерактивных сценариев вроде сторителлинга и изучения языков с имитацией нескольких говорящих. Эффективность модели на одном GPU расширяет возможности её использования на потребительском оборудовании и в облачных сервисах.

MAI-1-preview ориентирована на общие задачи понимания и генерации языка в потребительских приложениях: редактирование и составление текстов, ответы на вопросы, суммаризация документов и поддержка обучающих сценариев. Microsoft планирует совершенствовать обе модели благодаря пользовательской обратной связи и поэтапному расширению доступа.