Mistral AI представляет Voxtral: лучшие открытые модели распознавания речи с продвинутым пониманием аудио
Mistral AI выпустила Voxtral — современные открытые модели распознавания речи, объединяющие транскрипцию и понимание языка с поддержкой длинного аудиоконтекста и нескольких языков.
Представляем Voxtral: новая эра в распознавании речи и понимании языка
Компания Mistral AI выпустила Voxtral — семейство моделей с открытыми весами, которые одинаково хорошо работают с аудио и текстовыми данными. Две версии, Voxtral-Small-24B и Voxtral-Mini-3B, построены на базе языковой модели Mistral и объединяют автоматическое распознавание речи (ASR) с возможностями понимания естественного языка в одной системе. Модели распространяются под лицензией Apache 2.0 и предназначены для транскрипции, суммирования, ответов на вопросы и управления функциями по голосовым командам.
Архитектура и обработка длинных аудиоконтекстов
Модели Voxtral базируются на Mistral Small 3.1 с добавлением аудио-фронтенда, что позволяет обрабатывать как речь, так и текст. Контекстное окно составляет 32 000 токенов, что обеспечивает:
- Транскрипцию аудио длительностью около 30 минут
- Расширенное рассуждение и суммирование аудио до 40 минут
Такая поддержка длинного контекста уменьшает необходимость разбивать или усекать аудио, что важно для анализа совещаний и мультимедийной документации.
Ключевые возможности
Надежное распознавание речи
Voxtral демонстрирует высокую точность ASR в различных акустических условиях. Mistral предлагает специальные API с низкой задержкой для использования в реальном времени и потоковой передаче.
Многоязычность и смешанные языки
Модели автоматически определяют язык и поддерживают основные языки — английский, испанский, французский, португальский, хинди, немецкий, голландский и итальянский. Один экземпляр модели может работать с мульти-язычными сценариями без дополнительной настройки.
Понимание аудио за пределами транскрипции
Voxtral может отвечать на вопросы по аудиоконтенту (например, «Какое было принято решение?») и создавать краткие резюме без необходимости комбинировать ASR с отдельными большими языковыми моделями, что снижает задержку и упрощает архитектуру.
Выполнение команд по голосу
Модели распознают намерения пользователя напрямую из голоса и запускают соответствующие действия или рабочие процессы. Это полезно для голосовых ассистентов, промышленных систем и автоматизации обслуживания клиентов.
Поддержка текстового режима
Благодаря общему фундаменту с языковыми моделями Mistral, Voxtral хорошо справляется и с задачами, основанными только на тексте, обеспечивая удобство в мультиинтерфейсных приложениях.
Варианты моделей и сценарии развертывания
| Модель | Параметры | Входные данные | Длина контекста | Контекст применения | |-------------------|-----------|----------------|-----------------|---------------------------------| | Voxtral-Mini-3B | 3B | Аудио + Текст | 32K токенов | Пограничные и мобильные устройства | | Voxtral-Small-24B | 24B | Аудио + Текст | 32K токенов | Облачные и API-системы |
3-миллиардная версия предназначена для легких локальных развертываний, а 24-миллиардная — для производственных сред с большими вычислительными ресурсами.
Интеграция и практическое применение
Mistral предлагает оптимизированные API для транскрипции с низкой задержкой, что облегчает интеграцию в инструменты для записи совещаний, системы перевода в реальном времени, аудиозаметки и голосовое управление. Открытые веса и гибкая лицензия позволяют использовать Voxtral в защищенных локальных средах и облаке.
Развитие голосовых технологий
По мере роста числа голосовых интерфейсов в мобильных приложениях, носимых устройствах, автомобильных системах и службах поддержки, Voxtral обеспечивает более точную и контекстно осведомленную обработку голоса, позволяя разработчикам перейти от многоступенчатых систем к единой модульной модели.
Итоги
Voxtral представляет собой модульный подход, объединяющий точное распознавание речи с языковым анализом и парсингом команд. Многоязычность, поддержка длинного контекста и гибкие варианты развертывания делают его мощным инструментом для различных приложений — от суммирования до интерактивных голосовых агентов.
Для подробностей ознакомьтесь с технической документацией по Voxtral-Small-24B-2507 и Voxtral-Mini-3B-2507. Все заслуги принадлежат исследовательской команде проекта.
Switch Language
Read this article in English