Mistral AI представляет Voxtral: лучшие открытые модели распознавания речи с продвинутым пониманием аудио

Представляем Voxtral: новая эра в распознавании речи и понимании языка

Компания Mistral AI выпустила Voxtral — семейство моделей с открытыми весами, которые одинаково хорошо работают с аудио и текстовыми данными. Две версии, Voxtral-Small-24B и Voxtral-Mini-3B, построены на базе языковой модели Mistral и объединяют автоматическое распознавание речи (ASR) с возможностями понимания естественного языка в одной системе. Модели распространяются под лицензией Apache 2.0 и предназначены для транскрипции, суммирования, ответов на вопросы и управления функциями по голосовым командам.

Архитектура и обработка длинных аудиоконтекстов

Модели Voxtral базируются на Mistral Small 3.1 с добавлением аудио-фронтенда, что позволяет обрабатывать как речь, так и текст. Контекстное окно составляет 32 000 токенов, что обеспечивает:

Транскрипцию аудио длительностью около 30 минут
Расширенное рассуждение и суммирование аудио до 40 минут

Такая поддержка длинного контекста уменьшает необходимость разбивать или усекать аудио, что важно для анализа совещаний и мультимедийной документации.

Ключевые возможности

Надежное распознавание речи

Voxtral демонстрирует высокую точность ASR в различных акустических условиях. Mistral предлагает специальные API с низкой задержкой для использования в реальном времени и потоковой передаче.

Многоязычность и смешанные языки

Модели автоматически определяют язык и поддерживают основные языки — английский, испанский, французский, португальский, хинди, немецкий, голландский и итальянский. Один экземпляр модели может работать с мульти-язычными сценариями без дополнительной настройки.

Понимание аудио за пределами транскрипции

Voxtral может отвечать на вопросы по аудиоконтенту (например, «Какое было принято решение?») и создавать краткие резюме без необходимости комбинировать ASR с отдельными большими языковыми моделями, что снижает задержку и упрощает архитектуру.

Выполнение команд по голосу

Модели распознают намерения пользователя напрямую из голоса и запускают соответствующие действия или рабочие процессы. Это полезно для голосовых ассистентов, промышленных систем и автоматизации обслуживания клиентов.

Поддержка текстового режима

Благодаря общему фундаменту с языковыми моделями Mistral, Voxtral хорошо справляется и с задачами, основанными только на тексте, обеспечивая удобство в мультиинтерфейсных приложениях.

Варианты моделей и сценарии развертывания

| Модель | Параметры | Входные данные | Длина контекста | Контекст применения | |-------------------|-----------|----------------|-----------------|---------------------------------| | Voxtral-Mini-3B | 3B | Аудио + Текст | 32K токенов | Пограничные и мобильные устройства | | Voxtral-Small-24B | 24B | Аудио + Текст | 32K токенов | Облачные и API-системы |

3-миллиардная версия предназначена для легких локальных развертываний, а 24-миллиардная — для производственных сред с большими вычислительными ресурсами.

Интеграция и практическое применение

Mistral предлагает оптимизированные API для транскрипции с низкой задержкой, что облегчает интеграцию в инструменты для записи совещаний, системы перевода в реальном времени, аудиозаметки и голосовое управление. Открытые веса и гибкая лицензия позволяют использовать Voxtral в защищенных локальных средах и облаке.

Развитие голосовых технологий

По мере роста числа голосовых интерфейсов в мобильных приложениях, носимых устройствах, автомобильных системах и службах поддержки, Voxtral обеспечивает более точную и контекстно осведомленную обработку голоса, позволяя разработчикам перейти от многоступенчатых систем к единой модульной модели.

Итоги

Voxtral представляет собой модульный подход, объединяющий точное распознавание речи с языковым анализом и парсингом команд. Многоязычность, поддержка длинного контекста и гибкие варианты развертывания делают его мощным инструментом для различных приложений — от суммирования до интерактивных голосовых агентов.

Для подробностей ознакомьтесь с технической документацией по Voxtral-Small-24B-2507 и Voxtral-Mini-3B-2507. Все заслуги принадлежат исследовательской команде проекта.