OLMoASR: открытая ASR-платформа AI2, которая бросает вызов Whisper
Институт Аллена по искусственному интеллекту (AI2) представил OLMoASR — полностью открытую систему автоматического распознавания речи (ASR). В релиз вошли не только веса моделей, но и идентификаторы обучающих наборов, шаги фильтрации, рецепты обучения и скрипты бенчмарков. Такая прозрачность делает OLMoASR удобной и расширяемой платформой для исследований и практики.
Почему открытая ASR важна
Сегодня многие передовые ASR-системы от OpenAI, Google или Microsoft доступны только через закрытые API. Эти сервисы демонстрируют высокую производительность, но работают как «чёрные ящики»: наборы данных, методы фильтрации и протоколы оценки часто скрыты. Это затрудняет воспроизводимость, проверку заявлений и адаптацию моделей к новым доменам. OLMoASR устраняет эти ограничения, открывая полный пайплайн и позволяя исследователям воспроизводить результаты и экспериментировать без необходимости строить огромные датасеты заново.
Архитектура моделей и масштабирование
OLMoASR использует трансформерную архитектуру энкодер–декодер: энкодер преобразует аудиосигнал в скрытые представления, а декодер генерирует текстовые токены, опираясь на эти представления. По принципу это похоже на Whisper, но реализация, код и конфигурации OLMoASR полностью открыты.
Семейство моделей включает шесть размеров (все для английского языка), что позволяет балансировать между затратами на вывод и точностью:
- tiny.en – 39M параметров
- base.en – 74M параметров
- small.en – 244M параметров
- medium.en – 769M параметров
- large.en-v1 – 1.5B параметров, обучена на 440K часов
- large.en-v2 – 1.5B параметров, обучена на 680K часов
Малые модели подходят для встроенных устройств и задач в реальном времени, большие — для задач, где важна максимальная точность.
Данные: от веб-скрейпинга до отфильтрованных смесей
Одним из ключевых вкладов OLMoASR является открытый релиз стратегии обучения, а не только моделей.
OLMoASR-Pool (~3M часов): огромная коллекция слабонаблюдаемой речи с транскриптами, собранная из интернета. Набор шумный и может содержать несоответствия, дубликаты и ошибки транскрипции.
OLMoASR-Mix (~1M часов): тщательно отфильтрованный поднабор для повышения качества. AI2 использовал эвристики выравнивания, нечёткое удаление дубликатов и правила очистки для повышения соответствия аудио и транскриптов.
Эта двухуровневая стратегия похожа на практики в предобучении языковых моделей: сначала масштаб за счёт шумных корпусов, затем уточнение с помощью качественных подмножеств.
Результаты бенчмарков
AI2 сравнил OLMoASR и Whisper на задачах короткой и длинной речи с использованием наборов LibriSpeech, TED-LIUM3, Switchboard, AMI и VoxPopuli.
- Модель medium (769M): 12.8% WER на короткой речи и 11.0% WER на длинной — близко к Whisper-medium.en (12.4% / 10.5%).
- Большие модели (1.5B): large.en-v1 (440K часов) — около 13.0% WER на короткой речи (Whisper large-v1 ~12.2%); large.en-v2 (680K часов) улучшилась до ~12.6% WER, сокращая разрыв до менее чем 0.5% в некоторых задачах.
- Малые модели также конкурентны: tiny.en ~20.5% WER на короткой речи, base.en ~16.6% WER на короткой речи.
Такие результаты дают возможность выбирать модель в зависимости от требований к задержке и ресурсам.
Как использовать
Транскрибировать аудио можно несколькими строками Python-кода:
import olmoasr
model = olmoasr.load_model("medium", inference=True)
result = model.transcribe("audio.mp3")
print(result)
Вывод содержит как сам текст транскрипции, так и тайм-коды сегментов, что удобно для субтитров, протоколов встреч и последующей обработки NLP.
Донастройка и адаптация к доменам
Поскольку AI2 выкладывает полные рецепты и код обучения, OLMoASR легко дообучать для специализированных задач:
- Медицинская речь — адаптация на клинических корпусах
- Юридические транскрипты — обучение на судебных аудиозаписях
- Низкоресурсные акценты — дообучение на диалектах с плохим покрытием
Открытость пайплайна упрощает адаптацию, что критично при распространении моделей в специфических доменах.
Применения
OLMoASR открывает широкие возможности:
- Исследования влияния качества датасетов, фильтрации и архитектуры на производительность ASR
- Встраивание распознавания речи в интерфейсы, сервисы транскрибирования и приложения доступности без зависимости от API
- Создание мультимодальных агентов, сочетающих голосовой ввод и большие языковые модели
- Стандартизированные бенчмарки благодаря доступности моделей, данных и скриптов оценки