OLMoASR: открытая ASR-платформа AI2, которая бросает вызов Whisper

сентября 4, 2025 · 3 min

Институт Аллена по искусственному интеллекту (AI2) представил OLMoASR — полностью открытую систему автоматического распознавания речи (ASR). В релиз вошли не только веса моделей, но и идентификаторы обучающих наборов, шаги фильтрации, рецепты обучения и скрипты бенчмарков. Такая прозрачность делает OLMoASR удобной и расширяемой платформой для исследований и практики.

Почему открытая ASR важна

Сегодня многие передовые ASR-системы от OpenAI, Google или Microsoft доступны только через закрытые API. Эти сервисы демонстрируют высокую производительность, но работают как «чёрные ящики»: наборы данных, методы фильтрации и протоколы оценки часто скрыты. Это затрудняет воспроизводимость, проверку заявлений и адаптацию моделей к новым доменам. OLMoASR устраняет эти ограничения, открывая полный пайплайн и позволяя исследователям воспроизводить результаты и экспериментировать без необходимости строить огромные датасеты заново.

Архитектура моделей и масштабирование

OLMoASR использует трансформерную архитектуру энкодер–декодер: энкодер преобразует аудиосигнал в скрытые представления, а декодер генерирует текстовые токены, опираясь на эти представления. По принципу это похоже на Whisper, но реализация, код и конфигурации OLMoASR полностью открыты.

Семейство моделей включает шесть размеров (все для английского языка), что позволяет балансировать между затратами на вывод и точностью:

tiny.en – 39M параметров
base.en – 74M параметров
small.en – 244M параметров
medium.en – 769M параметров
large.en-v1 – 1.5B параметров, обучена на 440K часов
large.en-v2 – 1.5B параметров, обучена на 680K часов

Малые модели подходят для встроенных устройств и задач в реальном времени, большие — для задач, где важна максимальная точность.

Данные: от веб-скрейпинга до отфильтрованных смесей

Одним из ключевых вкладов OLMoASR является открытый релиз стратегии обучения, а не только моделей.

OLMoASR-Pool (~3M часов): огромная коллекция слабонаблюдаемой речи с транскриптами, собранная из интернета. Набор шумный и может содержать несоответствия, дубликаты и ошибки транскрипции.
OLMoASR-Mix (~1M часов): тщательно отфильтрованный поднабор для повышения качества. AI2 использовал эвристики выравнивания, нечёткое удаление дубликатов и правила очистки для повышения соответствия аудио и транскриптов.

Эта двухуровневая стратегия похожа на практики в предобучении языковых моделей: сначала масштаб за счёт шумных корпусов, затем уточнение с помощью качественных подмножеств.

Результаты бенчмарков

AI2 сравнил OLMoASR и Whisper на задачах короткой и длинной речи с использованием наборов LibriSpeech, TED-LIUM3, Switchboard, AMI и VoxPopuli.

Модель medium (769M): 12.8% WER на короткой речи и 11.0% WER на длинной — близко к Whisper-medium.en (12.4% / 10.5%).
Большие модели (1.5B): large.en-v1 (440K часов) — около 13.0% WER на короткой речи (Whisper large-v1 ~12.2%); large.en-v2 (680K часов) улучшилась до ~12.6% WER, сокращая разрыв до менее чем 0.5% в некоторых задачах.
Малые модели также конкурентны: tiny.en ~20.5% WER на короткой речи, base.en ~16.6% WER на короткой речи.

Такие результаты дают возможность выбирать модель в зависимости от требований к задержке и ресурсам.

Как использовать

Транскрибировать аудио можно несколькими строками Python-кода:

import olmoasr

model = olmoasr.load_model("medium", inference=True)
result = model.transcribe("audio.mp3")
print(result)

Вывод содержит как сам текст транскрипции, так и тайм-коды сегментов, что удобно для субтитров, протоколов встреч и последующей обработки NLP.

Донастройка и адаптация к доменам

Поскольку AI2 выкладывает полные рецепты и код обучения, OLMoASR легко дообучать для специализированных задач:

Медицинская речь — адаптация на клинических корпусах
Юридические транскрипты — обучение на судебных аудиозаписях
Низкоресурсные акценты — дообучение на диалектах с плохим покрытием

Открытость пайплайна упрощает адаптацию, что критично при распространении моделей в специфических доменах.

Применения

OLMoASR открывает широкие возможности:

Исследования влияния качества датасетов, фильтрации и архитектуры на производительность ASR
Встраивание распознавания речи в интерфейсы, сервисы транскрибирования и приложения доступности без зависимости от API
Создание мультимодальных агентов, сочетающих голосовой ввод и большие языковые модели
Стандартизированные бенчмарки благодаря доступности моделей, данных и скриптов оценки