OLMoASR: открытая ASR-платформа AI2, которая бросает вызов Whisper

Институт Аллена по искусственному интеллекту (AI2) представил OLMoASR — полностью открытую систему автоматического распознавания речи (ASR). В релиз вошли не только веса моделей, но и идентификаторы обучающих наборов, шаги фильтрации, рецепты обучения и скрипты бенчмарков. Такая прозрачность делает OLMoASR удобной и расширяемой платформой для исследований и практики.

Почему открытая ASR важна

Сегодня многие передовые ASR-системы от OpenAI, Google или Microsoft доступны только через закрытые API. Эти сервисы демонстрируют высокую производительность, но работают как «чёрные ящики»: наборы данных, методы фильтрации и протоколы оценки часто скрыты. Это затрудняет воспроизводимость, проверку заявлений и адаптацию моделей к новым доменам. OLMoASR устраняет эти ограничения, открывая полный пайплайн и позволяя исследователям воспроизводить результаты и экспериментировать без необходимости строить огромные датасеты заново.

Архитектура моделей и масштабирование

OLMoASR использует трансформерную архитектуру энкодер–декодер: энкодер преобразует аудиосигнал в скрытые представления, а декодер генерирует текстовые токены, опираясь на эти представления. По принципу это похоже на Whisper, но реализация, код и конфигурации OLMoASR полностью открыты.

Семейство моделей включает шесть размеров (все для английского языка), что позволяет балансировать между затратами на вывод и точностью:

Малые модели подходят для встроенных устройств и задач в реальном времени, большие — для задач, где важна максимальная точность.

Данные: от веб-скрейпинга до отфильтрованных смесей

Одним из ключевых вкладов OLMoASR является открытый релиз стратегии обучения, а не только моделей.

Эта двухуровневая стратегия похожа на практики в предобучении языковых моделей: сначала масштаб за счёт шумных корпусов, затем уточнение с помощью качественных подмножеств.

Результаты бенчмарков

AI2 сравнил OLMoASR и Whisper на задачах короткой и длинной речи с использованием наборов LibriSpeech, TED-LIUM3, Switchboard, AMI и VoxPopuli.

Такие результаты дают возможность выбирать модель в зависимости от требований к задержке и ресурсам.

Как использовать

Транскрибировать аудио можно несколькими строками Python-кода:

import olmoasr

model = olmoasr.load_model("medium", inference=True)
result = model.transcribe("audio.mp3")
print(result)

Вывод содержит как сам текст транскрипции, так и тайм-коды сегментов, что удобно для субтитров, протоколов встреч и последующей обработки NLP.

Донастройка и адаптация к доменам

Поскольку AI2 выкладывает полные рецепты и код обучения, OLMoASR легко дообучать для специализированных задач:

Открытость пайплайна упрощает адаптацию, что критично при распространении моделей в специфических доменах.

Применения

OLMoASR открывает широкие возможности: