OpenAI представила GPT-Realtime: единая речевая модель с поддержкой SIP и MCP

GPT-Realtime как единый аудиопайплайн

GPT-Realtime и обновлённый Realtime API OpenAI отказались от классической цепочки speech-to-text, обработки языка и text-to-speech. Модель обрабатывает аудио напрямую в единой системе, что сокращает задержки и помогает сохранить нюансы голоса, теряющиеся при конвертации в текст и обратно.

Ощутимые, но частичные улучшения

Бенчмарки показывают заметный прогресс, но не революцию. По Big Bench Audio для задач рассуждения GPT-Realtime достигает 82.8% точности против 65.6% у модели декабря 2024 года. Для следования инструкциям MultiChallenge audio вырос до 30.5% с 20.6%. Производительность вызовов функций на ComplexFuncBench поднялась до 66.5% против 49.7%.

Эти прибавки важны, но абсолютные значения подчёркивают оставшиеся ограничения. Уровень следования инструкциям около 30% означает, что многие сложные указания по-прежнему выполняются неправильно.

Функции для бизнеса

OpenAI добавила несколько возможностей, ориентированных на промышленное внедрение. Интеграция SIP позволяет голосовым агентам подключаться напрямую к телефонным сетям и АТС, объединяя цифровой ИИ и традиционную телефонию. Поддержка MCP server упрощает подключение внешних инструментов и сервисов. Ввод изображений даёт возможность связывать разговор с визуальным контекстом, например со скриншотами или фотографиями.

Ключевая операционная возможность — асинхронный вызов функций. Модель может продолжать говорить или вести диалог во время ожидания длительных операций на бэкенде, таких как запросы к базе данных или сторонним API, что решает важную проблему для бизнес-приложений.

Ценообразование и положение на рынке

OpenAI установила цену в 32 USD за миллион аудио входных токенов и 64 USD за миллион аудио выходных токенов, что примерно на 20% ниже предыдущей модели. Такая стратегия выглядит как попытка усилить конкурентное давление; сообщается, что Google и другие игроки предлагают сопоставимые функции по более низкой цене.

По данным, приведённым OpenAI, интерес со стороны предприятий высок: многие компании уже используют продукты OpenAI. В то же время специалисты по голосовому ИИ предупреждают, что простой доступ по API редко закрывает все потребности корпоративных внедрений, которые требуют интеграции, адаптации и повышения надёжности.

Технические ограничения остаются

Влияние фонового шума, акцентов и специфической терминологии всё ещё сказывается на точности. Модель испытывает трудности с поддержанием контекста в длительных разговорах. Независимые тесты показывают значительную деградацию точности в шумных условиях или при разнообразии акцентов.

Задержки уменьшились, но остаются проблемой для приложений в реальном времени. Достичь отклика менее 500 мс сложно, когда агенту нужно выполнить сложную логику или взаимодействовать с внешними системами. Асинхронные вызовы помогают в ряде сценариев, но не снимают фундаментальную жёсткую зависимость между интеллектуальностью и скоростью.

Что это значит на практике

GPT-Realtime — явный шаг вперёд: интегрированная аудиоархитектура, функции для бизнеса и конкурентные цены делают промо-внедрения более реалистичными для колл-центров, образовательных приложений и ассистентов. Но ограничения в точности и надёжности означают, что полностью естественный и готовый к любым условиям голосовой ИИ пока остаётся целью, требующей дальнейшей работы.

Для технических деталей можно обратиться к анонсу OpenAI и сопутствующим материалам.