StepAudio 2.5 Realtime: голосовой AI от StepFun обошел GPT и Gemini по всем тестам

StepAudio 2.5 Realtime: голосовой AI от StepFun обошел GPT и Gemini по всем тестам

Шанхайская лаборатория StepFun, известная своими текстовыми языковыми моделями, выпустила сквозную речевую модель StepAudio 2.5 Realtime. Система работает в реальном времени: принимает аудио на вход и выдает аудио на выход, без промежуточной конвертации в текст.

По данным компании, в апреле 2026 года модель заняла первое место во всех пяти ведущих бенчмарках голосового ИИ. Она обошла такие решения, как GPT Realtime 1.5 от OpenAI и Gemini Live от Google. Отрыв, как утверждается, значительный.

StepAudio 2.5 Realtime поддерживает китайский и английский языки. Для обучения использовался набор данных из миллиона персонажей, а для точной настройки применялась ролевая RLHF (обучение с подкреплением на основе человеческой обратной связи). Это позволило устранить типичную проблему голосовых ассистентов — потерю персонажа при длительном диалоге.

Модель позволяет создавать полностью настраиваемые персонажи с заданным стилем общения. Это открывает возможности для разговорных приложений, голосовых помощников и интерактивных развлечений.

StepFun ранее демонстрировала способность создавать компактные, но производительные модели. Перенос этой экспертизы в голосовую модальность может повлиять на конкурентную среду в сегменте речевого ИИ.