StepAudio 2.5 Realtime: голосовой AI от StepFun обошел GPT и Gemini по всем тестам

Шанхайская лаборатория StepFun, известная своими текстовыми языковыми моделями, выпустила сквозную речевую модель StepAudio 2.5 Realtime. Система работает в реальном времени: принимает аудио на вход и выдает аудио на выход, без промежуточной конвертации в текст.
По данным компании, в апреле 2026 года модель заняла первое место во всех пяти ведущих бенчмарках голосового ИИ. Она обошла такие решения, как GPT Realtime 1.5 от OpenAI и Gemini Live от Google. Отрыв, как утверждается, значительный.
StepAudio 2.5 Realtime поддерживает китайский и английский языки. Для обучения использовался набор данных из миллиона персонажей, а для точной настройки применялась ролевая RLHF (обучение с подкреплением на основе человеческой обратной связи). Это позволило устранить типичную проблему голосовых ассистентов — потерю персонажа при длительном диалоге.
Модель позволяет создавать полностью настраиваемые персонажи с заданным стилем общения. Это открывает возможности для разговорных приложений, голосовых помощников и интерактивных развлечений.
StepFun ранее демонстрировала способность создавать компактные, но производительные модели. Перенос этой экспертизы в голосовую модальность может повлиять на конкурентную среду в сегменте речевого ИИ.
.






ФинБи