Xiaomi MiMo AI в 15 раз быстрее ChatGPT: рекорд 1000 токенов/сек на обычных GPU

Xiaomi MiMo AI в 15 раз быстрее ChatGPT: рекорд 1000 токенов/сек на обычных GPU

Xiaomi, известная в первую очередь как производитель смартфонов, неожиданно установила рекорд скорости в области ИИ-инференса. Компания совместно с партнёром TileRT выпустила MiMo-V2.5-Pro-UltraSpeed — режим обслуживания своей флагманской модели с триллионом параметров.

Новый режим достигает более 1000 токенов в секунду при работе на стандартном 8-GPU узле без применения специализированных чипов. Это первое подобное достижение для моделей такого масштаба. Для сравнения: ChatGPT и Claude работают значительно медленнее.

Скорость обеспечивается двумя технологиями: FP4-квантизация на экспертных слоях модели и спекулятивное декодирование DFlash, которое за один проход генерирует целый блок токенов вместо последовательной генерации.

Xiaomi запускает ограниченное API-тестирование с 9 по 23 июня. Стоимость использования установлена в три раза выше стандартных тарифов MiMo, но при этом скорость генерации примерно в 10 раз выше.

Прорыв Xiaomi демонстрирует, что существенного ускорения ИИ-моделей можно добиться без перехода на дорогостоящие кастомные процессоры. Это может изменить подход к развёртыванию крупных языковых моделей в индустрии.