Google представила DiffusionGemma: 1000 токенов в секунду бесплатно, но на обычных ПК не запустишь

Компания Google представила DiffusionGemma — новую модель искусственного интеллекта с открытыми весами, доступную бесплатно. Как сообщает Decrypt, разработка основана на технике диффузии текста, что позволяет генерировать целые блоки из 256 токенов одновременно, а не по одному за раз. На ускорителе NVIDIA H100 модель демонстрирует скорость более 1000 токенов в секунду — примерно в четыре раза быстрее стандартных авторегрессионных моделей.
Такой подход отказывается от последовательной генерации слов, что значительно ускоряет вывод. Однако, отмечается в публикации, для запуска DiffusionGemma на собственном оборудовании необходим специальный модуль-драфтер, который пока не реализован ни в одной общедоступной среде исполнения — ни в mlx-lm, ни в LM Studio. Это делает модель практически неработоспособной на большинстве потребительских устройств.
На платформе NVIDIA NIM модель поставляется с предустановленным контекстом в 8192 токена, что ниже минимального порога в 64 000 токенов, требуемого фреймворками для автономных агентов, такими как Hermes Agent. Таким образом, для использования в продвинутых сценариях потребуется ручная перенастройка.
По данным источника, DiffusionGemma относится к категории open-weight — её параметры открыты для изучения и доработки сообществом. Это продолжает стратегию Google по расширению доступа к большим языковым моделям, хотя на данном этапе их практическое применение вне специализированных серверов ограничено.
Для исследователей и разработчиков, располагающих инфраструктурой с NVIDIA H100, модель может стать ценным инструментом для экспериментов с быстрой генерацией текста. Однако массовое внедрение потребует адаптации под распространённое оборудование.
.






ФинБи