Google представила DiffusionGemma — быстрая диффузионная модель

Google представила DiffusionGemma, экспериментальную открытую модель для генерации текста, которая по заявлению компании работает до четырёх раз быстрее традиционных языковых моделей на выделенных GPU. Модель представляет собой 26‑миллиардный Mixture of Experts и использует метод текстовой диффузии для одновременной генерации целых блоков текста вместо последовательной обработки токенов. При инференсе активируется только 3,8 миллиарда параметров, а при квантизации модель умещается в 18 ГБ видеопамяти современных потребительских графических карт. DiffusionGemma способна выдавать более 1000 токенов в секунду на одной NVIDIA H100 и свыше 700 токенов в секунду на GeForce RTX 5090, генерируя по 256 токенов параллельно в каждом проходе.

Архитектура обеспечивает двунаправленное внимание, при котором каждый токен может учитывать все остальные, и итеративно уточняет собственный вывод для исправления ошибок в реальном времени, хотя Google отмечает, что по качеству итоговый текст уступает стандартным моделям Gemma 4. Компания выпустила DiffusionGemma под лицензией Apache 2.0 на платформе Hugging Face и позиционирует её как инструмент для исследователей и разработчиков, работающих с интерактивными локальными сценариями: встроенное редактирование, быстрая итерация и создание нелинейных текстовых структур. Модель совместима с MLX, vLLM (с интеграцией Red Hat), Hugging Face Transformers, Unsloth и NVIDIA NeMo. Google также сотрудничала с NVIDIA для оптимизации производительности на уровне аппаратного стека, включая GeForce RTX 5090 и 4090 для потребительских систем и серверные архитектуры Hopper и Blackwell с NVFP4‑ядрами для корпоративных развёртываний.

Оставить комментарий Отменить ответ