谷歌开源DiffusionGemma：文本扩散模型本地推理提速约4倍

2026-06-11 16:00:00

标签人工智能开源大模型

2026年6月11日，谷歌正式发布开放模型DiffusionGemma，采用文本扩散（Text Diffusion）机制，主打边缘与本地实时场景。

技术原理

与逐Token自回归不同，扩散模型并行处理序列并在去噪过程中迭代优化，在本地GPU上可显著降低延迟。官方称在H100上可达约1000 tokens/s，DGX Station上约2000 tokens/s，约为同等自回归模型的4倍。

能力权衡

在HumanEval、LiveCodeBench等代码基准上与Gemini 2.0 Flash-Lite互有胜负，但在GPQA Diamond等科学推理任务上仍有差距。模型支持迭代纠错，输出更稳定。

生态意义

扩散架构为端侧助手、实时字幕与车载交互提供新选项。开发者可从Hugging Face获取权重，英伟达亦在官方博文强调其对Tensor Core并行计算的友好性。