谷歌开源DiffusionGemma:文本扩散模型本地推理提速约4倍
2026-06-11 16:00:00
2026年6月11日,谷歌正式发布开放模型DiffusionGemma,采用文本扩散(Text Diffusion)机制,主打边缘与本地实时场景。
技术原理
与逐Token自回归不同,扩散模型并行处理序列并在去噪过程中迭代优化,在本地GPU上可显著降低延迟。官方称在H100上可达约1000 tokens/s,DGX Station上约2000 tokens/s,约为同等自回归模型的4倍。
能力权衡
在HumanEval、LiveCodeBench等代码基准上与Gemini 2.0 Flash-Lite互有胜负,但在GPQA Diamond等科学推理任务上仍有差距。模型支持迭代纠错,输出更稳定。
生态意义
扩散架构为端侧助手、实时字幕与车载交互提供新选项。开发者可从Hugging Face获取权重,英伟达亦在官方博文强调其对Tensor Core并行计算的友好性。