NVIDIA发布Nemotron 3 Ultra:550B参数开源模型加速AI Agent推理

2026-06-04 16:00:00

NVIDIA发布Nemotron 3 Ultra,采用约5500亿参数MoE架构(约550亿活跃参数),专为复杂长时程Agent工作流设计。

技术创新

模型引入混合Mamba-Transformer结构、NVFP4量化(官方称吞吐提升约5倍)、多Token预测等优化,在Agent场景下任务成本可降低约30%。NVIDIA承诺完全开源权重、数据与训练配方。

开源推理栈

在闭源前沿模型竞争加剧的同时,开源大参数推理模型为企业在私有化部署、成本可控与可定制微调方面提供新选择,也将刺激Agent平台与推理中间件市场。