深度解读 MiniMax MSA:稀疏注意力如何支撑 428B 多模态长上下文

2026-06-15 23:30:00

MiniMax M3 的技术亮点在于 MSA(MiniMax Sparse Attention)——团队自研稀疏注意力机制,支撑 428B 总参数 / 23B 激活1M Token 上下文的可Serving 部署。

架构定位

M3 宣称是 首个从 Step 0 开始做多模态混合训练 的开源旗舰,将以下三项闭源前沿能力首次同时开源:

  1. Frontier 级编码与 Agent 能力
  2. 100 万 Token 长上下文
  3. 原生多模态(图像、视频、桌面操控)

性能优化

官方称通过 MSA 与推理优化,输出 TPS 从 30 提升至 80,并计划再增 30–40%,缓解大模型 Serving 成本。

对比意义

在 Qwen3、GLM-5.2、Rio 3.5 等密集发布的 2026 年 6 月,M3 代表 稀疏注意力 + 多模态原生 路线,为长上下文 Agent 提供另一种工程路径。