深度解读 MiniMax MSA:稀疏注意力如何支撑 428B 多模态长上下文
2026-06-15 23:30:00
MiniMax M3 的技术亮点在于 MSA(MiniMax Sparse Attention)——团队自研稀疏注意力机制,支撑 428B 总参数 / 23B 激活 与 1M Token 上下文的可Serving 部署。
架构定位
M3 宣称是 首个从 Step 0 开始做多模态混合训练 的开源旗舰,将以下三项闭源前沿能力首次同时开源:
- Frontier 级编码与 Agent 能力
- 100 万 Token 长上下文
- 原生多模态(图像、视频、桌面操控)
性能优化
官方称通过 MSA 与推理优化,输出 TPS 从 30 提升至 80,并计划再增 30–40%,缓解大模型 Serving 成本。
对比意义
在 Qwen3、GLM-5.2、Rio 3.5 等密集发布的 2026 年 6 月,M3 代表 稀疏注意力 + 多模态原生 路线,为长上下文 Agent 提供另一种工程路径。