深度解读 MiniMax MSA：稀疏注意力如何支撑 428B 多模态长上下文

2026-06-15 23:30:00

标签人工智能开源大模型云计算

MiniMax M3 的技术亮点在于 MSA（MiniMax Sparse Attention）——团队自研稀疏注意力机制，支撑 428B 总参数 / 23B 激活 与 1M Token 上下文的可Serving 部署。

架构定位

M3 宣称是 首个从 Step 0 开始做多模态混合训练 的开源旗舰，将以下三项闭源前沿能力首次同时开源：

Frontier 级编码与 Agent 能力
100 万 Token 长上下文
原生多模态（图像、视频、桌面操控）

性能优化

官方称通过 MSA 与推理优化，输出 TPS 从 30 提升至 80，并计划再增 30–40%，缓解大模型 Serving 成本。

对比意义

在 Qwen3、GLM-5.2、Rio 3.5 等密集发布的 2026 年 6 月，M3 代表 稀疏注意力 + 多模态原生 路线，为长上下文 Agent 提供另一种工程路径。