Subquadratic Sparse Attention 架构解读:为何 1200 万 Token 可行
2026-06-19 21:00:00
Subquadratic Sparse Attention (SSA) 技术解读
问题
标准 Transformer Self-Attention 复杂度 O(n²)——上下文越长,训练与推理成本爆炸。
SSA 方案
- 学习型稀疏 注意力:模型 动态决定 关注哪些 Token
- 复杂度随长度 线性增长
- 非固定稀疏模式(优于早期静态稀疏)
SubQ 1.1 Small 数据
| 指标 | 数值 |
|---|---|
| NIAH(针找草) | 近完美至 12M Token |
| 1M Token vs dense | 64.5× 更少算力 |
| vs FlashAttention-2 | 56× 更快 |
| GPQA Diamond | 85.4% |
| LiveCodeBench pass@4 | 89.7% |
| AutomationBench Finance | 13%(该基准全行业偏低) |
产品映射
| 产品 | 场景 |
|---|---|
| SubQ Code | 全仓库 单次 pass 代码推理 |
| SubQ Search | 百万文档 Deep Research |
| SubQ API | 企业长上下文 pipeline |
局限
- 通用推理 略低于 绝对 frontier(但 LiveCodeBench 接近)
- 外部复现少——需等待 broader access
架构师视角
长上下文 workload 选型:dense frontier API vs 稀疏专用模型 的 TCO 分水岭 正在形成。