Subquadratic Sparse Attention 架构解读：为何 1200 万 Token 可行

2026-06-19 21:00:00

标签人工智能大模型编程工具模型竞赛

Subquadratic Sparse Attention (SSA) 技术解读

问题

标准 Transformer Self-Attention 复杂度 O(n²)——上下文越长，训练与推理成本爆炸。

SSA 方案

学习型稀疏 注意力：模型 动态决定 关注哪些 Token
复杂度随长度 线性增长
非固定稀疏模式（优于早期静态稀疏）

SubQ 1.1 Small 数据

指标	数值
NIAH（针找草）	近完美至 12M Token
1M Token vs dense	64.5× 更少算力
vs FlashAttention-2	56× 更快
GPQA Diamond	85.4%
LiveCodeBench pass@4	89.7%
AutomationBench Finance	13%（该基准全行业偏低）

产品映射

产品	场景
SubQ Code	全仓库单次 pass 代码推理
SubQ Search	百万文档 Deep Research
SubQ API	企业长上下文 pipeline

局限

通用推理 略低于 绝对 frontier（但 LiveCodeBench 接近）
外部复现少——需等待 broader access

架构师视角

长上下文 workload 选型：dense frontier API vs 稀疏专用模型 的 TCO 分水岭 正在形成。