算苗 Tile-Native 3D TokenPU:大模型 Token 推理的软硬件协同设计

2026-06-19 11:30:00

算苗 Tile-Native 3D TokenPU 架构解读

Tile-Native 是什么

Tile 是矩阵运算的基本块。Tile-Native 意味着:

  • 硬件 原生支持 Tile 级数据调度
  • 多精度动态切换(INT8/FP16/BF16 等按层选择)
  • 软件 编译器(LLVM/Triton)与硬件 协同优化

3D 混合堆叠

  • 垂直堆叠 计算层与存储层
  • 提升 带宽算力密度
  • 国产供应链 全流程(流片里程碑意义)

Token 推理优化

大模型推理瓶颈在 Token 序列的重复搬运

「一次搬运、多次复用」 —— 减少 DRAM 访问,降低 算力损耗与 TCO

软件生态

  • 适配 LLVM、Triton 等开源编译生态
  • 降低 PyTorch/vLLM 等框架 移植成本(需后续公开 Benchmark)

对比

类型 代表 特点
GPU 通用 NVIDIA H100 生态成熟
国产通用 昇腾 910 信创适配
Token 专用 算苗 TokenPU 推理 TCO 优化

评估建议

关注 量产时间、框架适配列表、DeepSeek/Qwen 实测 TPS/$ 后再做采购决策。