百度开源 Unlimited OCR:长程文档解析 SOTA,GitHub 破千 Star
2026-06-23 16:00:00
6 月 23 日,百度 Unlimited OCR 论文 arXiv:2606.23050 发布,GitHub 1000+ Star。
核心创新
Reference Sliding Window Attention(R-SWA):
- 解码器 恒定 KV cache——长文档 不降速
- 一次 forward 解析 数十页(32K 长度内)
- 基于 DeepSeek OCR 编码器 + MoE 解码器
benchmark
| 基准 | Unlimited OCR | DeepSeek OCR |
|---|---|---|
| OmniDocBench v1.5 | 93.23% | 87.01% |
| OmniDocBench v1.6 | 93.92%(SOTA) | — |
| 40+ 页长文档 | edit distance <0.11 | 性能衰减 |
规格
- 总参数 3B,激活 0.5B
- MIT License
- Hugging Face + ModelScope 权重
- 支持 Transformers / SGLang
团队背景
- 署名神秘 「YY」 任 technical director——社区猜测 DeepSeek OCR 背景
- 6/18 首发,6/23 论文 + ModelScope
应用
OCR、ASR、翻译等 长程 reference-based 任务
意义
文档 AI 从 逐页 → one-shot 长程——企业 合同/财报/RAG 新选项。