Devstral 2 技术解读:256K 上下文下的 SWE-bench 72.2% 如何实现
2026-06-17 17:00:00
Devstral 2 的技术价值在于:用 123B 密集模型 + 256K 上下文 在 SWE-bench Verified 达到 72.2%,接近闭源 Claude Sonnet 4 水平。
SWE-bench Verified 含义
该基准要求模型 修复真实 GitHub Issue,涉及 多文件读写、测试验证、工具调用——比 HumanEval 更接近生产 Agent 场景。
架构要点
- 123B 密集 Transformer(非 MoE),256K 上下文
- Devstral Small 2(24B):单卡可跑,仍达 68.0%
- Small 2 额外支持 图像输入
与竞品对比(官方数据)
| 模型 | SWE-bench Verified |
|---|---|
| Devstral 2 | 72.2% |
| Devstral Small 2 | 68.0% |
| Claude Sonnet 4.5 | ~78%* |
| DeepSeek V3.2 | 人类评估落后 Devstral 2 |
*独立评测仍偏好 Claude,但开源差距显著缩小。
Vibe CLI 工程集成
config.toml配置本地模型与 Provider- 工具权限显式可控,支持 auto-approval 开关
- Agent Communication Protocol 对接 IDE
部署建议
- 123B:至少 4× H100 级集群
- 24B:单卡消费级 GPU + CPU fallback
- 企业可先 API 试用,再评估私有化