Devstral 2 技术解读：256K 上下文下的 SWE-bench 72.2% 如何实现

2026-06-17 17:00:00

标签AI智能体开源大模型编程工具

Devstral 2 的技术价值在于：用 123B 密集模型 + 256K 上下文 在 SWE-bench Verified 达到 72.2%，接近闭源 Claude Sonnet 4 水平。

SWE-bench Verified 含义

该基准要求模型 修复真实 GitHub Issue，涉及 多文件读写、测试验证、工具调用——比 HumanEval 更接近生产 Agent 场景。

架构要点

123B 密集 Transformer（非 MoE），256K 上下文
Devstral Small 2（24B）：单卡可跑，仍达 68.0%
Small 2 额外支持 图像输入

与竞品对比（官方数据）

模型	SWE-bench Verified
Devstral 2	72.2%
Devstral Small 2	68.0%
Claude Sonnet 4.5	~78%*
DeepSeek V3.2	人类评估落后 Devstral 2

*独立评测仍偏好 Claude，但开源差距显著缩小。

Vibe CLI 工程集成

config.toml 配置本地模型与 Provider
工具权限显式可控，支持 auto-approval 开关
Agent Communication Protocol 对接 IDE

部署建议

123B：至少 4× H100 级集群
24B：单卡消费级 GPU + CPU fallback
企业可先 API 试用，再评估私有化