快手 Keye-VL-2.0:256K 长视频 MoE 多模态 Agent,LongVideoBench 74.1
2026-06-16 23:00:00
快手 Keye 团队开源 Keye-VL-2.0-30B-A3B——面向 长视频理解 + Agent 的多模态 MoE 模型。
架构创新
- 30B 总参数 / ~3B 激活 MoE
- 首次 将 DeepSeek Sparse Attention (DSA) 适配 GQA 多模态 架构
- 256K 上下文,支持小时级视频
benchmark 亮点
| 基准 | 分数 | 对比 |
|---|---|---|
| LongVideoBench | 74.1 | > Qwen3-VL-235B (70.5) |
| SWE-bench Verified | 62.0 | 多模态模型中突出 |
| τ²-Bench | 82.6 | 工具调用 |
| VitaBench | 33.1 | Agent 场景 |
Agent 能力
内置 Search / Tool / Code 协作环,非事后 bolt-on。
许可与获取
- Apache 2.0,Hugging Face 开放权重
- 适合构建 长视频 Agent 栈,替代闭源多模态 API
训练技术
Cross-Modal Multi-Teacher On-Policy Distillation (MOPD) + Context-RL / Video-RL,缓解多任务对齐 灾难性遗忘。