快手 Keye-VL-2.0:256K 长视频 MoE 多模态 Agent,LongVideoBench 74.1

2026-06-16 23:00:00

快手 Keye 团队开源 Keye-VL-2.0-30B-A3B——面向 长视频理解 + Agent 的多模态 MoE 模型。

架构创新

  • 30B 总参数 / ~3B 激活 MoE
  • 首次DeepSeek Sparse Attention (DSA) 适配 GQA 多模态 架构
  • 256K 上下文,支持小时级视频

benchmark 亮点

基准 分数 对比
LongVideoBench 74.1 > Qwen3-VL-235B (70.5)
SWE-bench Verified 62.0 多模态模型中突出
τ²-Bench 82.6 工具调用
VitaBench 33.1 Agent 场景

Agent 能力

内置 Search / Tool / Code 协作环,非事后 bolt-on。

许可与获取

  • Apache 2.0,Hugging Face 开放权重
  • 适合构建 长视频 Agent 栈,替代闭源多模态 API

训练技术

Cross-Modal Multi-Teacher On-Policy Distillation (MOPD) + Context-RL / Video-RL,缓解多任务对齐 灾难性遗忘