京东开源 JoyAI-VL-Interaction:全球首个全栈实时视频视觉语言交互模型
2026-06-23 11:45:00
JoyAI-VL-Interaction 技术解读
定位
全球首个全栈开源 interaction 模型 + 系统
- 从 「一问一答」 → 「边看边说」
- 实时视频流 持续观察、判断、响应
生态
- vLLM-Omni day-0 原生支持——已合入主线
- 仓库 一键启动 或 vLLM-Omni 拉起服务
评测(58 盲评)
| 对比 | 胜率 |
|---|---|
| 总体 | 77.6% |
| vs 基线 A | 87.9% |
| 监控预警 | 100% |
场景
- 实时监控预警
- 流媒体交互助手
- 物理世界 实时 AI
京东模型矩阵(2026)
| 时间 | 模型 |
|---|---|
| 3 月 | JoyAI-LLM Flash Instruct |
| 4 月 | JoyAI-Image-Edit |
| 6/3 | JoyAI-Echo 长视频生成 |
| 6/23 | JoyAI-VL-Interaction |
意义
开源 + vLLM-Omni 降低 实时 VL Agent 部署门槛——与阿里 HappyOyster 世界模型 互补。