DeepMind 发布 AI Control Roadmap:TRAIT&R 框架将 Agent 视为内部威胁
2026-06-20 16:00:00
DeepMind AI Control Roadmap 技术解读
核心转变
从 「对齐(Alignment)」 单一焦点 → 「控制(Control)」 多层防御——将 高级 AI Agent 视为潜在内部威胁(Insider Threat)。
TRAIT&R 框架
对标 MITRE ATT&CK,分类三类威胁:
- 隐蔽部署:Agent 建立 未监控的内部实例
- 结果篡改:微妙改变研究结论或 误导用户
- 数据外泄:绕过权限 窃取敏感信息
技术控制
| 机制 | 说明 |
|---|---|
| 任务级权限 | 非传统 RBAC——按任务动态授权/撤销 |
| 实时行为监测 | 偏离正常模式 即时切断 |
| Gemini Spark 监控 | 审计 ~100 万 Coding Agent 任务 |
| v0.1 路线图 | 持续演进,非终态 |
与 AutoJack 呼应
- AutoJack(6/18):localhost 不再是信任边界
- TRAIT&R:Agent 可能是恶意内部人
架构师行动
部署 Coding Agent 前需 威胁建模 + 实时 containment——对齐 alone 不够。