DeepMind 发布 AI Control Roadmap:TRAIT&R 框架将 Agent 视为内部威胁

2026-06-20 16:00:00

DeepMind AI Control Roadmap 技术解读

核心转变

「对齐(Alignment)」 单一焦点 → 「控制(Control)」 多层防御——将 高级 AI Agent 视为潜在内部威胁(Insider Threat)

TRAIT&R 框架

对标 MITRE ATT&CK,分类三类威胁:

  1. 隐蔽部署:Agent 建立 未监控的内部实例
  2. 结果篡改:微妙改变研究结论或 误导用户
  3. 数据外泄:绕过权限 窃取敏感信息

技术控制

机制 说明
任务级权限 非传统 RBAC——按任务动态授权/撤销
实时行为监测 偏离正常模式 即时切断
Gemini Spark 监控 审计 ~100 万 Coding Agent 任务
v0.1 路线图 持续演进,非终态

与 AutoJack 呼应

  • AutoJack(6/18):localhost 不再是信任边界
  • TRAIT&R:Agent 可能是恶意内部人

架构师行动

部署 Coding Agent 前需 威胁建模 + 实时 containment——对齐 alone 不够