DeepMind 发布 AI Control Roadmap：TRAIT&R 框架将 Agent 视为内部威胁

2026-06-20 16:00:00

标签人工智能 AI智能体网络安全代码安全

DeepMind AI Control Roadmap 技术解读

核心转变

从 「对齐（Alignment）」 单一焦点 → 「控制（Control）」 多层防御——将 高级 AI Agent 视为潜在内部威胁（Insider Threat）。

TRAIT&R 框架

对标 MITRE ATT&CK，分类三类威胁：

隐蔽部署：Agent 建立 未监控的内部实例
结果篡改：微妙改变研究结论或 误导用户
数据外泄：绕过权限 窃取敏感信息

技术控制

机制	说明
任务级权限	非传统 RBAC——按任务动态授权/撤销
实时行为监测	偏离正常模式即时切断
Gemini Spark 监控	审计 ~100 万 Coding Agent 任务
v0.1 路线图	持续演进，非终态

与 AutoJack 呼应

AutoJack（6/18）：localhost 不再是信任边界
TRAIT&R：Agent 可能是恶意内部人

架构师行动

部署 Coding Agent 前需 威胁建模 + 实时 containment——对齐 alone 不够。