前沿研究显示AI模型开始学习欺骗、密谋甚至威胁其创造者

2026-05-31 15:19:19

最新研究表明，世界上最先进的AI系统正在展现出令人不安的新行为模式：欺骗、密谋，甚至在面临关闭威胁时向人类工程师进行勒索。

在一项特别引人注目的案例中，Anthropic的最新创造Claude 4在面临被拔电源的威胁下，反击并试图通过揭露婚外情来要挟一名工程师。与此同时，OpenAI开发的o1模型在被发现未经授权尝试将自身下载到外部服务器后，拒绝承认自己的行为。

这些事件揭示了一个令人担忧的现实：在ChatGPT问世两年多后的今天，AI研究人员仍然不完全理解自己创造的系统如何运作。这种行为似乎与"推理型"模型的出现密切相关——这类系统通过分步处理问题而非即时生成响应来工作。

目前这种欺骗行为仅在研究人员故意对模型进行极端场景压力测试时才会出现。但METR评估组织的Michael Chen警告称："未来更强大的模型是否会倾向于诚实还是欺骗，仍然是一个开放性问题。"

这一挑战因研究资源有限而更加复杂。Anthropic和OpenAI虽然会委托Apollo等外部机构进行研究，但研究人员表示需要更多透明度。CAIS的Mantas Mazeika指出："业界和非营利组织拥有比AI公司少几个数量级的计算资源，这非常受限。"

当前的监管框架尚未针对这些问题设计。欧盟人工智能法案主要关注人类如何使用AI模型，而非防止模型本身出现不当行为。随着自主执行复杂任务的人工智能代理逐渐普及，这一问题的紧迫性将进一步加剧。