Cisco研究揭示前沿AI模型在多轮对话攻击下崩溃，安全护栏失效

2026-05-30 16:55:54

Cisco研究揭示前沿AI模型在多轮对话攻击下崩溃

2026年5月30日，Cisco安全研究团队发布了重大发现：所有主要的前沿AI模型——包括Claude、GPT、Gemini和Grok——在持续的多轮对抗性攻击下都会崩溃。单个提示的安全护栏表现尚可，但一旦进入对话场景，情况截然不同。