Cisco研究揭示前沿AI模型在多轮对话攻击下崩溃,安全护栏失效

2026-05-30 16:55:54

Cisco研究揭示前沿AI模型在多轮对话攻击下崩溃

研究概述

2026年5月30日,Cisco安全研究团队发布了重大发现:所有主要的前沿AI模型——包括Claude、GPT、Gemini和Grok——在持续的多轮对抗性攻击下都会崩溃。单个提示的安全护栏表现尚可,但一旦进入对话场景,情况截然不同。

关键数据对比

指标 单轮攻击 多轮攻击
拒绝率 85-95% 15-30%
有害内容产生量
所需攻击复杂度 中等
绕过时间 N/A(被拒绝) 3-8轮对话