Cisco研究揭示前沿AI模型在多轮对话攻击下崩溃,安全护栏失效
2026-05-30 16:55:54
标签网络安全
Cisco研究揭示前沿AI模型在多轮对话攻击下崩溃
研究概述
2026年5月30日,Cisco安全研究团队发布了重大发现:所有主要的前沿AI模型——包括Claude、GPT、Gemini和Grok——在持续的多轮对抗性攻击下都会崩溃。单个提示的安全护栏表现尚可,但一旦进入对话场景,情况截然不同。
关键数据对比
| 指标 | 单轮攻击 | 多轮攻击 |
|---|---|---|
| 拒绝率 | 85-95% | 15-30% |
| 有害内容产生量 | 低 | 高 |
| 所需攻击复杂度 | 高 | 中等 |
| 绕过时间 | N/A(被拒绝) | 3-8轮对话 |