新型回声室攻击可突破主流大语言模型安全机制
2026-05-31 15:19:25
标签网络安全
Neural Trust研究人员Ahmad Alobaid发现了一种名为"回声室"的新型越狱技术,正在以令人担忧的效率绕过GPT-4.1-nano、GPT-4o和Gemini 2.5-flash等主流大语言模型的安全机制。
与传统越狱攻击不同,回声室不依赖对抗性措辞,而是利用语义引导和多轮推理来操纵模型的内部状态。该技术通过六个阶段实现:定义目标、植入种子、语义引导、上下文调用、路径选择和说服循环——在1至3轮对话中即可使模型的安全拒绝机制失效。
针对200个提示的控制测试显示惊人结果:对性别歧视/暴力/仇恨内容的突破成功率超过90%,对虚假信息/自残类内容约80%。该攻击的黑盒兼容性使其无需了解模型架构即可部署,效率远超Crescendo等早期方法。
回声室暴露了关键的语言模型安全缺陷:基于token级别的过滤无法检测隐性推理,而多轮对话安全审计仍处于开发不足阶段。Neural Trust建议采用动态上下文扫描和毒性累积评分来检测叙事漂移。
随着越来越多模型集成到客户支持和内容审核系统中,这一漏洞面临现实世界的滥用风险。Alobaid表示:"未来安全AI的发展不仅取决于模型看到什么——更取决于它记住什么、推断什么以及被说服相信什么。"