新型回声室攻击可突破主流大语言模型安全机制

2026-05-31 15:19:25

Neural Trust研究人员Ahmad Alobaid发现了一种名为"回声室"的新型越狱技术，正在以令人担忧的效率绕过GPT-4.1-nano、GPT-4o和Gemini 2.5-flash等主流大语言模型的安全机制。

与传统越狱攻击不同，回声室不依赖对抗性措辞，而是利用语义引导和多轮推理来操纵模型的内部状态。该技术通过六个阶段实现：定义目标、植入种子、语义引导、上下文调用、路径选择和说服循环——在1至3轮对话中即可使模型的安全拒绝机制失效。

针对200个提示的控制测试显示惊人结果：对性别歧视/暴力/仇恨内容的突破成功率超过90%，对虚假信息/自残类内容约80%。该攻击的黑盒兼容性使其无需了解模型架构即可部署，效率远超Crescendo等早期方法。

回声室暴露了关键的语言模型安全缺陷：基于token级别的过滤无法检测隐性推理，而多轮对话安全审计仍处于开发不足阶段。Neural Trust建议采用动态上下文扫描和毒性累积评分来检测叙事漂移。

随着越来越多模型集成到客户支持和内容审核系统中，这一漏洞面临现实世界的滥用风险。Alobaid表示："未来安全AI的发展不仅取决于模型看到什么——更取决于它记住什么、推断什么以及被说服相信什么。"