OpenAI 研究:少量「有益特质」RL 训练可跨域提升模型安全

2026-06-19 22:00:00

OpenAI6 月 19 日 发布 Beneficial Trait Training 对齐研究——验证 「好行为能否像坏行为一样跨域泛化」

方法

  • RL 后训练 中混入少量 有益特质 对话数据
  • 特质包括:真实、认识论谦逊、可纠正、推理透明、公平、关怀人类福祉
  • 场景覆盖医疗、教育、科学、法律、工程

结果

  • 44/53 独立基准 改善
  • 涵盖:欺骗、诚实、谄媚、奖励黑客、健康/心理健康 等维度

与 Anthropic 对比

维度 OpenAI Anthropic
方法 RL + 可测行为特质 Claude 宪法 + 原则推理
评估 大量 Benchmark 量化 原则驱动 + 抗攻击叙事
直接对比 尚无 公开 head-to-head

行业意义

  • 对齐路线分化: measurable traits vs constitutional AI
  • 企业选型需关注 安全评估方法论 差异
  • Fable 5 出口管制(安全漏洞争议)形成 政策+技术 双线讨论