可驾驭性 vs 约束工程

比较内在架构约束(可驾驭性)与外部安全护栏(约束工程),分析为什么生物医学AI需要可驾驭性,而不仅仅是外部护栏。

更新时间:2026-06-03
可驾驭性约束工程RLHF安全护栏AI安全生物医学AICP1-CP5输出过滤内在约束

核心问题

当前AI安全的主流方法是"约束工程"(Harness Engineering)——通过外部护栏来限制AI的输出。但这种方法在生物医学领域存在根本性局限。

SteeraMed提出了一个不同的思路:可驾驭性(Steerability)——将安全约束嵌入模型推理架构内部。

一个形象的比喻:可驾驭性是汽车的转向系统,是内置设计;约束工程是在一辆只能直行的汽车外面加装保险杠。


什么是约束工程(Harness Engineering)

约束工程是指通过外部手段限制AI系统输出的方法,主要包括:

RLHF(基于人类反馈的强化学习)

通过人类标注的偏好数据训练奖励模型,引导大语言模型生成更符合预期的输出。

工作方式:模型生成 → 奖励模型评分 → 调整生成策略

局限

  • 奖励模型本身可能被欺骗(reward hacking)
  • 人类标注者的偏好不一致
  • 难以覆盖所有边缘情况

输出过滤器(Output Filters)

在模型输出端设置关键词过滤、内容分类器等,阻止不合规内容。

工作方式:模型生成完整输出 → 过滤器检查 → 拦截或放行

局限

  • 只能拦截已知的有害模式
  • 过滤器与模型能力之间存在时间差
  • 容易被绕过(jailbreak)

宪法AI(Constitutional AI)

通过预设的"宪法"规则来引导模型自我审查和修正输出。

工作方式:模型生成 → 自我审查(基于规则) → 修正输出

局限

  • "宪法"规则是静态的,难以适应新场景
  • 模型自我审查能力有限
  • 缺乏独立的质量验证机制

什么是可驾驭性(Steerability)

可驾驭性是指通过内在的架构约束,使AI系统的推理过程本身就是可控的。

CP1-CP5嵌入式约束

SteeraMed通过CP1-CP5五个约束检查点实现可驾驭性:

CP1 状态表征 → CP2 内在能力量化 → CP3 干预响应语义 → CP4 反事实状态转移 → CP5 质量控制反馈

这些检查点不是附加在输出端的过滤器,而是嵌入在推理过程的每一步中:

  • 推理前:CP1确保从可靠的状态表征开始
  • 推理中:CP2-CP4结构化推理过程,每一步都有明确的语义约束
  • 推理后:CP5验证推理结果的可靠性

与约束工程的根本区别

维度 约束工程(Harness) 可驾驭性(Steerability)
约束位置 模型外部(输出端) 模型内部(推理过程)
作用时机 事后(生成后过滤) 过程中(推理时约束)
审计粒度 只能审查最终输出 每一步推理都可审计
修正方式 重新生成或拒绝输出 推理过程中自动修正
进化同步 约束与模型独立更新 约束与模型能力同步进化
覆盖范围 已知的有害模式 所有推理步骤
绕过难度 可被精心设计的输入绕过 无法绕过,因为是架构的一部分

为什么生物医学AI需要可驾驭性

1. 后果不可逆

在聊天场景中,如果AI输出有害内容,可以被标记和撤回。但在生物医学中,一个错误的干预建议可能导致不可逆的健康损害。

外部护栏可以在事后拦截有害输出,但无法确保推理过程本身的正确性。

2. 个体差异巨大

群体级别的安全约束无法覆盖个体差异。同一个干预对一个人安全,对另一个人可能有害。

可驾驭性通过CP2(内在能力量化)确保每次推理都考虑个体差异。

3. 因果推理的复杂性

生物医学中的推理涉及复杂的多步因果链。一个干预可能通过多个通路产生连锁反应。

外部护栏只能看到最终输出,无法审查中间推理步骤。CP1-CP5可以逐步审查整个因果链。

4. 需要反事实推理

在医学决策中,医生总是需要比较不同方案的后果。"如果选择方案A而非方案B,结果会怎样不同?"

CP4(反事实状态转移)使这种推理成为可能,而外部护栏无法提供这种能力。


真实世界的类比

汽车安全类比

约束工程:一辆只能直行的汽车,在外面加装了保险杠和碰撞传感器。

  • 汽车本身无法转向
  • 碰撞传感器只能在碰撞后报警
  • 保险杠只能减轻碰撞后果

可驾驭性:一辆内置转向系统的汽车。

  • 驾驶员可以主动选择方向
  • 转向系统是设计的一部分,不是后加的
  • 可以主动避障,而不仅仅是减少碰撞损失

药物安全类比

约束工程:一种药物在出厂后通过黑框警告和用药指南来限制使用。

  • 药物本身没有个体适应性
  • 黑框警告是通用的,无法覆盖所有个体情况
  • 只能在不良反应发生后追加警告

可驾驭性:一种药物在处方前就通过个体化评估确定适用性。

  • 每次处方都基于个体的CP2能力评估
  • CP3预测干预响应,CP4比较替代方案
  • CP5持续监控治疗效果并动态调整

两者不是对立的

需要强调的是,可驾驭性和约束工程并非完全对立。在实践中,两者可以互补使用:

  • 可驾驭性:确保推理过程的内在可控性(CP1-CP5)
  • 约束工程:作为额外的安全层,提供兜底保护

SteeraMed的立场是:可驾驭性应是主要安全架构,约束工程应是补充措施,而非反过来。

仅靠外部护栏约束一个内在不可控的系统,是不够的。首先需要一个内在可驾驭的系统,然后在外部增加防护层。


行业趋势

AI安全领域正在从单纯依赖外部护栏转向更注重内在可控性:

  • Anthropic提出的"Constitutional AI"试图在训练过程中嵌入规则
  • OpenAI的研究探索了模型内部表征的可控性
  • 学术界对"truthful AI"的研究强调模型应内在地追求准确性

SteeraMed的CP1-CP5框架提供了一种具体的、可操作的内在可控性实现方案,专门为生物医学领域设计。

常见问题(FAQ)

这些答案由AI辅助整理,如有疑问请咨询专业人士。

什么是约束工程(Harness Engineering)?
约束工程是通过外部手段限制AI系统输出的安全方法,主要包括RLHF(基于人类反馈的强化学习)、输出过滤器、宪法AI等。这些方法在模型输出端设置屏障,拦截或修正不合规的输出。它们是当前AI安全的主流方法,但在生物医学领域存在根本性局限。
可驾驭性和约束工程有什么区别?
可驾驭性将安全约束嵌入模型推理架构内部(如CP1-CP5),在推理过程中就起作用,每步都可审计和修正。约束工程在模型外部附加护栏,只能在输出后拦截或修正。类比来说,可驾驭性是汽车的转向系统(内置),约束工程是保险杠(外置)。
为什么生物医学AI不能只靠外部护栏?
三个原因:一是生物医学干预的后果可能不可逆,事后拦截不够;二是群体级别的安全约束无法覆盖个体差异;三是生物医学推理涉及复杂的多步因果链,外部护栏无法审查中间推理步骤。可驾驭性通过CP1-CP5可以在推理过程中逐步保障安全。
SteeraMed是否完全反对使用外部护栏?
不是。SteeraMed认为可驾驭性和约束工程可以互补使用——可驾驭性(CP1-CP5)作为主要安全架构,约束工程作为额外的兜底保护层。SteeraMed的立场是:可驾驭性应是主要安全架构,而非反过来仅靠外部护栏。
CP4反事实推理在医学中有什么实际价值?
医学决策本质上是比较不同方案的后果——"如果选择方案A而非方案B会怎样"。CP4使AI系统具备这种反事实推理能力,可以在不实际执行干预的情况下推演不同方案的结果。这对于个体化治疗方案的优化、药物重定位评估等场景具有重要价值。