熊江辉

doi:10.1101/2023.02.21.527754

可驾驭性 vs 约束工程

Q: 什么是约束工程（Harness Engineering）？

约束工程是通过外部手段限制AI系统输出的安全方法，主要包括RLHF（基于人类反馈的强化学习）、输出过滤器、宪法AI等。这些方法在模型输出端设置屏障，拦截或修正不合规的输出。它们是当前AI安全的主流方法，但在生物医学领域存在根本性局限。

Q: 可驾驭性和约束工程有什么区别？

可驾驭性将安全约束嵌入模型推理架构内部（如CP1-CP5），在推理过程中就起作用，每步都可审计和修正。约束工程在模型外部附加护栏，只能在输出后拦截或修正。类比来说，可驾驭性是汽车的转向系统（内置），约束工程是保险杠（外置）。

Q: 为什么生物医学AI不能只靠外部护栏？

三个原因：一是生物医学干预的后果可能不可逆，事后拦截不够；二是群体级别的安全约束无法覆盖个体差异；三是生物医学推理涉及复杂的多步因果链，外部护栏无法审查中间推理步骤。可驾驭性通过CP1-CP5可以在推理过程中逐步保障安全。

Q: SteeraMed是否完全反对使用外部护栏？

不是。SteeraMed认为可驾驭性和约束工程可以互补使用——可驾驭性（CP1-CP5）作为主要安全架构，约束工程作为额外的兜底保护层。SteeraMed的立场是：可驾驭性应是主要安全架构，而非反过来仅靠外部护栏。

Q: CP4反事实推理在医学中有什么实际价值？

医学决策本质上是比较不同方案的后果——"如果选择方案A而非方案B会怎样"。CP4使AI系统具备这种反事实推理能力，可以在不实际执行干预的情况下推演不同方案的结果。这对于个体化治疗方案的优化、药物重定位评估等场景具有重要价值。

比较内在架构约束（可驾驭性）与外部安全护栏（约束工程），分析为什么生物医学AI需要可驾驭性，而不仅仅是外部护栏。

更新时间：2026-06-03

可驾驭性约束工程RLHF安全护栏AI安全生物医学AICP1-CP5输出过滤内在约束

核心问题

当前AI安全的主流方法是"约束工程"（Harness Engineering）——通过外部护栏来限制AI的输出。但这种方法在生物医学领域存在根本性局限。

SteeraMed提出了一个不同的思路：可驾驭性（Steerability）——将安全约束嵌入模型推理架构内部。

一个形象的比喻：可驾驭性是汽车的转向系统，是内置设计；约束工程是在一辆只能直行的汽车外面加装保险杠。

什么是约束工程（Harness Engineering）

约束工程是指通过外部手段限制AI系统输出的方法，主要包括：

RLHF（基于人类反馈的强化学习）

通过人类标注的偏好数据训练奖励模型，引导大语言模型生成更符合预期的输出。

工作方式：模型生成 → 奖励模型评分 → 调整生成策略

局限：

奖励模型本身可能被欺骗（reward hacking）
人类标注者的偏好不一致
难以覆盖所有边缘情况

输出过滤器（Output Filters）

在模型输出端设置关键词过滤、内容分类器等，阻止不合规内容。

工作方式：模型生成完整输出 → 过滤器检查 → 拦截或放行

局限：

只能拦截已知的有害模式
过滤器与模型能力之间存在时间差
容易被绕过（jailbreak）

宪法AI（Constitutional AI）

通过预设的"宪法"规则来引导模型自我审查和修正输出。

工作方式：模型生成 → 自我审查（基于规则） → 修正输出

局限：

"宪法"规则是静态的，难以适应新场景
模型自我审查能力有限
缺乏独立的质量验证机制

什么是可驾驭性（Steerability）

可驾驭性是指通过内在的架构约束，使AI系统的推理过程本身就是可控的。

CP1-CP5嵌入式约束

SteeraMed通过CP1-CP5五个约束检查点实现可驾驭性：

CP1 状态表征 → CP2 内在能力量化 → CP3 干预响应语义 → CP4 反事实状态转移 → CP5 质量控制反馈

这些检查点不是附加在输出端的过滤器，而是嵌入在推理过程的每一步中：

推理前：CP1确保从可靠的状态表征开始
推理中：CP2-CP4结构化推理过程，每一步都有明确的语义约束
推理后：CP5验证推理结果的可靠性

与约束工程的根本区别

维度	约束工程（Harness）	可驾驭性（Steerability）
约束位置	模型外部（输出端）	模型内部（推理过程）
作用时机	事后（生成后过滤）	过程中（推理时约束）
审计粒度	只能审查最终输出	每一步推理都可审计
修正方式	重新生成或拒绝输出	推理过程中自动修正
进化同步	约束与模型独立更新	约束与模型能力同步进化
覆盖范围	已知的有害模式	所有推理步骤
绕过难度	可被精心设计的输入绕过	无法绕过，因为是架构的一部分

为什么生物医学AI需要可驾驭性

1. 后果不可逆

在聊天场景中，如果AI输出有害内容，可以被标记和撤回。但在生物医学中，一个错误的干预建议可能导致不可逆的健康损害。

外部护栏可以在事后拦截有害输出，但无法确保推理过程本身的正确性。

2. 个体差异巨大

群体级别的安全约束无法覆盖个体差异。同一个干预对一个人安全，对另一个人可能有害。

可驾驭性通过CP2（内在能力量化）确保每次推理都考虑个体差异。

3. 因果推理的复杂性

生物医学中的推理涉及复杂的多步因果链。一个干预可能通过多个通路产生连锁反应。

外部护栏只能看到最终输出，无法审查中间推理步骤。CP1-CP5可以逐步审查整个因果链。

4. 需要反事实推理

在医学决策中，医生总是需要比较不同方案的后果。"如果选择方案A而非方案B，结果会怎样不同？"

CP4（反事实状态转移）使这种推理成为可能，而外部护栏无法提供这种能力。

真实世界的类比

汽车安全类比

约束工程：一辆只能直行的汽车，在外面加装了保险杠和碰撞传感器。

汽车本身无法转向
碰撞传感器只能在碰撞后报警
保险杠只能减轻碰撞后果

可驾驭性：一辆内置转向系统的汽车。

驾驶员可以主动选择方向
转向系统是设计的一部分，不是后加的
可以主动避障，而不仅仅是减少碰撞损失

药物安全类比

约束工程：一种药物在出厂后通过黑框警告和用药指南来限制使用。

药物本身没有个体适应性
黑框警告是通用的，无法覆盖所有个体情况
只能在不良反应发生后追加警告

可驾驭性：一种药物在处方前就通过个体化评估确定适用性。

每次处方都基于个体的CP2能力评估
CP3预测干预响应，CP4比较替代方案
CP5持续监控治疗效果并动态调整

两者不是对立的

需要强调的是，可驾驭性和约束工程并非完全对立。在实践中，两者可以互补使用：

可驾驭性：确保推理过程的内在可控性（CP1-CP5）
约束工程：作为额外的安全层，提供兜底保护

SteeraMed的立场是：可驾驭性应是主要安全架构，约束工程应是补充措施，而非反过来。

仅靠外部护栏约束一个内在不可控的系统，是不够的。首先需要一个内在可驾驭的系统，然后在外部增加防护层。

行业趋势

AI安全领域正在从单纯依赖外部护栏转向更注重内在可控性：

Anthropic提出的"Constitutional AI"试图在训练过程中嵌入规则
OpenAI的研究探索了模型内部表征的可控性
学术界对"truthful AI"的研究强调模型应内在地追求准确性

SteeraMed的CP1-CP5框架提供了一种具体的、可操作的内在可控性实现方案，专门为生物医学领域设计。