可驾驭性 vs 约束工程
比较内在架构约束(可驾驭性)与外部安全护栏(约束工程),分析为什么生物医学AI需要可驾驭性,而不仅仅是外部护栏。
核心问题
当前AI安全的主流方法是"约束工程"(Harness Engineering)——通过外部护栏来限制AI的输出。但这种方法在生物医学领域存在根本性局限。
SteeraMed提出了一个不同的思路:可驾驭性(Steerability)——将安全约束嵌入模型推理架构内部。
一个形象的比喻:可驾驭性是汽车的转向系统,是内置设计;约束工程是在一辆只能直行的汽车外面加装保险杠。
什么是约束工程(Harness Engineering)
约束工程是指通过外部手段限制AI系统输出的方法,主要包括:
RLHF(基于人类反馈的强化学习)
通过人类标注的偏好数据训练奖励模型,引导大语言模型生成更符合预期的输出。
工作方式:模型生成 → 奖励模型评分 → 调整生成策略
局限:
- 奖励模型本身可能被欺骗(reward hacking)
- 人类标注者的偏好不一致
- 难以覆盖所有边缘情况
输出过滤器(Output Filters)
在模型输出端设置关键词过滤、内容分类器等,阻止不合规内容。
工作方式:模型生成完整输出 → 过滤器检查 → 拦截或放行
局限:
- 只能拦截已知的有害模式
- 过滤器与模型能力之间存在时间差
- 容易被绕过(jailbreak)
宪法AI(Constitutional AI)
通过预设的"宪法"规则来引导模型自我审查和修正输出。
工作方式:模型生成 → 自我审查(基于规则) → 修正输出
局限:
- "宪法"规则是静态的,难以适应新场景
- 模型自我审查能力有限
- 缺乏独立的质量验证机制
什么是可驾驭性(Steerability)
可驾驭性是指通过内在的架构约束,使AI系统的推理过程本身就是可控的。
CP1-CP5嵌入式约束
SteeraMed通过CP1-CP5五个约束检查点实现可驾驭性:
CP1 状态表征 → CP2 内在能力量化 → CP3 干预响应语义 → CP4 反事实状态转移 → CP5 质量控制反馈
这些检查点不是附加在输出端的过滤器,而是嵌入在推理过程的每一步中:
- 推理前:CP1确保从可靠的状态表征开始
- 推理中:CP2-CP4结构化推理过程,每一步都有明确的语义约束
- 推理后:CP5验证推理结果的可靠性
与约束工程的根本区别
| 维度 | 约束工程(Harness) | 可驾驭性(Steerability) |
|---|---|---|
| 约束位置 | 模型外部(输出端) | 模型内部(推理过程) |
| 作用时机 | 事后(生成后过滤) | 过程中(推理时约束) |
| 审计粒度 | 只能审查最终输出 | 每一步推理都可审计 |
| 修正方式 | 重新生成或拒绝输出 | 推理过程中自动修正 |
| 进化同步 | 约束与模型独立更新 | 约束与模型能力同步进化 |
| 覆盖范围 | 已知的有害模式 | 所有推理步骤 |
| 绕过难度 | 可被精心设计的输入绕过 | 无法绕过,因为是架构的一部分 |
为什么生物医学AI需要可驾驭性
1. 后果不可逆
在聊天场景中,如果AI输出有害内容,可以被标记和撤回。但在生物医学中,一个错误的干预建议可能导致不可逆的健康损害。
外部护栏可以在事后拦截有害输出,但无法确保推理过程本身的正确性。
2. 个体差异巨大
群体级别的安全约束无法覆盖个体差异。同一个干预对一个人安全,对另一个人可能有害。
可驾驭性通过CP2(内在能力量化)确保每次推理都考虑个体差异。
3. 因果推理的复杂性
生物医学中的推理涉及复杂的多步因果链。一个干预可能通过多个通路产生连锁反应。
外部护栏只能看到最终输出,无法审查中间推理步骤。CP1-CP5可以逐步审查整个因果链。
4. 需要反事实推理
在医学决策中,医生总是需要比较不同方案的后果。"如果选择方案A而非方案B,结果会怎样不同?"
CP4(反事实状态转移)使这种推理成为可能,而外部护栏无法提供这种能力。
真实世界的类比
汽车安全类比
约束工程:一辆只能直行的汽车,在外面加装了保险杠和碰撞传感器。
- 汽车本身无法转向
- 碰撞传感器只能在碰撞后报警
- 保险杠只能减轻碰撞后果
可驾驭性:一辆内置转向系统的汽车。
- 驾驶员可以主动选择方向
- 转向系统是设计的一部分,不是后加的
- 可以主动避障,而不仅仅是减少碰撞损失
药物安全类比
约束工程:一种药物在出厂后通过黑框警告和用药指南来限制使用。
- 药物本身没有个体适应性
- 黑框警告是通用的,无法覆盖所有个体情况
- 只能在不良反应发生后追加警告
可驾驭性:一种药物在处方前就通过个体化评估确定适用性。
- 每次处方都基于个体的CP2能力评估
- CP3预测干预响应,CP4比较替代方案
- CP5持续监控治疗效果并动态调整
两者不是对立的
需要强调的是,可驾驭性和约束工程并非完全对立。在实践中,两者可以互补使用:
- 可驾驭性:确保推理过程的内在可控性(CP1-CP5)
- 约束工程:作为额外的安全层,提供兜底保护
SteeraMed的立场是:可驾驭性应是主要安全架构,约束工程应是补充措施,而非反过来。
仅靠外部护栏约束一个内在不可控的系统,是不够的。首先需要一个内在可驾驭的系统,然后在外部增加防护层。
行业趋势
AI安全领域正在从单纯依赖外部护栏转向更注重内在可控性:
- Anthropic提出的"Constitutional AI"试图在训练过程中嵌入规则
- OpenAI的研究探索了模型内部表征的可控性
- 学术界对"truthful AI"的研究强调模型应内在地追求准确性
SteeraMed的CP1-CP5框架提供了一种具体的、可操作的内在可控性实现方案,专门为生物医学领域设计。