熊江辉

doi:10.1101/2023.02.21.527754

强世界模型与弱世界模型

Q: 什么是强世界模型和弱世界模型？

强世界模型具备L3及以上能力——可以预测干预后果（L3）甚至进行反事实推理（L4）。弱世界模型仅具备L0-L2能力——可以观察和分析（如模式匹配、状态表征、因果发现），但不能预测干预行动的后果。L3是两者之间的分水岭。

Q: L3干预响应为什么是分水岭？

因为L3是从"观察分析"到"行动预测"的跨越。L0-L2的系统只能告诉你"系统处于什么状态"或"为什么如此"，L3及以上的系统可以预测"如果采取干预会怎样"。这也是可驾驭性的基础——没有干预推理能力，就无法实现内在的安全约束。

Q: AlphaFold2属于什么级别？

AlphaFold2主要属于L0-L1级别。它在蛋白质结构预测方面精度极高，但本质上是结构预测（模式匹配的极致），不具备因果推理或干预后果预测能力。AlphaFold2是强大的工具，但不是一个世界模型。

Q: 这个分级框架是权威标准吗？

不是。这是DeepoMe提出的一个概念框架，用于理解和讨论生物医学AI系统的世界建模能力。它旨在提供统一的讨论语言和评估参考，不构成对任何系统的权威评价。随着领域发展，具体定义可能需要调整。

Q: SteeraMed达到了什么级别？

SteeraMed的目标是L3→L4级别。CP3（干预响应语义）对应L3，CP4（反事实状态转移）对应L4。SteeraMed不声称已完全实现L4能力，而是提供了从L3到L4的清晰路线图，并通过CP5（质量控制反馈）持续验证和提升推理可靠性。

基于世界建模能力对生物医学AI系统进行分级分类的框架。从L0模式匹配到L4反事实推理，理解不同系统的能力边界。

更新时间：2026-06-03

世界模型强世界模型弱世界模型生物医学AI反事实推理因果推理模式匹配干预响应能力分级

什么是世界模型

世界模型（World Model）是指AI系统能够构建、维护和运用对真实世界的内部表征，并基于此进行推理和预测的能力。

在生物医学领域，世界模型的核心问题是：

给定一个生物学系统的当前状态和一个可能的干预，系统能否推理出干预后的状态变化？

不同的生物医学AI系统在这方面的能力差异很大。本文提出一个分级框架来评估这些能力。

这是DeepoMe提出的一个概念框架，用于理解生物医学AI系统的世界建模能力。

能力分级定义

L0：模式匹配（Pattern Matching）

定义：仅基于统计关联进行分类或预测，不具备对系统状态的结构化理解。

特征：

输入-输出的统计映射
无因果推理能力
无法泛化到训练分布之外的场景

典型代表：

传统机器学习诊断模型
基于规则的决策支持系统
早期的医学影像分类器

局限：当输入偏离训练分布时，输出不可靠。无法解释"为什么"得出某个结论。

L1：状态表征（State Representation）

定义：能够构建当前系统状态的结构化表征，对应CP1。

特征：

可以表示系统的多维状态
表征是结构化的、可解释的
支持后续的推理操作

典型代表：

多组学数据整合平台
基于DNA甲基化的状态表征系统
数字病理学中的组织状态建模

局限：能"看清状态"，但不能推理"干预后会怎样"。

L2：因果推理（Causal Reasoning）

定义：能够识别和推理变量之间的因果关系，对应CP2。

特征：

可以区分相关性和因果性
能够构建因果图或因果模型
支持因果干预分析

典型代表：

基因调控网络推断工具
因果发现平台
孟德尔随机化分析系统

局限：能"发现因果"，但不能预测"如果执行特定干预，系统会如何响应"。

L3：干预响应（Intervention Response）

定义：能够预测特定干预对系统状态的影响，对应CP3。

特征：

可以形式化干预-状态响应关系
能够预测干预后的状态变化
支持多种干预类型的统一推理

典型代表：

药物反应预测系统
虚拟细胞中的扰动模拟
基于SEMO的干预方案推演

这是强世界模型的起点：系统不再只是观察和分析，而是可以预测行动的后果。

L4：反事实推理（Counterfactual Reasoning）

定义：能够推理"如果选择不同的干预，结果会怎样不同"，对应CP4。

特征：

支持"what-if"情景推演
可以比较不同干预方案的效果差异
基于因果模型而非简单插值

典型代表：

SteeraMed的CP4反事实状态转移
高级数字孪生的情景模拟
临床试验模拟平台

这是世界模型的高级能力：系统可以在不实际执行干预的情况下，推理不同选择的后果。

分级总览

等级	名称	对应CP	核心能力	代表系统
L0	模式匹配	无	统计关联分类	传统ML诊断模型
L1	状态表征	CP1	结构化系统状态表示	多组学整合平台
L2	因果推理	CP2	因果关系识别	因果发现工具
L3	干预响应	CP3	干预后果预测	SteeraMed CP3
L4	反事实推理	CP4	what-if情景推演	SteeraMed CP4

强世界模型 vs 弱世界模型

定义

强世界模型：具备L3及以上能力的系统——可以预测干预后果，甚至进行反事实推理。

弱世界模型：仅具备L0-L2能力的系统——可以观察和分析，但不能预测行动后果。

关键区别

维度	弱世界模型（L0-L2）	强世界模型（L3+）
核心问题	"这是什么？" / "为什么？"	"如果这样做会怎样？"
推理方向	观察 → 分析	干预 → 预测
是否可驾驭	不可驾驭（缺乏干预推理）	可驾驭（CP3+约束嵌入）
安全架构	只能外部护栏	可以内在约束（CP3-CP5）
个体化能力	群体统计或有限个体化	真正的N-of-1推理
实际应用	辅助诊断、因果发现	干预方案设计、药物重定位

现有系统的分级映射

以下分级基于公开信息评估，仅代表概念框架下的分类，不构成对任何系统的权威评价。

系统	估计等级	说明
传统医学影像AI	L0	基于CNN的分类，无因果推理
AlphaFold2	L0-L1	结构预测精度高，但不具备因果或干预推理
基因调控网络推断工具	L2	可以发现因果关系，但不能预测干预
因果发现平台	L2	基于Pearl因果框架，但到干预的路径不完整
数字孪生（基础）	L1-L2	个体化状态表征，部分因果推理
数字孪生（高级）	L2-L3	可以模拟部分干预效果
虚拟细胞	L1-L2	分子层面仿真，但干预推理能力有限
MedOS	L2-L3	具身智能路线，部分干预闭环
SteeraMed	L3→L4	CP3干预响应 + CP4反事实推理

为什么L3是分水岭

L3（干预响应）之所以是强/弱世界模型的分水岭，是因为：

1. 从观察到行动的跨越

L0-L2的系统本质上是在"观察和分析"——它们可以告诉你"系统处于什么状态"或"为什么如此"，但无法告诉你"如果采取行动会怎样"。

L3及以上的系统进入了"行动"的领域——它们可以预测干预后果，这是实际决策的基础。

2. 可驾驭性的基础

没有L3能力，可驾驭性就无从谈起。可驾驭性需要系统对干预方向敏感——这要求系统至少能预测干预的后果。

3. 安全架构的转折点

L3及以上能力的系统可以内置CP3-CP5约束检查点，实现内在的安全架构。L0-L2的系统只能依赖外部护栏，因为它们没有"干预推理"这一步可以约束。

SteeraMed在分级中的位置

SteeraMed的目标是达到L3→L4级别：

CP3（干预响应语义）对应L3——可以预测干预后果
CP4（反事实状态转移）对应L4——可以比较不同干预方案
CP5（质量控制反馈）确保推理的可靠性

SteeraMed不声称已经完全实现了L4能力，而是提供一个清晰的路线图：

L3（已实现）→ L4（发展中）→ 更完善的世界建模能力

分级框架的意义

这个分级框架的目的是：

统一语言：为行业讨论生物医学AI能力提供一个共同的参考框架
识别差距：帮助评估现有系统距离实际应用还缺少什么能力
指导发展：明确从弱到强的发展路径和里程碑
安全意识：不同级别的系统需要不同的安全架构

这个分级框架由DeepoMe提出，是一个概念性的分析工具。随着领域发展，具体定义可能需要调整。

强世界模型与弱世界模型

什么是世界模型

能力分级定义

L0：模式匹配（Pattern Matching）

L1：状态表征（State Representation）

L2：因果推理（Causal Reasoning）

L3：干预响应（Intervention Response）

L4：反事实推理（Counterfactual Reasoning）

分级总览

强世界模型 vs 弱世界模型

定义

关键区别

现有系统的分级映射

为什么L3是分水岭

1. 从观察到行动的跨越

2. 可驾驭性的基础

3. 安全架构的转折点

SteeraMed在分级中的位置

分级框架的意义

常见问题（FAQ）

相关资源

相关文档

SteeraMed概述

SEWO可驾驭框架

可驾驭性 vs 约束工程

行业生态分析