临床AI/ML模型“金标准”文章 Shmueli《To Explain or to Predict?》精读：解释模型与预测模型不是一回事

前言：为什么临床医生需要关心“解释”和“预测”的区别？

临床工作里，医生每天都在做两件看似相似、但本质不同的事。

一种是解释：

这个患者为什么会胸痛？
为什么 D-dimer 升高？
为什么用了某种药以后肾功能变差？
为什么年轻患者也会发生血栓？

另一种是预测：

这个胸痛患者未来几小时会不会恶化？
这个患者出院后 30 天会不会再入院？
这个肿瘤患者会不会对治疗有反应？
哪些患者最需要优先随访？

在临床思维中，这两件事常常交织在一起。一个有经验的医生看到患者的年龄、病史、化验、影像和用药，会同时形成两种判断：一方面试图解释病情背后的机制，另一方面也在预测下一步风险。

但在统计建模和医学 AI 中，这两件事不能简单混在一起。

一个变量和结局显著相关，并不代表它就是原因。一个模型预测得很准，也不代表它理解了疾病机制。就像临床上一个患者的“ICU 入住”可以强烈预测死亡风险，但我们不会说“ICU 入住导致死亡”；它更可能是病情严重程度的标志。

这正是 Shmueli 这篇经典文章 “To Explain or to Predict?” 最有意思的地方。它用非常清晰的方式提醒我们：

解释模型回答的是“为什么”；预测模型回答的是“接下来会发生什么”。

这一区别对医学尤其重要。因为医生不仅关心模型准不准，还关心模型是否符合临床逻辑、是否能帮助形成假设、是否能支持干预决策、是否会把相关性误读成因果性。

对于普通临床医生和医学生来说，这篇文章的价值不在于复杂公式，而在于它能帮助我们重新理解医学 AI 论文里常见的说法：

“这个变量是独立危险因素。”
“这个模型 AUC（衡量模型能力的最常用指标）很高。”
“机器学习发现了新的机制。”
“模型可解释性很好。”
“加入某组变量后预测性能提高。”

这些说法听起来都很熟悉，但它们背后可能对应完全不同的科学问题。

读完这篇文章后，再看一篇临床预测模型论文，就会自然多问几句：

它是在解释机制，还是在预测风险？
它使用的变量在预测时真的可获得吗？
它的高 AUC 是否经过外部验证？
它所谓的“重要变量”是因果因素，还是只是代理指标？
它能指导干预，还是只能帮助风险分层？

这篇文章并不是反对预测，也不是反对解释。相反，它强调：解释和预测都重要，但必须分清楚。
在医学 AI 时代，这种区分会变得越来越关键。

1. 文章摘要

统计建模（statistical modeling）是一种强大的工具，可以用于三类科学目标：

因果解释（causal explanation）
预测（prediction）
描述（description）

但在很多学科里，统计模型几乎只被用于因果解释，并且研究者常常默认：一个解释力强的模型，也自然具有很强的预测能力。

作者认为，这种把“解释”和“预测”混为一谈的现象非常普遍，但如果要推动科学知识进步，就必须理解二者的区别。虽然哲学界早已讨论过解释与预测的区别，但统计学文献里缺少对二者在实际建模流程中差异的系统讨论。

本文的目的就是澄清解释性建模（explanatory modeling）和预测性建模（predictive modeling）的区别，讨论这种区别的来源，并揭示这种区别如何影响建模流程的每一个步骤。

这里的关键不是“回归 vs 机器学习”，而是研究目的不同。

同一个 logistic regression，可以被用于解释，也可以被用于预测；同一个 random forest，也可能用于预测，但通常不适合直接用于因果解释。

问题不是算法名字，而是你问的问题是什么。

2. 三种建模目的：解释、预测、描述

2.1 解释性建模：Explanatory modeling

作者把解释性建模定义为：

使用统计模型来检验关于理论构念（theoretical constructs）的因果假设（causal hypotheses）。

在社会科学、经济学、心理学、教育学等领域，常见做法是：先有一个理论模型，比如认为 X 导致 Y；然后收集数据，用回归模型之类的统计模型去检验这个因果假设。

作者指出，现实中很多所谓“因果解释”其实是用基于关联的模型（association-based models）分析观察性数据（observational data），例如普通回归模型。研究者通常认为：因果性来自理论本身，统计模型只是帮助检验这个理论。

医学里也很常见。例如：

“炎症水平升高是否导致心血管事件风险增加？”
“某种治疗是否降低死亡率？”
“吸烟是否导致肺癌？”

这些是解释性问题。研究者关心的不是单纯预测谁会发病，而是想知道：

某个变量是不是机制性原因、风险因子、干预靶点或因果路径的一部分。

医学对应术语包括：

中文	英文
因果解释	causal explanation
理论构念	theoretical construct
因果假设	causal hypothesis
观察性数据	observational data
关联模型	association-based model
混杂变量	confounder
暴露	exposure
结局	outcome
倾向评分	propensity score
因果图	causal diagram

2.2 预测性建模：Predictive modeling

作者定义预测性建模为：

把统计模型或数据挖掘算法（data mining algorithm）应用于数据，目的是预测新的或未来的观察对象（new or future observations）。

这里重点是：给定输入 X，预测输出 Y。

预测可以是：

中文	英文
点预测	point prediction
区间预测	interval prediction
预测区域	prediction region
预测分布	predictive distribution
排名	ranking
时间预测 / 预测未来值	forecasting

临床 AI 中最常见的例子：

“这个患者未来 30 天是否再入院？”
“这个患者未来 6 个月发生 VTE 的风险是多少？”
“这个患者是否会对某药物产生不良反应？”
“哪个患者最需要优先随访？”

这些是预测性问题。

此时，模型并不一定要求解释“为什么”。它首先需要在新患者上表现稳定、泛化能力强、校准良好，并且在临床流程中可用。

2.3 描述性建模：Descriptive modeling

作者还提到第三类：描述性建模（descriptive modeling）。

它的目标不是因果解释，也不是预测新样本，而是用简洁方式总结数据结构（data structure）。

例如：

“这个患者群体可以分成哪几类表型？”
“某疾病患者的 lab pattern 有哪些聚类？”
“变量之间有什么整体相关结构？”

这类模型用于理解数据形态，但不一定能支持因果结论，也不一定能用于未来预测。

3. 文章最核心的一句话

这篇文章最重要的思想可以概括为：

解释模型关心的是“变量之间的关系是否代表理论中的因果机制”；预测模型关心的是“在新样本上能不能准确预测 Y”。

这两个目标看似相近，但建模逻辑完全不同。

解释性建模的核心对象是：

理论构念 X 是否通过某种机制 F 导致理论构念 Y。

预测性建模的核心对象是：

给定可观测变量 X，能否预测可观测结果 Y。

这就是作者区分 construct level 和 measurable level 的关键。

解释模型常常工作在“理论构念层面”（construct level），预测模型则工作在“可测量变量层面”（measurable level）。

医学里很好理解：

理论构念	可测量变量
炎症负荷	CRP、IL-6、NLR
肾功能状态	eGFR、creatinine、尿白蛋白
胰岛素抵抗	HOMA-IR、TG/HDL、腰围、空腹胰岛素
心衰严重程度	BNP、EF、NYHA class、住院史
frailty	gait speed、grip strength、体重下降、ADL

解释性研究关心的是：

“炎症负荷是否导致疾病进展？”

预测性模型关心的是：

“CRP、NLR、年龄、既往史、用药能不能预测 6 个月内再入院？”

这两个问题不是同一个问题。

4. 为什么解释和预测会分开？

作者提出四个根本差异。

4.1 因果 vs 关联：Causation–Association

解释性建模中，模型 f 被用来表达一个潜在因果函数（causal function）。研究者希望 X 是 Y 的原因。

预测性建模中，模型 f 捕捉的是 X 和 Y 的关联（association）。只要 X 能帮助预测 Y，它不一定是 Y 的原因。

临床例子：

ICU 患者使用升压药（vasopressor use）可能强烈预测死亡风险，但升压药本身不一定是死亡的“原因”；它可能只是疾病严重程度的标志。

预测模型可以使用这个变量，因为它能预测。

解释模型要非常小心，因为不能简单说“升压药导致死亡”。

4.2 理论 vs 数据：Theory–Data

解释性建模通常从理论出发。变量选择、模型形式、交互项、控制变量，都要根据理论合理性来决定。

预测性建模更多从数据出发。它可以使用非线性模型、交互、降维、集成模型（ensemble methods），甚至黑箱模型（black-box models），只要在新数据上预测好。

临床 AI 中，这对应一个常见误区：

“模型用了 XGBoost / random forest，所以它更科学。”
不一定。它可能预测更准，但未必解释机制。

“模型用了传统 logistic regression，所以它更可解释。”
也不一定。如果变量选择、混杂控制和因果结构没有做好，它也不能支持因果解释。

4.3 回顾性 vs 前瞻性：Retrospective–Prospective

解释性建模常常是回顾性（retrospective）的：用已有数据检验已有假设。

预测性建模是前瞻性（prospective）的：模型必须在未来或新患者上使用。

这对临床模型非常重要。

预测模型里的变量必须满足 预测时可获得性（ex-ante availability）。

例如，要预测患者入院后 24 小时内是否恶化，那么模型不能使用 48 小时后的 lab。

如果用了，那叫 data leakage（数据泄漏）。

解释性研究中，某些变量可以用于事后解释；但预测模型中，如果变量在预测时不可获得，就不能使用。

4.4 偏差-方差权衡：Bias–Variance tradeoff

这是全文最技术性、也最重要的一点。

作者引用预测误差分解：

$$
EPE = Var(Y) + Bias^2 + Var(\hat f(x))
$$

意思是，新样本预测误差（expected prediction error, EPE）由三部分组成：

项	中文解释
Var(Y)	结果本身的不可避免随机性
Bias²	模型设定错误导致的系统偏差
Var(f̂(x))	模型估计的不稳定性，也就是方差

解释性建模通常尽量减少 bias（偏差），因为它希望模型尽可能忠实地代表理论机制。

预测性建模则关注 bias + variance 的总和，有时宁愿引入一点偏差，也要大幅降低方差，从而提高新样本预测性能。

这就是为什么一些“理论上不完美”的模型可能预测更好。

例如 ridge regression、LASSO、random forest、boosting、bagging 等方法，可能牺牲一部分解释清晰度，但能降低过拟合，提高泛化能力。

5. 建模流程中的差异

作者把建模流程拆成多个步骤：

定义目标
研究设计与数据收集
数据准备
探索性数据分析
变量选择
方法选择
验证、评估与模型选择
使用与报告

她的核心论点是：

从第一步开始，解释模型和预测模型就应该走不同路径。

5.1 研究设计和数据收集：Study design and data collection

解释性研究更关心：

关注点	英文
统计功效	statistical power
因果识别	causal identification
测量是否代表理论构念	construct validity
混杂控制	confounding control
实验设计	experimental design

预测性研究更关心：

关注点	英文
样本量是否足够大	sample size
是否有独立测试集	holdout dataset
新患者场景是否真实	realistic prediction context
数据是否代表未来使用场景	generalizability
变量是否在预测时可获得	ex-ante availability

作者特别指出，预测模型通常需要更多数据，因为它不仅要估计模型，还要留出验证集或测试集，并且要预测单个新观察对象，而不仅仅是估计总体层面的参数。

临床对应：

解释性研究可能问：

“某 biomarker 是否独立关联死亡率？”

预测性研究则要问：

“这个 biomarker 在真实门诊或住院流程中是否能及时获得？”
“缺失率多少？”
“不同医院测量方式是否一致？”
“未来患者分布是否类似训练数据？”

5.2 缺失值处理：Handling missing values

解释性建模中，缺失值通常按以下分类来判断：

英文	中文
Missing Completely At Random, MCAR	完全随机缺失
Missing At Random, MAR	随机缺失
Not Missing At Random, NMAR	非随机缺失

但预测性建模中，作者指出关键不一定是传统缺失分类，而是：

缺失本身是否预测 Y。

医学里非常重要。比如：

某项检查没有做，可能不是随机的。
医生没开 troponin，可能说明患者不像 ACS。
ICU 患者 lactate 频繁检测，可能说明病情更重。
肿瘤患者没有某项分子检测，可能反映医院资源、疾病阶段或治疗路径。

因此，在预测模型里，“缺失”本身可以成为一个信息特征，即 missingness indicator（缺失指示变量）。

这在解释模型里可能很难解释，但在预测模型里可能有价值。

5.3 数据划分：Data partitioning

预测建模必须重视：

中文	英文
训练集	training set
验证集	validation set
测试集 / 留出集	test set / holdout set
交叉验证	cross-validation
自助法	bootstrap
外部验证	external validation

作者强调，不能只在训练数据上评估预测性能，因为这会高估模型表现。模型必须在没有见过的数据上测试。

医学 AI 里，这正是很多模型论文的问题：

AUC 很高，但只是在内部数据、同一家医院、同一时间段上做验证。

真正关键的是：

外部验证（external validation）
时间外验证（temporal validation）
跨医院验证（multi-site validation）
前瞻性验证（prospective validation）

5.4 探索性数据分析：Exploratory Data Analysis, EDA

解释性建模中的 EDA 通常受理论引导。已经有假设，所以主要检查理论指定的关系。

预测性建模中的 EDA 更开放，目的是发现未知关联、非线性模式、交互模式和数据质量问题。

作者还区分：

中文	英文
探索性可视化	exploratory visualization
验证性可视化	confirmatory visualization

对假设驱动医学 AI 来说，这一点很有启发：

哪些探索是为了发现候选机制？
哪些分析是为了检验预先定义的机制假设？
哪些变量只是提高预测性能，但不应被解释为因果机制？

5.5 变量选择：Choice of variables

这是全文对临床 AI 最重要的部分之一。

解释性建模中，变量选择基于理论角色：

中文	英文
暴露变量	exposure
结局变量	outcome
混杂变量	confounder
中介变量	mediator
调节变量	moderator
控制变量	control variable
工具变量	instrumental variable
内生性	endogeneity
反向因果	reverse causation

预测性建模中，变量选择基于：

中文	英文
与结局的关联强度	association with outcome
数据质量	data quality
预测时可获得性	ex-ante availability
泛化能力	generalizability
对预测性能的贡献	predictive contribution

一个变量可以是很强预测因子，但不适合解释因果。

一个变量也可以是重要因果变量，但预测贡献不大。

临床例子：

变量	预测价值	因果解释风险
ICU admission	可预测死亡	可能只是严重程度标志
high lactate testing frequency	可预测恶化	不是病因，而是医生行为/病情严重的代理
insurance status	可预测随访和用药	涉及社会结构、资源可及性，不能简单解释为生物机制
medication use	可预测结局	可能有 indication bias，即用药原因本身代表病情严重

5.6 方法选择：Choice of methods

解释性建模偏好可解释、可和理论模型对应的方法，例如 regression models、structural equation models、causal models。

预测性建模可使用更广泛的方法，包括：

中文	英文
神经网络	neural networks
k近邻	k-nearest neighbors
随机森林	random forests
boosting	boosting
bagging	bagging
集成方法	ensemble methods
岭回归	ridge regression
主成分回归	principal components regression
偏最小二乘回归	partial least squares regression

作者引用 Breiman 的观点：统计学界长期偏向“数据生成模型”（data model），而机器学习更接受“算法模型”（algorithmic model），即不假设已知数据生成机制，而是直接追求预测性能。

这不是说机器学习更高级，而是说它服务的是不同目标。

5.7 验证、评估和模型选择：Validation, model evaluation, model selection

解释性模型的验证包括：

中文	英文
模型设定是否正确	model specification
模型是否代表理论机制	model validation
拟合优度	goodness of fit
残差分析	residual analysis
系数显著性	statistical significance
构念效度	construct validity

预测性模型的验证关注：

中文	英文
泛化能力	generalization
过拟合	overfitting
外部数据表现	out-of-sample performance
预测准确性	predictive accuracy
校准	calibration
判别能力	discrimination
临床净获益	net benefit

作者特别强调：

解释力（explanatory power）和预测力（predictive power）必须分开评估。

R²、p-value、F statistic 不能自动说明模型预测力好。

医学 AI 对应：

解释性指标	预测性指标
regression coefficient	AUC / AUROC
p-value	sensitivity / specificity
confidence interval	calibration slope
effect size	Brier score
model fit	decision curve analysis
causal estimate	external validation performance

一个变量 p < 0.001，不代表它能显著提高预测性能。

一个模型 AUC 很高，也不代表它揭示了疾病机制。

6. AIC 和 BIC 的意义：为什么它们也反映解释/预测差异？

作者提到，AIC 和 BIC 经常被当作模型选择指标，但二者背后的哲学不同。

指标	英文	更偏向
AIC	Akaike Information Criterion	预测准确性 predictive accuracy
BIC	Bayesian Information Criterion	拟合/模型识别 goodness of fit / model inference

作者引用 Sober 的观点：AIC 更像是在估计预测准确性，而 BIC 更像是在估计模型族的平均似然或拟合表现。

这对阅读临床预测模型论文很有帮助。很多论文说“我们用 AIC 选择变量”，但需要进一步追问：

他们是在追求预测性能，还是在追求解释机制？
如果是预测，为什么不直接用交叉验证或外部验证的预测指标？
如果是解释，变量选择是否符合因果结构，而不是单纯按 AIC 自动筛选？

7. Netflix Prize 例子：为什么预测模型不等于解释模型？

作者用 Netflix Prize 举例。

Netflix 的任务是预测用户会给电影打几分。获胜团队使用了多种方法，包括矩阵分解（matrix factorization）、SVD、集成模型（ensemble models）等。

这些方法预测效果很好，但不一定能解释“人为什么喜欢某部电影”。

这和临床 AI 很像：

一个模型可以很好预测谁会 readmission，但它不一定解释 readmission 的机制。
一个模型可以很好预测谁会发生 VTE，但它不一定说明 VTE 的病理机制。
一个模型可以很好预测药物反应，但它不一定知道药物作用通路。

如果要做解释性研究，就必须重新定义理论构念、因果路径、变量角色和假设检验方式。

8. 对临床 AI 的直接启发

这篇文章对临床 AI 研究尤其重要，因为医学 AI 常常同时涉及预测、解释、机制、干预和临床决策。

但这些目标不能混在一起。

临床 AI 研究至少有三种不同目标：

预测谁会发生某个结局
解释某个风险因素或机制是否导致结局
描述疾病或患者状态的结构

这三类问题需要不同的研究设计、变量选择、验证方式和论文语言。

8.1 预测模型论文不能轻易说“发现机制”

如果一个模型只是用 EHR 数据预测 VTE，那么它最多说明：

这些变量与 VTE 风险有预测性关联。

它不能自动说明：

这些变量导致 VTE。
这些变量是机制。
干预这些变量会降低 VTE。

除非研究设计支持因果推断，例如 randomized trial、target trial emulation、causal inference、instrumental variables、propensity score、DAG-based adjustment 等。

8.2 解释性研究不能只报告 p-value，也应接受预测检验

作者的一个重要立场是：预测不是低级应用，而是科学理论发展的必要部分。

预测模型可以帮助：

发现新机制
比较不同理论
检验理论是否具有现实相关性
测量某个现象本身的可预测程度

这对假设驱动医学 AI 非常关键。

可以把某个机制假设转化为预测模型，然后问：

加入机制相关变量后，模型是否在外部验证中改善？
改善的是 discrimination 还是 calibration？
改善是否集中在特定亚组？
这个改善是否符合机制预期？
如果不改善，是机制假设错了，还是变量 operationalization 不好？

这就是把“机制假设”和“预测检验”结合起来。

8.3 预测性能提升不等于机制被证明

假设在 VTE 模型中加入 inflammation markers 后 AUC 提高了。这说明：

炎症相关变量含有预测信息。

但还不能直接说明：

炎症是这个患者发生 VTE 的因果机制。

因为这些变量可能只是疾病严重程度、住院状态、感染、肿瘤负荷、治疗强度的代理变量（proxy variables）。

所以，假设驱动医学 AI 的关键应该是：

不只是看变量组是否提升预测，而是看变量组对应的临床机制是否有明确理论、时间顺序、可测量状态、可干预含义和跨数据集稳定性。

9. 与“假设驱动医学 AI”的关系

Shmueli 这篇文章可以作为假设驱动医学 AI 的一个基础文献，因为它支持一个重要主张：

临床 AI 不应只问“模型准不准”，也不应只问“变量显不显著”；应当明确区分预测目标、解释目标和描述目标，并在建模流程中相应设计。

换成更临床的语言：

Shmueli 的概念	假设驱动医学 AI 中的对应
explanatory modeling	机制假设检验
predictive modeling	结局预测
construct	临床状态 / 机制构念
operationalization	观察指标设计 / 测量映射
ex-ante availability	预测时间点上的变量可获得性
bias–variance tradeoff	预测稳健性 vs 机制忠实度
predictive power	结局预测的泛化能力
explanatory power	机制合理性 / 因果一致性

这篇文章可以帮助避免一个常见陷阱：

把“机制变量组加入后预测提升”直接写成“机制被证明”。

更稳妥的写法是：

“The mechanism-informed feature group improved out-of-sample prediction, suggesting that the hypothesized clinical mechanism captures prognostically relevant information. However, this predictive gain should not be interpreted as causal proof without additional causal identification.”

中文可以写成：

“机制启发的变量组提高了样本外预测表现，提示该临床机制假设捕捉了与预后相关的信息。但除非有额外的因果识别设计，否则这种预测提升不能被解释为因果证明。”

10. 专业词汇表

中文	英文
解释性建模	explanatory modeling
预测性建模	predictive modeling
描述性建模	descriptive modeling
因果解释	causal explanation
经验预测	empirical prediction
预测能力	predictive power
解释能力	explanatory power
理论构念	theoretical construct
操作化	operationalization
可测量变量	measurable variable
观察性数据	observational data
实验数据	experimental data
关联	association
因果	causation
回顾性	retrospective
前瞻性	prospective
偏差	bias
方差	variance
偏差-方差权衡	bias–variance tradeoff
泛化能力	generalization
过拟合	overfitting
留出集	holdout set
训练集	training set
交叉验证	cross-validation
数据泄漏	data leakage
预测时可获得性	ex-ante availability
模型设定	model specification
拟合优度	goodness of fit
模型选择	model selection
降维	dimension reduction
主成分分析	principal components analysis, PCA
奇异值分解	singular value decomposition, SVD
收缩方法	shrinkage methods
岭回归	ridge regression
集成方法	ensemble methods
随机森林	random forest
提升法	boosting
装袋法	bagging
内生性	endogeneity
反向因果	reverse causation
工具变量	instrumental variable
倾向评分	propensity score
混杂变量	confounder
中介变量	mediator
调节变量	moderator
外部验证	external validation
校准	calibration
判别能力	discrimination

11. 全文总结

这篇文章的核心思想是：

解释模型是为了理解或检验因果机制；预测模型是为了在新样本上准确预测结果。二者使用的数据、变量、方法、验证标准、模型选择逻辑和论文报告方式都不同。解释力不等于预测力，预测力也不等于因果理解。

对临床 AI 来说，这篇文章的价值非常大：

做预测模型时，要严肃评估泛化和临床可用性。
做机制研究时，要严肃区分“预测贡献”“机制合理性”和“因果证明”。
做假设驱动医学 AI 时，不能只看变量组是否提升 AUC，而要看该变量组是否对应一个清晰、可测量、时间顺序合理、临床上可解释、最好还能被干预的机制假设。