临床医生在AI时代首先需要了解:预测模型vs解释模型
临床AI/ML模型“金标准”文章 Shmueli《To Explain or to Predict?》精读:解释模型与预测模型不是一回事
前言:为什么临床医生需要关心“解释”和“预测”的区别?
临床工作里,医生每天都在做两件看似相似、但本质不同的事。
一种是解释:
这个患者为什么会胸痛?
为什么 D-dimer 升高?
为什么用了某种药以后肾功能变差?
为什么年轻患者也会发生血栓?
另一种是预测:
这个胸痛患者未来几小时会不会恶化?
这个患者出院后 30 天会不会再入院?
这个肿瘤患者会不会对治疗有反应?
哪些患者最需要优先随访?
在临床思维中,这两件事常常交织在一起。一个有经验的医生看到患者的年龄、病史、化验、影像和用药,会同时形成两种判断:一方面试图解释病情背后的机制,另一方面也在预测下一步风险。
但在统计建模和医学 AI 中,这两件事不能简单混在一起。
一个变量和结局显著相关,并不代表它就是原因。一个模型预测得很准,也不代表它理解了疾病机制。就像临床上一个患者的“ICU 入住”可以强烈预测死亡风险,但我们不会说“ICU 入住导致死亡”;它更可能是病情严重程度的标志。
这正是 Shmueli 这篇经典文章 “To Explain or to Predict?” 最有意思的地方。它用非常清晰的方式提醒我们:
解释模型回答的是“为什么”;预测模型回答的是“接下来会发生什么”。
这一区别对医学尤其重要。因为医生不仅关心模型准不准,还关心模型是否符合临床逻辑、是否能帮助形成假设、是否能支持干预决策、是否会把相关性误读成因果性。
对于普通临床医生和医学生来说,这篇文章的价值不在于复杂公式,而在于它能帮助我们重新理解医学 AI 论文里常见的说法:
“这个变量是独立危险因素。”
“这个模型 AUC(衡量模型能力的最常用指标)很高。”
“机器学习发现了新的机制。”
“模型可解释性很好。”
“加入某组变量后预测性能提高。”
这些说法听起来都很熟悉,但它们背后可能对应完全不同的科学问题。
读完这篇文章后,再看一篇临床预测模型论文,就会自然多问几句:
它是在解释机制,还是在预测风险?
它使用的变量在预测时真的可获得吗?
它的高 AUC 是否经过外部验证?
它所谓的“重要变量”是因果因素,还是只是代理指标?
它能指导干预,还是只能帮助风险分层?
这篇文章并不是反对预测,也不是反对解释。相反,它强调:解释和预测都重要,但必须分清楚。
在医学 AI 时代,这种区分会变得越来越关键。
1. 文章摘要
统计建模(statistical modeling)是一种强大的工具,可以用于三类科学目标:
- 因果解释(causal explanation)
- 预测(prediction)
- 描述(description)
但在很多学科里,统计模型几乎只被用于因果解释,并且研究者常常默认:一个解释力强的模型,也自然具有很强的预测能力。
作者认为,这种把“解释”和“预测”混为一谈的现象非常普遍,但如果要推动科学知识进步,就必须理解二者的区别。虽然哲学界早已讨论过解释与预测的区别,但统计学文献里缺少对二者在实际建模流程中差异的系统讨论。
本文的目的就是澄清解释性建模(explanatory modeling)和预测性建模(predictive modeling)的区别,讨论这种区别的来源,并揭示这种区别如何影响建模流程的每一个步骤。
这里的关键不是“回归 vs 机器学习”,而是研究目的不同。
同一个 logistic regression,可以被用于解释,也可以被用于预测;同一个 random forest,也可能用于预测,但通常不适合直接用于因果解释。
问题不是算法名字,而是你问的问题是什么。
2. 三种建模目的:解释、预测、描述
2.1 解释性建模:Explanatory modeling
作者把解释性建模定义为:
使用统计模型来检验关于理论构念(theoretical constructs)的因果假设(causal hypotheses)。
在社会科学、经济学、心理学、教育学等领域,常见做法是:先有一个理论模型,比如认为 X 导致 Y;然后收集数据,用回归模型之类的统计模型去检验这个因果假设。
作者指出,现实中很多所谓“因果解释”其实是用基于关联的模型(association-based models)分析观察性数据(observational data),例如普通回归模型。研究者通常认为:因果性来自理论本身,统计模型只是帮助检验这个理论。
医学里也很常见。例如:
“炎症水平升高是否导致心血管事件风险增加?”
“某种治疗是否降低死亡率?”
“吸烟是否导致肺癌?”
这些是解释性问题。研究者关心的不是单纯预测谁会发病,而是想知道:
某个变量是不是机制性原因、风险因子、干预靶点或因果路径的一部分。
医学对应术语包括:
| 中文 | 英文 |
|---|---|
| 因果解释 | causal explanation |
| 理论构念 | theoretical construct |
| 因果假设 | causal hypothesis |
| 观察性数据 | observational data |
| 关联模型 | association-based model |
| 混杂变量 | confounder |
| 暴露 | exposure |
| 结局 | outcome |
| 倾向评分 | propensity score |
| 因果图 | causal diagram |
2.2 预测性建模:Predictive modeling
作者定义预测性建模为:
把统计模型或数据挖掘算法(data mining algorithm)应用于数据,目的是预测新的或未来的观察对象(new or future observations)。
这里重点是:给定输入 X,预测输出 Y。
预测可以是:
| 中文 | 英文 |
|---|---|
| 点预测 | point prediction |
| 区间预测 | interval prediction |
| 预测区域 | prediction region |
| 预测分布 | predictive distribution |
| 排名 | ranking |
| 时间预测 / 预测未来值 | forecasting |
临床 AI 中最常见的例子:
“这个患者未来 30 天是否再入院?”
“这个患者未来 6 个月发生 VTE 的风险是多少?”
“这个患者是否会对某药物产生不良反应?”
“哪个患者最需要优先随访?”
这些是预测性问题。
此时,模型并不一定要求解释“为什么”。它首先需要在新患者上表现稳定、泛化能力强、校准良好,并且在临床流程中可用。
2.3 描述性建模:Descriptive modeling
作者还提到第三类:描述性建模(descriptive modeling)。
它的目标不是因果解释,也不是预测新样本,而是用简洁方式总结数据结构(data structure)。
例如:
“这个患者群体可以分成哪几类表型?”
“某疾病患者的 lab pattern 有哪些聚类?”
“变量之间有什么整体相关结构?”
这类模型用于理解数据形态,但不一定能支持因果结论,也不一定能用于未来预测。
3. 文章最核心的一句话
这篇文章最重要的思想可以概括为:
解释模型关心的是“变量之间的关系是否代表理论中的因果机制”;预测模型关心的是“在新样本上能不能准确预测 Y”。
这两个目标看似相近,但建模逻辑完全不同。
解释性建模的核心对象是:
理论构念 X 是否通过某种机制 F 导致理论构念 Y。
预测性建模的核心对象是:
给定可观测变量 X,能否预测可观测结果 Y。
这就是作者区分 construct level 和 measurable level 的关键。
解释模型常常工作在“理论构念层面”(construct level),预测模型则工作在“可测量变量层面”(measurable level)。
医学里很好理解:
| 理论构念 | 可测量变量 |
|---|---|
| 炎症负荷 | CRP、IL-6、NLR |
| 肾功能状态 | eGFR、creatinine、尿白蛋白 |
| 胰岛素抵抗 | HOMA-IR、TG/HDL、腰围、空腹胰岛素 |
| 心衰严重程度 | BNP、EF、NYHA class、住院史 |
| frailty | gait speed、grip strength、体重下降、ADL |
解释性研究关心的是:
“炎症负荷是否导致疾病进展?”
预测性模型关心的是:
“CRP、NLR、年龄、既往史、用药能不能预测 6 个月内再入院?”
这两个问题不是同一个问题。
4. 为什么解释和预测会分开?
作者提出四个根本差异。
4.1 因果 vs 关联:Causation–Association
解释性建模中,模型 f 被用来表达一个潜在因果函数(causal function)。研究者希望 X 是 Y 的原因。
预测性建模中,模型 f 捕捉的是 X 和 Y 的关联(association)。只要 X 能帮助预测 Y,它不一定是 Y 的原因。
临床例子:
ICU 患者使用升压药(vasopressor use)可能强烈预测死亡风险,但升压药本身不一定是死亡的“原因”;它可能只是疾病严重程度的标志。
预测模型可以使用这个变量,因为它能预测。
解释模型要非常小心,因为不能简单说“升压药导致死亡”。
4.2 理论 vs 数据:Theory–Data
解释性建模通常从理论出发。变量选择、模型形式、交互项、控制变量,都要根据理论合理性来决定。
预测性建模更多从数据出发。它可以使用非线性模型、交互、降维、集成模型(ensemble methods),甚至黑箱模型(black-box models),只要在新数据上预测好。
临床 AI 中,这对应一个常见误区:
“模型用了 XGBoost / random forest,所以它更科学。”
不一定。它可能预测更准,但未必解释机制。“模型用了传统 logistic regression,所以它更可解释。”
也不一定。如果变量选择、混杂控制和因果结构没有做好,它也不能支持因果解释。
4.3 回顾性 vs 前瞻性:Retrospective–Prospective
解释性建模常常是回顾性(retrospective)的:用已有数据检验已有假设。
预测性建模是前瞻性(prospective)的:模型必须在未来或新患者上使用。
这对临床模型非常重要。
预测模型里的变量必须满足 预测时可获得性(ex-ante availability)。
例如,要预测患者入院后 24 小时内是否恶化,那么模型不能使用 48 小时后的 lab。
如果用了,那叫 data leakage(数据泄漏)。
解释性研究中,某些变量可以用于事后解释;但预测模型中,如果变量在预测时不可获得,就不能使用。
4.4 偏差-方差权衡:Bias–Variance tradeoff
这是全文最技术性、也最重要的一点。
作者引用预测误差分解:
$$
EPE = Var(Y) + Bias^2 + Var(\hat f(x))
$$
意思是,新样本预测误差(expected prediction error, EPE)由三部分组成:
| 项 | 中文解释 |
|---|---|
| Var(Y) | 结果本身的不可避免随机性 |
| Bias² | 模型设定错误导致的系统偏差 |
| Var(f̂(x)) | 模型估计的不稳定性,也就是方差 |
解释性建模通常尽量减少 bias(偏差),因为它希望模型尽可能忠实地代表理论机制。
预测性建模则关注 bias + variance 的总和,有时宁愿引入一点偏差,也要大幅降低方差,从而提高新样本预测性能。
这就是为什么一些“理论上不完美”的模型可能预测更好。
例如 ridge regression、LASSO、random forest、boosting、bagging 等方法,可能牺牲一部分解释清晰度,但能降低过拟合,提高泛化能力。
5. 建模流程中的差异
作者把建模流程拆成多个步骤:
- 定义目标
- 研究设计与数据收集
- 数据准备
- 探索性数据分析
- 变量选择
- 方法选择
- 验证、评估与模型选择
- 使用与报告
她的核心论点是:
从第一步开始,解释模型和预测模型就应该走不同路径。
5.1 研究设计和数据收集:Study design and data collection
解释性研究更关心:
| 关注点 | 英文 |
|---|---|
| 统计功效 | statistical power |
| 因果识别 | causal identification |
| 测量是否代表理论构念 | construct validity |
| 混杂控制 | confounding control |
| 实验设计 | experimental design |
预测性研究更关心:
| 关注点 | 英文 |
|---|---|
| 样本量是否足够大 | sample size |
| 是否有独立测试集 | holdout dataset |
| 新患者场景是否真实 | realistic prediction context |
| 数据是否代表未来使用场景 | generalizability |
| 变量是否在预测时可获得 | ex-ante availability |
作者特别指出,预测模型通常需要更多数据,因为它不仅要估计模型,还要留出验证集或测试集,并且要预测单个新观察对象,而不仅仅是估计总体层面的参数。
临床对应:
解释性研究可能问:
“某 biomarker 是否独立关联死亡率?”
预测性研究则要问:
“这个 biomarker 在真实门诊或住院流程中是否能及时获得?”
“缺失率多少?”
“不同医院测量方式是否一致?”
“未来患者分布是否类似训练数据?”
5.2 缺失值处理:Handling missing values
解释性建模中,缺失值通常按以下分类来判断:
| 英文 | 中文 |
|---|---|
| Missing Completely At Random, MCAR | 完全随机缺失 |
| Missing At Random, MAR | 随机缺失 |
| Not Missing At Random, NMAR | 非随机缺失 |
但预测性建模中,作者指出关键不一定是传统缺失分类,而是:
缺失本身是否预测 Y。
医学里非常重要。比如:
某项检查没有做,可能不是随机的。
医生没开 troponin,可能说明患者不像 ACS。
ICU 患者 lactate 频繁检测,可能说明病情更重。
肿瘤患者没有某项分子检测,可能反映医院资源、疾病阶段或治疗路径。
因此,在预测模型里,“缺失”本身可以成为一个信息特征,即 missingness indicator(缺失指示变量)。
这在解释模型里可能很难解释,但在预测模型里可能有价值。
5.3 数据划分:Data partitioning
预测建模必须重视:
| 中文 | 英文 |
|---|---|
| 训练集 | training set |
| 验证集 | validation set |
| 测试集 / 留出集 | test set / holdout set |
| 交叉验证 | cross-validation |
| 自助法 | bootstrap |
| 外部验证 | external validation |
作者强调,不能只在训练数据上评估预测性能,因为这会高估模型表现。模型必须在没有见过的数据上测试。
医学 AI 里,这正是很多模型论文的问题:
AUC 很高,但只是在内部数据、同一家医院、同一时间段上做验证。
真正关键的是:
外部验证(external validation)
时间外验证(temporal validation)
跨医院验证(multi-site validation)
前瞻性验证(prospective validation)
5.4 探索性数据分析:Exploratory Data Analysis, EDA
解释性建模中的 EDA 通常受理论引导。已经有假设,所以主要检查理论指定的关系。
预测性建模中的 EDA 更开放,目的是发现未知关联、非线性模式、交互模式和数据质量问题。
作者还区分:
| 中文 | 英文 |
|---|---|
| 探索性可视化 | exploratory visualization |
| 验证性可视化 | confirmatory visualization |
对假设驱动医学 AI 来说,这一点很有启发:
哪些探索是为了发现候选机制?
哪些分析是为了检验预先定义的机制假设?
哪些变量只是提高预测性能,但不应被解释为因果机制?
5.5 变量选择:Choice of variables
这是全文对临床 AI 最重要的部分之一。
解释性建模中,变量选择基于理论角色:
| 中文 | 英文 |
|---|---|
| 暴露变量 | exposure |
| 结局变量 | outcome |
| 混杂变量 | confounder |
| 中介变量 | mediator |
| 调节变量 | moderator |
| 控制变量 | control variable |
| 工具变量 | instrumental variable |
| 内生性 | endogeneity |
| 反向因果 | reverse causation |
预测性建模中,变量选择基于:
| 中文 | 英文 |
|---|---|
| 与结局的关联强度 | association with outcome |
| 数据质量 | data quality |
| 预测时可获得性 | ex-ante availability |
| 泛化能力 | generalizability |
| 对预测性能的贡献 | predictive contribution |
一个变量可以是很强预测因子,但不适合解释因果。
一个变量也可以是重要因果变量,但预测贡献不大。
临床例子:
| 变量 | 预测价值 | 因果解释风险 |
|---|---|---|
| ICU admission | 可预测死亡 | 可能只是严重程度标志 |
| high lactate testing frequency | 可预测恶化 | 不是病因,而是医生行为/病情严重的代理 |
| insurance status | 可预测随访和用药 | 涉及社会结构、资源可及性,不能简单解释为生物机制 |
| medication use | 可预测结局 | 可能有 indication bias,即用药原因本身代表病情严重 |
5.6 方法选择:Choice of methods
解释性建模偏好可解释、可和理论模型对应的方法,例如 regression models、structural equation models、causal models。
预测性建模可使用更广泛的方法,包括:
| 中文 | 英文 |
|---|---|
| 神经网络 | neural networks |
| k近邻 | k-nearest neighbors |
| 随机森林 | random forests |
| boosting | boosting |
| bagging | bagging |
| 集成方法 | ensemble methods |
| 岭回归 | ridge regression |
| 主成分回归 | principal components regression |
| 偏最小二乘回归 | partial least squares regression |
作者引用 Breiman 的观点:统计学界长期偏向“数据生成模型”(data model),而机器学习更接受“算法模型”(algorithmic model),即不假设已知数据生成机制,而是直接追求预测性能。
这不是说机器学习更高级,而是说它服务的是不同目标。
5.7 验证、评估和模型选择:Validation, model evaluation, model selection
解释性模型的验证包括:
| 中文 | 英文 |
|---|---|
| 模型设定是否正确 | model specification |
| 模型是否代表理论机制 | model validation |
| 拟合优度 | goodness of fit |
| 残差分析 | residual analysis |
| 系数显著性 | statistical significance |
| 构念效度 | construct validity |
预测性模型的验证关注:
| 中文 | 英文 |
|---|---|
| 泛化能力 | generalization |
| 过拟合 | overfitting |
| 外部数据表现 | out-of-sample performance |
| 预测准确性 | predictive accuracy |
| 校准 | calibration |
| 判别能力 | discrimination |
| 临床净获益 | net benefit |
作者特别强调:
解释力(explanatory power)和预测力(predictive power)必须分开评估。
R²、p-value、F statistic 不能自动说明模型预测力好。
医学 AI 对应:
| 解释性指标 | 预测性指标 |
|---|---|
| regression coefficient | AUC / AUROC |
| p-value | sensitivity / specificity |
| confidence interval | calibration slope |
| effect size | Brier score |
| model fit | decision curve analysis |
| causal estimate | external validation performance |
一个变量 p < 0.001,不代表它能显著提高预测性能。
一个模型 AUC 很高,也不代表它揭示了疾病机制。
6. AIC 和 BIC 的意义:为什么它们也反映解释/预测差异?
作者提到,AIC 和 BIC 经常被当作模型选择指标,但二者背后的哲学不同。
| 指标 | 英文 | 更偏向 |
|---|---|---|
| AIC | Akaike Information Criterion | 预测准确性 predictive accuracy |
| BIC | Bayesian Information Criterion | 拟合/模型识别 goodness of fit / model inference |
作者引用 Sober 的观点:AIC 更像是在估计预测准确性,而 BIC 更像是在估计模型族的平均似然或拟合表现。
这对阅读临床预测模型论文很有帮助。很多论文说“我们用 AIC 选择变量”,但需要进一步追问:
他们是在追求预测性能,还是在追求解释机制?
如果是预测,为什么不直接用交叉验证或外部验证的预测指标?
如果是解释,变量选择是否符合因果结构,而不是单纯按 AIC 自动筛选?
7. Netflix Prize 例子:为什么预测模型不等于解释模型?
作者用 Netflix Prize 举例。
Netflix 的任务是预测用户会给电影打几分。获胜团队使用了多种方法,包括矩阵分解(matrix factorization)、SVD、集成模型(ensemble models)等。
这些方法预测效果很好,但不一定能解释“人为什么喜欢某部电影”。
这和临床 AI 很像:
一个模型可以很好预测谁会 readmission,但它不一定解释 readmission 的机制。
一个模型可以很好预测谁会发生 VTE,但它不一定说明 VTE 的病理机制。
一个模型可以很好预测药物反应,但它不一定知道药物作用通路。
如果要做解释性研究,就必须重新定义理论构念、因果路径、变量角色和假设检验方式。
8. 对临床 AI 的直接启发
这篇文章对临床 AI 研究尤其重要,因为医学 AI 常常同时涉及预测、解释、机制、干预和临床决策。
但这些目标不能混在一起。
临床 AI 研究至少有三种不同目标:
- 预测谁会发生某个结局
- 解释某个风险因素或机制是否导致结局
- 描述疾病或患者状态的结构
这三类问题需要不同的研究设计、变量选择、验证方式和论文语言。
8.1 预测模型论文不能轻易说“发现机制”
如果一个模型只是用 EHR 数据预测 VTE,那么它最多说明:
这些变量与 VTE 风险有预测性关联。
它不能自动说明:
这些变量导致 VTE。
这些变量是机制。
干预这些变量会降低 VTE。
除非研究设计支持因果推断,例如 randomized trial、target trial emulation、causal inference、instrumental variables、propensity score、DAG-based adjustment 等。
8.2 解释性研究不能只报告 p-value,也应接受预测检验
作者的一个重要立场是:预测不是低级应用,而是科学理论发展的必要部分。
预测模型可以帮助:
- 发现新机制
- 比较不同理论
- 检验理论是否具有现实相关性
- 测量某个现象本身的可预测程度
这对假设驱动医学 AI 非常关键。
可以把某个机制假设转化为预测模型,然后问:
加入机制相关变量后,模型是否在外部验证中改善?
改善的是 discrimination 还是 calibration?
改善是否集中在特定亚组?
这个改善是否符合机制预期?
如果不改善,是机制假设错了,还是变量 operationalization 不好?
这就是把“机制假设”和“预测检验”结合起来。
8.3 预测性能提升不等于机制被证明
假设在 VTE 模型中加入 inflammation markers 后 AUC 提高了。这说明:
炎症相关变量含有预测信息。
但还不能直接说明:
炎症是这个患者发生 VTE 的因果机制。
因为这些变量可能只是疾病严重程度、住院状态、感染、肿瘤负荷、治疗强度的代理变量(proxy variables)。
所以,假设驱动医学 AI 的关键应该是:
不只是看变量组是否提升预测,而是看变量组对应的临床机制是否有明确理论、时间顺序、可测量状态、可干预含义和跨数据集稳定性。
9. 与“假设驱动医学 AI”的关系
Shmueli 这篇文章可以作为假设驱动医学 AI 的一个基础文献,因为它支持一个重要主张:
临床 AI 不应只问“模型准不准”,也不应只问“变量显不显著”;应当明确区分预测目标、解释目标和描述目标,并在建模流程中相应设计。
换成更临床的语言:
| Shmueli 的概念 | 假设驱动医学 AI 中的对应 |
|---|---|
| explanatory modeling | 机制假设检验 |
| predictive modeling | 结局预测 |
| construct | 临床状态 / 机制构念 |
| operationalization | 观察指标设计 / 测量映射 |
| ex-ante availability | 预测时间点上的变量可获得性 |
| bias–variance tradeoff | 预测稳健性 vs 机制忠实度 |
| predictive power | 结局预测的泛化能力 |
| explanatory power | 机制合理性 / 因果一致性 |
这篇文章可以帮助避免一个常见陷阱:
把“机制变量组加入后预测提升”直接写成“机制被证明”。
更稳妥的写法是:
“The mechanism-informed feature group improved out-of-sample prediction, suggesting that the hypothesized clinical mechanism captures prognostically relevant information. However, this predictive gain should not be interpreted as causal proof without additional causal identification.”
中文可以写成:
“机制启发的变量组提高了样本外预测表现,提示该临床机制假设捕捉了与预后相关的信息。但除非有额外的因果识别设计,否则这种预测提升不能被解释为因果证明。”
10. 专业词汇表
| 中文 | 英文 |
|---|---|
| 解释性建模 | explanatory modeling |
| 预测性建模 | predictive modeling |
| 描述性建模 | descriptive modeling |
| 因果解释 | causal explanation |
| 经验预测 | empirical prediction |
| 预测能力 | predictive power |
| 解释能力 | explanatory power |
| 理论构念 | theoretical construct |
| 操作化 | operationalization |
| 可测量变量 | measurable variable |
| 观察性数据 | observational data |
| 实验数据 | experimental data |
| 关联 | association |
| 因果 | causation |
| 回顾性 | retrospective |
| 前瞻性 | prospective |
| 偏差 | bias |
| 方差 | variance |
| 偏差-方差权衡 | bias–variance tradeoff |
| 泛化能力 | generalization |
| 过拟合 | overfitting |
| 留出集 | holdout set |
| 训练集 | training set |
| 交叉验证 | cross-validation |
| 数据泄漏 | data leakage |
| 预测时可获得性 | ex-ante availability |
| 模型设定 | model specification |
| 拟合优度 | goodness of fit |
| 模型选择 | model selection |
| 降维 | dimension reduction |
| 主成分分析 | principal components analysis, PCA |
| 奇异值分解 | singular value decomposition, SVD |
| 收缩方法 | shrinkage methods |
| 岭回归 | ridge regression |
| 集成方法 | ensemble methods |
| 随机森林 | random forest |
| 提升法 | boosting |
| 装袋法 | bagging |
| 内生性 | endogeneity |
| 反向因果 | reverse causation |
| 工具变量 | instrumental variable |
| 倾向评分 | propensity score |
| 混杂变量 | confounder |
| 中介变量 | mediator |
| 调节变量 | moderator |
| 外部验证 | external validation |
| 校准 | calibration |
| 判别能力 | discrimination |
11. 全文总结
这篇文章的核心思想是:
解释模型是为了理解或检验因果机制;预测模型是为了在新样本上准确预测结果。二者使用的数据、变量、方法、验证标准、模型选择逻辑和论文报告方式都不同。解释力不等于预测力,预测力也不等于因果理解。
对临床 AI 来说,这篇文章的价值非常大:
- 做预测模型时,要严肃评估泛化和临床可用性。
- 做机制研究时,要严肃区分“预测贡献”“机制合理性”和“因果证明”。
- 做假设驱动医学 AI 时,不能只看变量组是否提升 AUC,而要看该变量组是否对应一个清晰、可测量、时间顺序合理、临床上可解释、最好还能被干预的机制假设。