1f578-fe0f

[真实项目1.3]著名三甲外科临床科研之 Meta 回归分析

2024/05/11 发布 2024/05/30

为什么用 meta 回归分析 (meta-regression)?

本连载每篇讲述一个主题,只看单篇也不影响理解。
前情内容就是在某三甲医院的一项真实世界研究中,我们找寻可以早期预测开颅手术术后感染的因素。在收集真实数据之前,我们从归纳文献中的感染预测因素开始。

文章内名词解释:
异质性(heterogeneity),代表有讨论意义的差异。如不同研究之间有样本量差异,研究类型差异,都是值得讨论的,因为这些会影响我们感兴趣的结果,叫做研究层面(study-level)的异质性。
协变量(covariate),即对结果会产生影响的变量,但我们不感兴趣,所以加一个“co”,和感兴趣的自变量区分开。
调节变量(moderator variables),是影响自变量和结局(因变量)之间关系的一种变量。比如不同性别之下,体重(自变量)与肥胖(因变量)关系的计算是不一样的。这时性别就是调节变量。
亚组分析(subgroup analysis),是指将 Meta-analysis 中的研究分成不同的亚组,通常是基于参与者或研究的特征。其目的是调查潜在的异质性来源,并确定不同亚组的效应大小是否存在差异。亚组分析可以回答有关特定患者群体、干预类型或研究设计的具体问题。

为方便,下面全文用 MA 表示 meta 荟萃分析,用 MR 表示 meta 回归分析。

太长不看版

基于当前研究背景,我们知道医学上有一些因素(比如糖尿病,手术时间长,脑脊液漏,存在植入物,等等)可以导致开颅术后术区感染率升高。MA 的本质是将这些研究进行“荟萃分析”,把每一篇研究的感染因素数据提取出来加权汇总。而 MR 的本质就是以 MA 为单元,汇聚更多研究,进一步增加证据量,再把这些不同研究之间的异质性综合在一起考虑,找到与问题(术后感染)有关的新发现。比如,要是发现样本量小的研究常常有较高的术后感染率,那就说明在这些小样本研究里,可能有人们没有归纳总结过的因素,而这些未知因素体现在样本量上。

在 MA 的基础上,我们用 MR 进一步探究,在 MA 中影响术后伤口感染的因素在 MR 中是否也显示出相关性。在数据量理想的情况下,MR 可以量化这样的相关性。另外通过 MR 可以看出,哪些本不该(或未经发现)影响术后伤口感染率的因素(即研究设计层面的因素,如样本量等)却与术后感染率呈现相关性(比如有可能出现的情况是,样本量越小的研究感染率越高),并提示相关性的大小。

直观小白解释

假设,现在我们有三篇 MA,它们共纳入 70 篇讨论术后感染的文章(去掉了重复的),这 70 篇文章总共统计的感染因素有 15 个, 70 篇全都统计了的因素只有 5 个。为方便,我们把 15 个统称为医学因素

上述 70 篇,每一篇也叫一项研究(study)。由于 MR 还探索研究层面(study-level)的异质性,所以要考虑研究层面的特征(characteristics),比如样本量,研究类型(前瞻 vs 回顾),研究地区,单 vs 多中心,等等......为方便,我们把这些统称为研究因素

MR 与 MA 有一些重要区别。MA 主要汇总医学因素,因为 70 篇原始文献只讨论医学因素与感染的关联。如果在 MA 中同时做亚组分析,那么只能每次分析一个分组因素(研究因素),而不是协同考虑。在 MA 基础上进行 MR 时,会用一个统计方法,我们暂且称为 r(regression),它把医学因素和研究因素综合起来分析,r 有一种包容性,它允许纳入多个协变量(covariate)或调节变量(moderator variables)等等 MA 不能一起考虑的因素,也就比 MA 多了些更丰富的信息。比如,由于可以探索调节变量(参考文首调节变量的名词解释),MR 可以进一步挖掘自变量间的联系,而非只看自变量与结果的关系。它也不需要 MA 里的亚组分析(subgroup analysis),因为它在分析异质性的时候采取了与亚组分析不同的策略。MR 与亚组分析也可结合使用

Meta 回归法对筛选异质性影响因素比较简便可靠,据此进行的亚组分析能明显降低亚组内的异质性。故存在统计学异质性又要计算合并效应时推荐二者结合使用,可正确识别并降低异质性,从而使Meta分析结果更为稳健与合理。——摘自《Meta回归与亚组分析在异质性处理中的应用》

进阶一点点:实施 MR

道理很简单,想要分析的因素越多,需要的样本量得越大才行,这叫 “越多越大” 原则 。比如,如果纳入前面提到的 5 个医学因素,3 个研究因素,加起来就已经是 8 个因素(即 8 个用于 MR 分析的自变量)。根据越多越大原则,8 个自变量最好能对应 80 篇左右包含全部 8 个自变量的研究(有的研究只包含一部分自变量。比如,我们看到有的文章连年龄都没记录),而我们手中只有 70 篇,要么再纳入一个 MA(能够提供 10 个左右不重复的研究),要么减少一两个因素(自变量)。你有没有发现,我已经把样本量等同于了研究(文章)数量?呵呵,这就是 MR 啊!MR 的眼中看的是文章,而不是人,是不是和你的主任有点像?总之,文章数量是 MR 的样本量。

以上是从纯数理角度讲一讲。实际上,能纳入 8 个自变量是非常理想的了。就我们本次开颅术后感染的研究来说,收集了 70 多篇文献,当自变量上升到 3 个的时候,就已经只剩下 40 多篇文献(只有 40 多篇文献同时包含这 3 个自变量的结果),无论怎么更换自变量,都不能达到更多。大量缺失数据,也导致我们无法进行 MA 内的亚组分析。

另外,即便能纳入 8 个,结果的解释会变得很复杂,尤其是涉及多个调节变量和协变量的时候,你就必须找道行深的老师父了。再者,你在解释的时候,发现还得再额外看个几十篇文献,呵呵......有时候并不是我们不想认认真真搞清楚一些事情,而是精力不允许啊!

再有一点显而易见的是,这 80 篇文献质量如何呢?如果是 80 篇 Nature/Science/JAMA,那你是幸福的。而对于我们这个研究,我只想说,“Surgeons are cowboys!!”。结论就是,MR 的质量很受原文献质量的影响,也受到发表偏倚(发表阳性而不发表阴性)的影响。

结语

下一期,我会讲一讲我们自己项目的 MR 的一把辛酸泪和结果。不要灰心,还是有很多收获的,因为即便原始文献质量堪忧,MR 也还是可以成功归纳出一些新发现的......
哦对了,前面的“越多越大”原则其实叫 Events Per Variable (EPV),它是一个约定俗成,并不是金科玉律哦。It's a rule of thumb, not set in the stone.

参考资料

  1. 《Meta回归与亚组分析在异质性处理中的应用》
  2. What is subgroup analysis?
  3. Integrating Mediators and Moderators in Research Design
  4. confusing statistical terms #5: covariate

欢迎小伙伴一起讨论学习!
微信:Positivism_y
QQ 群:760447631
邮箱:hellomedstat@gmail.com

还没有评论,赶紧评论下,抢个沙发?