数据不会提?分析总出错?11月3日晚7点,来统计之光直播间,直接问!Meta分析答疑专场,等你来互动!
在Meta分析中,我们通过合并多个独立研究的结果,得到一个汇总效应量(比如合并后的均数差MD、风险比HR、比值比OR等)。这个汇总效应量的P值以0.05为界限,但简单地将P值<0.05视为“好”,>0.05视为“坏”是可以的么?
P值在Meta分析中的含义
首先明确汇总效应量的P值,通常解答的是:“在原假设成立(即所有研究的真实效应量为零,例如干预措施真正无效)的前提下,我们得到当前观测到的汇总效应量(或更极端效应量)的概率是多少?”
P<0.05:意味着如果干预措施真的无效,那么仅仅由于随机抽样误差而得到我们目前这个结果(或更明显的结果)的概率小于5%。我们通常认为这个概率足够小,因此有足够的证据认为汇总效应量在统计学上“显著”不为零。但这不等于说效应量在临床上很重要。
P>0.05:意味着如果干预措施真的无效,那么得到我们目前这个结果(或更明显的结果)的概率还挺高(大于5%)。因此,我们没有足够的证据得出效应量肯定不为零的结论。但这不等于说干预措施“肯定无效”或“效果是零”。
为什么不能简单用“好/坏”来评判?
将P值与“好/坏”挂钩会引发严重的误解。一个Meta分析的结果是否“好”,取决于多个维度的综合判断,而P值只是其中之一。
P值<0.05,但结果可能并不“好”,例如:
1️⃣ 缺乏临床意义
例子:一项降血压药的Meta分析发现,与对照组相比,试验组血压平均多降低1mmHg(P=0.01)。此时P值虽然显著(<0.05),但1mmHg的血压降低在临床实践中几乎没有意义。这个结果“统计显著”但“临床不重要”。
2️⃣ 异质性极高
例子:P值显著,但I²=85%。虽然得到了一个“显著”的汇总结果,但这个结果可能不可靠,因为各研究结果高度不一致。此时,探究异质性的来源比报告P值可能更重要。
3️⃣ 研究质量低
若纳入的所有研究都存在高偏倚风险(如随机化、盲法不当)。此时,即使P值再显著,如果原始数据不可靠,合并结果的价值也低。另外,使用GRADE系统对证据质量进行评级(高、中、低、极低)时,一个P值显著但证据等级为“低”的结果,其推荐强度远低于一个P值不显著但证据等级为“高”的结果。
4️⃣ 发表偏倚显著
若P值显著,但漏斗图明显不对称,Egger检验值小于0.05。这个“显著”的结果可能受到阴性结果的研究没有被发表出来的影响。如果把这些未发表的研究纳入,结果可能就不再显著了。
P值>0.05,但结果可能并非“坏”或无用,例如:
1️⃣ 有重要的临床意义趋势
假设一项新药治疗致命疾病的Meta分析,得出风险比为HR=0.80(95% CI: 0.62 至 1.04, P=0.09)。P值虽大于0.05,但点估计值0.80意味着20%的风险降低,这在临床上可能非常有价值。置信区间(0.62-1.04)下限提示可能存在有意义的获益,上限刚刚跨过1(无效线)。这个结果不应被简单地判为“无效”,而应被解读为“提示有获益趋势,但证据尚不充分”,需要更多研究来确认。P值若接近0.05,也建议下定论时采取“可能有…趋势,但仍需进一步确认”的描述,若太绝对地描述为无关或差,容易被审稿人提出修正。
2️⃣ 非劣效性或等效性检验
若在非劣效性设计中,研究目标不是证明A比B好,而是证明A不差于B。此时,统计检验的假设完全不同。
3️⃣ 样本量不足
若一个研究领域刚起步,只有少数几个小样本研究,且合并后P>0.05。这更可能是一个“证据不充分”而非“证据证明无效”的信号。它提示我们需要更多、更大型的研究。
在Meta分析中,我们应该如何全面解读结果?
Meta分析解读,必须进行综合评估,而非仅仅依靠某一结果来确认。首先看效应点估计值和置信区间,再评估异质性(I²统计量),其次评估发表偏倚,然后评估证据质量(如GRADE分级),最后结合临床背景和生物学合理性进行判断。
小结
在Meta分析中,P值<0.05 不应自动被视为“好”。它仅仅是一个信号,提示我们观察到的效应不太可能完全由偶然因素造成。必须进一步评估这个效应的临床意义、一致性、精确性和真实性。P值>0.05 更不应自动被视为“坏”。它通常意味着“基于现有证据,我们无法得出确切的结论”。这可能是因为效应确实不存在,也可能是因为证据不足、研究异质性大或存在偏倚。P值并不是非黑即白的,过于简化会带来误解,在解读Meta分析时,需结合效应量、置信区间、异质性和偏倚风险进行,这才是科学确且严谨的态度。
数据不会提?分析总出错?11月3日晚7点,来统计之光直播间,直接问!Meta分析答疑专场,等你来互动!
本号专注分享Meta分析科研干货与最新研究动态,除了上述内容外,对Meta分析感兴趣的同学,也可点击下方链接进行阅读或者留言你感兴趣的内容!
推荐阅读:

