百奥知_医学研究中的偏倚及其控制之混杂偏倚

医学研究中的偏倚及其控制之混杂偏倚

发布时间：2022-05-18 阅读：12668

在进行流行病学研究中，不论采用何种研究方法，都是采用样本来推断总体。有许多因素会影响其准确性使研究结果与真实情况发生偏差。引起偏差的原因包括两个方面，一是随机误差，二是系统误差。其中随机误差是由个体差异、抽样和其他未知原因引起的随机性误差，是无法避免的误差，但可以通过研究设计和统计分析方法减少和控制；系统误差一般是由人为或者测量方法不对引起的误差，即我们所说的偏倚，系统误差是可以减少甚至可以避免。减少随机误差可以提高研究的精准性，减少或避免系统误差可以提高研究的真实性。
偏倚是随机误差以外的，可导致研究结果与真实情况差异的系统误差，可发生于研究的各个环节，有方向性。偏倚主要包括三类：选择偏倚、信息偏倚和混杂偏倚。

上两期我们系统介绍了选择偏倚和信息偏倚，本篇我们来说混杂偏倚。

混杂偏倚概念

混杂偏倚也称为混杂，指的是在流行病学研究中，由于一个或者多个潜在的混杂因素的影响，掩盖或者夸大了研究因素与研究疾病之间关系，从而使得两者之间的真正联系被错误地估计的系统误差。在分析性研究中比较常见。

中介变量是研究因素到研究结局因果链上的一个环节。混杂因素不同于中介变量，它不仅对研究因素有影响，而且对研究结局有影响，还不是研究因素到研究结局因果链上的环节。混杂因素不容易确定和识别，需要临床专家、统计专家认真仔细研判来控制混杂因素。

临床数据分析与报告

混杂偏倚产生原因

混杂偏倚产生的主要原因就是分组的不均衡。比如研究吸烟对肺癌影响的病例对照研究中，年龄就是混杂因素，如果病例组与对照组年龄分布不均衡，就可能错误地估计吸烟与肺癌的关系；再比如在随机对照研究当中，我们通常采用随机化的方法分配研究对象到研究组和对照组，能够实现研究对象的基本特征均衡分布，就不容易产生混杂因素。

混杂偏倚的控制

1.限制研究对象

主要是通过入选标准针对某些潜在混杂因素进行限制。通过限制入选对象，可以得到同质的研究对象，从而避免混杂影响。但是这样的人群代表性可能会受影响，结论外推也会受到一定的限制。

2.随机化

上文举例中，在RCT研究中通过随机化手段使得混杂变量在各组间均衡分布，从而达到控制混杂作用。

3.匹配

是指为研究病例或者某特征人群选择对照时，针对特定的混杂因素，使其与研究组相同或相似，从而消除混杂因素的影响。在队列研究、病例对照研究和临床试验中都可使用此方法消除混杂因素的影响。需要注意的是，匹配因素不是越多越好，匹配的同时，我们也损失了部分信息，也不能研究其作为疾病影响因素来分析，匹配因素越多，损失信息越多，匹配主要的混杂变量为佳。

4.统计学处理

对混杂因素的混杂作用，可以采用统计分析手段予以识别和控制。如采用分层分析、多因素分析。采用分层分析时，各层研究因素与疾病间的联系结论一致，就不存在混杂变量与研究因素的交互作用，使用Mantel-Haenszel分层分析，得到将混杂变量调整后分析结果。当分层分析不适用的时候（混杂因素较多），可采用多因素分析方法进行分析（回归分析、协方差分析等）。

编者简介

张尚超

百奥知统计总监

吉林大学公共卫生学院公共卫生专业，硕士研究生

曾担任吉林大学第一医院新生儿科科研助理。

现任北京百奥知医药科技有限公司统计总监兼任智能分析产品经理。

主要研究方向：临床流行病学、分子流行病学、临床数据挖掘分析、机器学习等。

发表SCI论文8篇，其中一作1篇，影响因子IF=5.5。参与国家自然科学基金面上项目1项，其他科研项目4项。

精通SPSS、R语言、SAS、Python、Graphpad Prism等统计分析软件。近4年，主持参与50+项目统计分析工作及多项科研项目设计工作。