「变量关系」什么是控制变量(回归分析中如何取舍控制变量)
今天,神州网给大家普及下关于「变量关系」什么是控制变量(回归分析中如何取舍控制变量)的知识。
Bernerth与Aguinis2016年发表在Personnel Psychology的论文回顾了10个最受欢迎的研究领域(任务绩效、组织公民行为行为、离职、工作满意度、组织承诺感、员工倦怠、人格、领导成员交换、组织公平、和情感)的文献中关于控制变量的选取和选取理由的叙述。通过回顾这些文献,作者发现以往研究在提及如何选取控制变量时存在较多的缺陷。作者最后推荐一套问答路径的方案来帮助学者们决定是否选取该变量作为控制变量,并通过实际论文中写作阐述来说明该如何介绍控制变量的选取。这里只着重介绍一下作者推荐的选择控制变量的决策步骤和论文中阐述该过程的写作建议。
选择控制变量的决策步骤
首先,作者强调无论最终的统计模型是否包括该控制变量,都应该详细地阐述选择该控制变量的原因,并且描述如何用统计方法对该变量进行处理,以确保研究的透明度,并最大程度地提高结果的可重复性。
接下来看一下作者推荐的确定是否选择一个控制变量的问答路径过程是怎样的。这一切从一个问题开始:“为什么想要用(或者应该)加入控制变量?”
a.如果答案只是“觉得审稿人或者主编希望有控制变量”,或者是“为了谨慎、保守地检验假设”,那么也不应该控制该变量(STOP)。
b.如果答案是“因为这个变量可能与本研究中的关键变量有关”、“因为以前的研究人员在他们的研究中控制了该变量”、“因为已有实证研究发现该变量确实与我研究中的变量有关系”、“因为它与我研究中包含的其他变量显著相关”、“因为它可能为我的研究结果提供了另一种解释”、“因为它可能影响我的结果”或“因为我想提升增量效度和区分效度”,需要进一步追问是否还有其他理由?如果仅有上述一个原因,那么不应该控制该变量(STOP)。如果有上述原因中的多个,则继续思考“这个原因有理论依据吗?”
a’. 如果想到的加入该控制变量的原因缺乏理论依据,那么分析中依然不该包含这一控制变量(STOP)。但这不意味着研究者不能测量任何控制变量,这只说明没有充分理由将该控制变量纳入统计分析中。
b’. 如果理论表明这个控制变量与研究的核心变量之间可能有关系,那么思考“这个变量和研究的核心变量之间的关系是怎样的?是重要的还是伪关系?”以及“现有的研究是否为这种关系提供了实证证据?”
a’’.如果已有实证证据支持,下面要看“这个变量的测量是否可靠?”,如果可靠,则考虑包含或者排除该控制变量;如果不可靠,就不需要包含(STOP)。
b’’. 如果缺乏实证证据支持该变量与研究中核心变量的关系,作者需要进一步思考“这个控制变量对我的研究重要、不可或缺吗?”
a’’’. 如果不重要,就不需要包含(STOP)。
b’’’.如果重要,则进一步提问“这个变量的测量是否可靠?”如果不可靠,就不包含(STOP);如果可靠,就将该变量纳入分析。
该过程见下图。
简单总结一下,控制某变量最好的理由是通过阐述控制变量和核心研究变量之间的理论关系。首先,需要解释控制变量与研究变量的关系是怎样的,是重要的关系还是由于误差(例如,伪关系)产生的?接着,还需要回答三个问题:(i)现有的研究是否为这种关系提供了实证证据?(ii)将其包括在研究中有什么目的?(iii) 这个变量的测量是否可靠?如果控制变量与研究变量之间的关系有实证证据支撑,那么有理由认为在统计分析中加入该控制变量可以提升效度或排除对研究结果的其他解释。如果没有实证证据支持,则是否控制该变量取决于它们对研究者模型的重要程度以及能否可靠测量该控制变量。不重要的变量和无法可靠测量的变量,不应该考虑将其作为控制变量。
在论文中阐述控制变量的选择
阐述包含或排除一个控制变量的理由,需要从理论上详细解释控制变量和核心变量之间的关系是什么(what)、关系是什么(how)和为什么联系在一起(why)。研究者还应该报告所有控制变量的描述性统计数据(相关性系数、显著性水平和信度),并且评估和描述有或无控制变量对研究结果的影响。
在论文中,无论最终的统计模型是否包括该控制变量,都需要清晰地阐述控制变量的选择或排除过程,给出相应的理论依据。通常,可以从以下三个方面进行阐述:(1)控制变量和研究变量之间可能存在潜在的关系;(2)已有的实证证据;(3)减少替代性解释和增加效度。
下面提供一个可供参考的阐述方式:
“本研究考虑了几个可能相关的控制变量,包括A、B和C。以前的实证研究、元分析发现…,表明A和X之间以及B和X之间存在关系。根据理论的解释,A和X之间的关系是由于…。此外,B对X的影响是因为… 最后,本研究还认为C和X之间的关系是由于…鉴于这些关系,X与Y相关可能不是因为…,正如我们的理论所解释的,而是因为… 因此,为了排除可能存在的替代解释,并证明X和Y之间的唯一关系,分析这些控制变量与我们的预测变量之间的关系是重要的。表XX中的相关性检验表明A、B与X没有显著相关性。C与X有显著相关性。这与本研究基于理论的解释相一致,即… 加入和不加入A和B作为控制变量进行假设检验得出的结果是一致的。因此,为了使统计效力最大化并方便对于结果的解读,本文选择不控制A和B。而考虑到表XX中的相关性和我们研究中提出的理论,我们控制了C。”
注:撰写时不必明确引用特定理论或详细描述控制变量如何影响现有理论,而只需解释如何将控制变量纳入统计模型以及为何适合纳入模型中即可。