老师,您好!我在微信公众号看到您对多群组中介分析问题的一些解答,很有收获,冒昧来信请教。我自身在做多群组中介分析时也遇到一个问题想请教您:以下是我的简单中介模型图,在使用bootstrap分析前编写user-definded estimand的时候,e.StandardizedIndirectEffect() 这个函数括号内的变量名,如何对两组进行区分呢?因为我发现两组的变量名是联动的,改掉一组的,另一组的也跟着变了。这个问题已经困扰我好些天了,如果您能帮忙解答,不胜感激!
回复:
首先,解决这个问题非常简单,你在分析之前把所有变量都标准化处理,这样算出来的原始估计就是标准化效应。
其次,我看到你想比较两组的标准化间接效应来论证各组B中介效应的强弱。但是,不同组的间接效应是不能直接比较的,因为缺乏可比性。间接效应的强弱是依赖于总效应这个语境来解释的,脱离总效应来谈间接效应就是抛弃了一个比较的参照系或标准。这就好比比较两条河的支流流量,如果两条河的总流量不同,仅比较某条支流的绝对水量,是没有实质意义,有意义的比较是比较支流在总流量中的相对贡献。再比如,一位女生跟她的闺蜜吐槽说,她老公每个月就上交5000元,而她闺蜜老公每个月上交15000元。但实际情况是,她老公每个月就6000总收入,而她闺蜜老公每个月总收入5万以上。所以,可以看出这位女生是掌握财政大权的,而她闺蜜老公只是每个月发点零花钱而已。所以,脱离基线水平来比较绝对量是不公平的。具体如何比可回看前期相关推文关于多群组中介分析的问题回复。
最后,你想对两组的标准化效应做差异检验。我能理解你希望通过标准化把各组变量的测量单位去掉,以使得组间的效应可比。但是在你这个例子里是没有必要的,因为各个变量在两组之间的测量方式是一样的,所以每个系数在组间的含义是一致的。假设A是学历,C是收入,第一组的系数为0.5,另一组的系数是0.3,那么0.5代表该组的学历提升一级,收入增加5000,而另一组增加3000。可以看出,这些系数的解释语境是一致的,因此,直接比较它们的原始估计是说得过去的,不会造成歧义。
如果硬要比较标准化效应的差异,会引入额外的复杂性。这种复杂性来源于两个方面,首先是估计的可信度问题。对于任一系数β,它的标准化形式是:
因此,估计标准化系数的时候需要同时估计自变量和因变量的标准差,对于模型来说,这是一个包括三个参数乘积的衍生参数。虽然我们可以利用观测样本的标准差来作为总体标准差的无偏估计,但是这个前提是随机抽样。实际研究中,我们获得的大部分样本都不是基于随机抽样,所以抽样误差会减弱这个估计的可信度。此外,这个新参数的分布也没有明确的估计量,只能通过非参方法去近似估计标准误。显然,对于标准化系数的估计没有原始系数那么可信。理论上,现在的统计软件允许估计各种非常复杂的参数(各种参数的线性非线性组合),但是参数越复杂,看待估计的结果越要谨慎,因为复杂参数通常包含复杂的前提假定,这些假定是不是成立是未知的。所以,“可估计”与“可信”是两码事。
其次是组间样本特征的差异造成标准化效应难以解释。对于任一间接效应ab,它的标准化形式是:
可以看出,这个公式里仍然包含自变量和因变量的标准差。这里我们不再谈估计的精度问题,而是看样本特征对于标准化效应的影响。在实际研究中,无论两个变量的总体标准差是否跨组等值,我们经常能观测到它们在样本层面的差异。比如,我们假定X的标准差在两组间都是一样的,而第一组中Y的标准差是第二组的2倍,这时,即使ab在组间完全相同,我们也会得到第一组的标准化间接效应更小。关键在于,这种“更小”是由于样本特征造成的,与我们想讨论的ab的强度无关,已经背离了我们检验的目的。这里只是举的一个特例,实际上X的标准差也可能组间不等,现实情况可能更加复杂。总之,两组样本方差结构的引入可能使得我们观测的标准化效应的差异无法解释,不知道是路径效应的差异,还是方差结构的差异。
总而言之,研究中,很多人都有一种想计算标准化系数的冲动,因为标准化去除测量单位了,使得效应可以独立比较。实际上,很多情况下是多此一举,有时甚至会得出错误的结论,需要慎重。
希望我的回复对你有所启发。

