大数跨境
0
0

饱和模型/样本量/控制变量问题

饱和模型/样本量/控制变量问题 SEM结构方程模型
2022-01-13
1
导读:老师您好,请问在都是显变量的路径分析中,卡方值和自由度为0,GFI、AGFI、TLI、CFI为1,怎么办?而

老师您好,请问在都是显变量的路径分析中,卡方值和自由度为0,GFI、AGFI、TLI、CFI为1,怎么办?而且软件提示无法修正模型,这种情况正常吗?第二,关于多组比较,样本量之间的数量是否有具体要求,如果一个过多一个过少是不是不可以,有没有规定的不同数量之间相差的比例。比如,三组变量的样本量分别2400,900,3835,这样的样本量可以进行多组比较吗?多组比较中限制型模型和非限制型模型具体指什么?第三,在只有显变量的路径分析是否要加入控制变量?辛苦老师。

 


Response:

第一,饱和模型问题。你说的这种情况说明你遇到了饱和模型的问题,饱和模型是指自由度均为0的模型,此时模型用尽了所有的自由度,恰好识别,有且仅有唯一解,也就是说这种情况下模型一定能从数据里求解出确定的一组参数,这个时候已经不存在最优解的问题,因为解只有一个,所以你会看到所有的拟合指数都是“最优的”。之所以打上引号,是因为这种最优是虚假的,只有在有选择的前提下才能谈论优劣,没有选择的时候最优是没有任何意义的,这个道理就类似于“你们系里今年有一个最优教师名额,但是报名参加的就你一个人,那你自然就是最优教师了”。所以,饱和模型的拟合是依赖于模型设定,而非数据,因此背离了拟合指数的初衷。在研究的过程中,我们最好要避开饱和模型,因为这个时候你没法判断数据与模型的匹配度。避开的策略是简化模型以增加模型的自由度,让模型的解有选择的空间。如果迫不得已遇到饱和模型,一定要如实说明你这个模型的饱和模型,不然审稿人可能会误解你的拟合指数是不是搞错了。

第二,样本量问题。多组比较分析中的样本量问题并没有明确的比例规定,样本量在本质上是取决于模型的复杂程度(待估参数的多少),模型越复杂,需要的样本量就越多。所以你首先要关注每组的样本量是不是足够的,一个经验法则是超过观测指标数量的十倍。假定你的模型里有25个观测指标,而你每组只有100个样本,这样一来,尽管每组的样本量是一样的,但是多组比较也是没有意义的,因为连最基本的样本量要求都没达到,很容易受到质疑。如果你确定每组的样本量已经达到了基本要求,接下来你就要考虑为什么有一组的样本量差这么多(n=900)?因为审稿人很可能会问你这个问题,是不是因为这个群体非常难获取(比如监狱的犯人/特殊儿童)?如果是这样,那情有可原;如果不是,恐怕说不过去(比如你比较性别差异但是男女数量差别大)。最后,你还需要意识到检验力的问题,如果样本量差异大,意味着每组样本对应的检验力是不同的,最好的情况是每组的检验力都已经超过了临界值(比如0.9,具体依存于各自领域的以往相关研究),这可以减少审稿人的质疑。此外,多组比较中限制型模型值得是限制多组之间某对参数相等的模型,而非限制型模型没有做任何等值设定,属于自由估计模型,区分这两种模型非常简单,自由度大的就是限制模型。

第三,控制变量问题。在只有显变量的路径分析也需要加入控制变量,这一点与显变量或者潜变量无关,多变量关系研究都需要考虑控制变量的问题。加入控制变量是为了降低遗漏变量偏差,排除其他可能的解释。比如,你发现X可以显著预测Y,但是你没有加控制变量。如果我是审稿人,我可能会质疑说你观测到的X的预测作用是假的,因为X的预测力可能由于X与Z的相关性导致的,而Z的预测作用在以往研究已经多次证实。很显然,这个时候你很难回复这个问题,你大概率需要收集新的收据把控制变量考虑进来算给审稿人看,而且很有可能吃力不讨好。甚至有时候审稿人会怀疑是不是你发现加入了控制变量后,关注的效应不显著了,所以你投稿之前就把控制变量删了。这也就是所谓的“当研究结果取决于控制变量”,具体可参见公众号前期有关推文(当研究结果取决于控制变量!)。


希望我的回复对你有所启发,祝研究顺利!


【声明】内容源于网络
0
0
SEM结构方程模型
本平台致力于以下3个方面的工作:1.介绍结构方程模型的原理;2.介绍结构方程模型的软件操作,主推Mplus软件;3.定期更新关于结构方程模型领域的前沿方法学文献,追踪最新的研究进展
内容 96
粉丝 0
SEM结构方程模型 本平台致力于以下3个方面的工作:1.介绍结构方程模型的原理;2.介绍结构方程模型的软件操作,主推Mplus软件;3.定期更新关于结构方程模型领域的前沿方法学文献,追踪最新的研究进展
总阅读6
粉丝0
内容96