大数跨境
0
0

做实验到底应该选取多少被试?

做实验到底应该选取多少被试? 壹脑云测评圈
2023-05-04
2
导读:心理学研究应该选取多少被试?


Hello,

这里是壹脑云测评圈,我是喵君姐姐~


今天我们介绍2018年发布在PsyArXiv的预印本文章“Number of participants required for common designs in psychology: A power analysis”。


考虑到心理实验中常见的效应量要求为d =.4,在实验被试量能够达到50人左右最好。对于大多数研究设计和实验分析,一般都需要100、200甚至更多的被试量。

接下来我们将讨论如何确定“我的实验必须要有多少个被试?”

PS:后台回复关键词“实验被试”即可获得所述论文的原文啦!





1. 心理学研究者害怕被试过多的研究 

由于一些心理学研究者受到的教育,他们会认为研究中过多的被试是一种浪费。但现实中我们可能低估了一个研究所需要的数据量。

一般情况下,当研究者在数据分析中获得一些效应的显著性,他们可能就会停止收数据,即使这些效应可能无法进行预测,之后这个实验也无法被复制。

目前研究者可能高估了数据分析中的效应量大小,低估了实验中所需要的被试量。

2. 以往研究中的误区

第一个误区是:如果以完全相同的方式再次进行研究,我们认为p < .05时显著的效果有95%的概率实验能被复制。但这是不正确的,研究成功复制的概率只有50%。

第二个误区是:效应量只对0.05左右的p值有影响。效应量告诉了我们实验结果对我们不利的几率,以致于我们无法发现显著性。然而,实际上效应量对整个p值范围都有影响。

3. 有效的研究往往需要更多被试量

我们通过比较两项假设性研究来说明这一点,每项研究都有一个重复测量的变量,有两个水平。在第一项研究中,在被试水平上没有效应(d = 0)。在第二项研究中,在被试水平上有d = .4的效应。

以下是每项研究的三种不同被试量的情况。(一) 10名参与者;(二) 30名参与者;(三) 100名参与者。



4. 研究公布的效应量很可能被高估了

第一个问题是:发表文章中所引用的研究并不是都能找到所对应的文献。

第二个问题是:研究者的主要动机是如何降低几乎显著结果的p值,这可能使实验带有偏向性。



1. 简单的数据分析:t检验和相关

d = .2为小效应规模,d = .4为中等效应规模,d = .8为大效应规模。根据这个分类,我们可以用d = .5作为最有可能的效应大小,并根据这个大小计算所需的被试人数。

以下是p < .05、双尾的检验所需的被试量。它们可以很容易地根据软件包(如G. Power)计算出来。

关于G. Power可以查看“G.Power教程 | 样本量估计”。

独立测量t检验:两组,每组100名被试 ;
重复测量t检验:一组52名被试;

有人提出用贝叶斯分析来替代传统的统计。当贝叶斯系数在10以上,被认为是替代假设的有力证据;贝叶斯系数在0.10以下,被认为是零假设的有力证据。

目前还没有贝叶斯分析的效应量计算器,但我们可以通过模拟来估计现有算法的效应。

组间贝叶斯分析:两组,每组190名被试;
贝叶斯分析重复测量:一组100名参被试;
贝叶斯分析相关性:370个数据对。 

2. 三个组间水平的单因素方差分析

当一个分类变量有三个水平时,不同水平之间存在不同的差异。例如,当两个条件之间存在已知的差异时,就会对第三个条件进行检查,该条件预期会产生符合其中一个条件的结果,或介于两者之间的结果。

假设研究者现在想知道,在多大程度上,非关联的、语义相关的词启动了目标词(例如,mum-boy )。

那么在一个实验中呈现这三种水平的目标词是有意义的;(a)确保对目标词有一个启动效应;(b)检查新的目标词相对于相关词的启动效应有多大。

我们假设两个极端水平之间的标准化效应大小为d = .4。

有两种情况值得关注:(1)新水平与现有水平相似,并且与其他水平的效果大小为d = .4;

(2)新的水平是介于其他两个水平之间(即与每个条件相差d = .2)。



为了说明人们是如何误解效应量要求的,我们可以看看G. Power推荐的方差分析F检验(主效应、交互、单因素)。

对于这样的检验,G. Power需要用f-coefficient表示效果大小。f系数大致是比较有名的(部分)eta平方值的平方根,对于组间的成对比较来说,f = d/2.当我们选择效应大小f = .2(等于d = .4),α = .05。

关于G. Power可以查看“G.Power教程 | 样本量估计”。

如果我们用这些数字进行模拟,我们发现总括方差分析有75%的时间是显著的,但只有49%的样本存在完整的模式。之所以总括检验有80%的时间不显著,是因为引入第三个条件稍微降低了f值。

我们还可以对有三个独立组的设计进行贝叶斯分析。

水平与其他水平之一相似:三组,每组230名被试;
水平介于其他两个条件之间:三组,每组950名被试。


3. 三水平的单因素重复测量方差分析



在相关样本的t检验中,效果大小d是基于差异分数的,你可以简单地用差异分数的平均值除以它们的标准差来计算:d = 17/17.7= 0.96。

我们大多数人可能会使用部分eta平方(η² p)作为效应大小的初始估计,因为这是大多数软件包给出的。如果我们对表2的数据进行方差分析,我们得到F(1,9) = 9.24,p = 0.014,η² p = 0.507。

在根据η² p估计d时,我们可能会出错的一种方法是,我们使用了经常被引用的从η² p到d的转换公式:



但是,这个公式只适用于组间。对于重复测量,正确的方程是:


这个方程之所以是近似的,是因为d是在N上计算的,而η² p是在df上计算的。如果我们在df上计算d。


                                                                 

N越大,方程的近似值越大。

在重复测量设计中,我们在计算d时可能会误入歧途,这是因为d可以有两种定义。首先,它可以像我们刚才在差异分数的基础上所做的定义;然而,d也可以定义为均值的差异除以均值标准差。

那么就相当于d ≈ 17/[(52.2+57.2)/2]= 0.31(而不是d=0.96)。

4. 其他相似的实验设计

我们可以用两种方法来模拟设计。首先我们让重复测量之间的相关性等于r=.50。然后我们知道,d z = d av 。

在这种情况下(r = .50;dav = .4;在混合分析中p < .05;对人口水平不同的配对比较进行显著的单尾Bonferroni校正的事后t检验),我们看到需要以下被试数量。

新的水平类似于其他水平之一:75名被试;
介于其他两个水平之间的新水平:290名被试。

我们模拟数据的第二种方法是假设r = .90的相关性,并调整dav,使dz保持在0.4.我们通过重新编码来实现。



所需的被试人数应该与r = .5的模拟大致相同,因为它们确实如此。

水平类似于其他水平之一:75名被试;
介于其他两个水平之间的新水平:300名被试。

对于贝叶斯分析(在综合方差分析和相关的事后检验中BF > 10,非显著性对偶比较的BF < 3),这些是我们需要的被试数量如下。

重复测量变量:r = .50 

与其他水平之一相似的新水平120名被试; 
介于其他两个水平之间的新水平540名被试。

重复测量变量:r = .90

与其他水平之一类似的新水平125名被试;
介于其他两个水平之间的新水平540名被试。

5. 双因素重复测量方差分析

首先是我们要控制一个可能的额外变量。在这种情况下,我们主要对目标变量的主效应感兴趣,所以,我们假设变量A的d = .4,变量B的d = .0,A与B没有交互作用。

重复测量变量A(d z = .4)和B(d z = .0)无交互作用。

F检验(P < .05):27名被试。
贝叶斯检验(BF >= 10):52名被试。

所需被试的数量大约是配对样本t检验的一半。这是因为A的效应在B的两个水平上都能观察到,而且我们对每个被试的观察次数是其两倍(四个而不是两个)。

其次,我们希望在设计中包含两个变量,并且我们对变量之间的交互作用感兴趣。



在2x2设计中,具有最小规模的效应(变量A,变量B,A与B的交互作用)无法解释。作为一个经验法则,当线在某一点上相互接触或交叉时,交互作用不会小于两个主效应。

这些都是80%的效应与实验的被试数量有关。

F检验(综合检验中的交互作用p<.05;变量B的事后t检验,变量A的差异p< .10/2[单尾,Bonferroni校正];变量B的事后单尾t检验,变量A无差异p< .10/2):105名参与者 

贝叶斯检验(交互作用BF > 10,BFs事后检验 > 10):200名被试。

6. 一个重复测量变量和一个组间变量的方差分析

在第一种情况下,组间变量预计不会产生主效应,也不会与重复测量变量相互作用。它只是增加了设计的复杂性。对于这种情况,以下是重复测量变量的主效应达到80%幂的数字,等于d = .4。

F检验(P < .05):两组各27名被试;
贝叶斯分析(BF>10):两组,每组50名被试。

在第二种情况下,拉丁方与重复测量变量的主效应相互作用。

F检验(P < .05):两组各27名被试;
贝叶斯分析(BF>10):两组,每组50名被试。

两组效果相反,交叉互动(d = +.4和d = -.4)。

F检验(P < .05): 唯一的交互作用显著:两组各27名被试。
交互作用加两次事后检验显著:两组名被试。

贝叶斯分析(BF > 10): 只有交互作用显著:两组各50名被试。
交互作用加两次事后检验显著:两组各125名被试。

如果我们只看交互作用的显著性,那么两组各27被试就足以进行F检验。要想有完整的模式,我们需要两组67个被试进行F检验,两组125名被试进行贝叶斯分析。

所以,在所需被试数量方面,被试内设计并不比被试间设计更有说服力。但它确实提供了更多的信息,因为它增加了组间变量可能的主效应,以及重复测量效应的组依赖性的信息。



1. 对于很多研究问题,少于100人的研究都是不足以说明问题的

综上可见,在每个主体间组的样本低于N = 100名被试的情况下,很少有研究能够说明问题。唯一的例外是用重复测量分析一个变量两个水平的主效应(p< .05)。

如今,更大的样本量比以前更容易运行的,越来越多的研究可以通过互联网进行。

2. 对于研究,我们需要新奖励制度

被试量不足的研究之所以不断发表,主要原因是目前的奖励制度有利于此类研究。

未来,我们希望更多效应量达到d = .4的研究进行发表。

3. 关于p<.05和BF>10的不同数据分析结果

贝叶斯分析的倡导者选择了一个更严格的标准来接受 "重要 "的结果,这减少了不可复制的假阳性被公布的机会。因此实验需要更多的被试数量。

4. 通过对每个被试在每个条件下的多次测量来增加实验的科学性

效应量分析中经常被忽视的一个问题是,误差可以通过增加每个被试的测量值来减少。

这对重复测量设计特别有效,因为这种设计的效应量除了取决于平均数的差异外,还取决于条件之间的相关性(即d z和d av的区别)。当相关性为r = .8时,d z ≈ 1.5 * d av ;当r = .9时,d z ≈ 2 * d av 。

5. 作为审稿人和编辑,认真对待效应量

根据贝叶斯零假设显著性检验的效应量要求,审稿人和编辑应注重实验的被试量和效应量问题。


参考文献:

Brysbaert, M.. (preprint). Number of participants required for common designs in psychology: A power analysis. http://doi.org/10.31234/osf.io/2v4yx

神经语用学推文:https://mp.weixin.qq.com/s/n6F57G-BrenQXwwpb1RwQA


PS:后台回复关键词“实验被试”即可获得所述论文的原文啦!



排版:思妤 球球
编辑:shirly
校对:喵君姐姐  shirly


往期推荐


往期推荐



573招募线下被试 | 心理咨询的脑机制研究

572招募线上被试 | 互联网+背景下数学师范生pck能力现状调查研究

571招募线上被试 | 关于大学生父母教养方式、人际交往等情况的调查

570招募线上被试 |社交网站中的自我呈现与自尊的关系





【声明】内容源于网络
0
0
壹脑云测评圈
被试招募平台,有趣心理游戏和心理测试等你来玩。有偿被试招募,方便主试发布,我们是最纯粹的实验被试招募平台~
内容 888
粉丝 0
壹脑云测评圈 被试招募平台,有趣心理游戏和心理测试等你来玩。有偿被试招募,方便主试发布,我们是最纯粹的实验被试招募平台~
总阅读661
粉丝0
内容888