做实验到底应该选取多少被试？- 大数跨境

首页

做实验到底应该选取多少被试？

壹脑云测评圈

2023-05-04

导读：心理学研究应该选取多少被试？

Hello，

这里是壹脑云测评圈，我是喵君姐姐~

今天我们介绍2018年发布在PsyArXiv的预印本文章“Number of participants required for common designs in psychology: A power analysis”。

考虑到心理实验中常见的效应量要求为d =.4，在实验被试量能够达到50人左右最好。对于大多数研究设计和实验分析，一般都需要100、200甚至更多的被试量。

接下来我们将讨论如何确定“我的实验必须要有多少个被试？”

PS：后台回复关键词“实验被试”即可获得所述论文的原文啦！

1. 心理学研究者害怕被试过多的研究

由于一些心理学研究者受到的教育，他们会认为研究中过多的被试是一种浪费。但现实中我们可能低估了一个研究所需要的数据量。

一般情况下，当研究者在数据分析中获得一些效应的显著性，他们可能就会停止收数据，即使这些效应可能无法进行预测，之后这个实验也无法被复制。

目前研究者可能高估了数据分析中的效应量大小，低估了实验中所需要的被试量。

2. 以往研究中的误区

第一个误区是：如果以完全相同的方式再次进行研究，我们认为p < .05时显著的效果有95%的概率实验能被复制。但这是不正确的，研究成功复制的概率只有50%。

第二个误区是：效应量只对0.05左右的p值有影响。效应量告诉了我们实验结果对我们不利的几率，以致于我们无法发现显著性。然而，实际上效应量对整个p值范围都有影响。

3. 有效的研究往往需要更多被试量

我们通过比较两项假设性研究来说明这一点，每项研究都有一个重复测量的变量，有两个水平。在第一项研究中，在被试水平上没有效应（d = 0）。在第二项研究中，在被试水平上有d = .4的效应。

以下是每项研究的三种不同被试量的情况。(一) 10名参与者；(二) 30名参与者；(三) 100名参与者。

4. 研究公布的效应量很可能被高估了

第一个问题是：发表文章中所引用的研究并不是都能找到所对应的文献。

第二个问题是：研究者的主要动机是如何降低几乎显著结果的p值，这可能使实验带有偏向性。

1. 简单的数据分析：t检验和相关

d = .2为小效应规模，d = .4为中等效应规模，d = .8为大效应规模。根据这个分类，我们可以用d = .5作为最有可能的效应大小，并根据这个大小计算所需的被试人数。

以下是p < .05、双尾的检验所需的被试量。它们可以很容易地根据软件包（如G. Power）计算出来。

关于G. Power可以查看“G.Power教程 | 样本量估计”。

独立测量t检验：两组，每组100名被试；

重复测量t检验：一组52名被试；

有人提出用贝叶斯分析来替代传统的统计。当贝叶斯系数在10以上，被认为是替代假设的有力证据；贝叶斯系数在0.10以下，被认为是零假设的有力证据。

目前还没有贝叶斯分析的效应量计算器，但我们可以通过模拟来估计现有算法的效应。

组间贝叶斯分析：两组，每组190名被试；

贝叶斯分析重复测量：一组100名参被试；

贝叶斯分析相关性：370个数据对。

2. 三个组间水平的单因素方差分析

当一个分类变量有三个水平时，不同水平之间存在不同的差异。例如，当两个条件之间存在已知的差异时，就会对第三个条件进行检查，该条件预期会产生符合其中一个条件的结果，或介于两者之间的结果。

假设研究者现在想知道，在多大程度上，非关联的、语义相关的词启动了目标词（例如，mum-boy ）。

那么在一个实验中呈现这三种水平的目标词是有意义的；(a)确保对目标词有一个启动效应；(b)检查新的目标词相对于相关词的启动效应有多大。

我们假设两个极端水平之间的标准化效应大小为d = .4。

有两种情况值得关注：(1)新水平与现有水平相似，并且与其他水平的效果大小为d = .4；

(2)新的水平是介于其他两个水平之间（即与每个条件相差d = .2）。

为了说明人们是如何误解效应量要求的，我们可以看看G. Power推荐的方差分析F检验（主效应、交互、单因素）。

对于这样的检验，G. Power需要用f-coefficient表示效果大小。f系数大致是比较有名的（部分）eta平方值的平方根，对于组间的成对比较来说，f = d/2.当我们选择效应大小f = .2（等于d = .4），α = .05。

关于G. Power可以查看“G.Power教程 | 样本量估计”。

如果我们用这些数字进行模拟，我们发现总括方差分析有75%的时间是显著的，但只有49%的样本存在完整的模式。之所以总括检验有80%的时间不显著，是因为引入第三个条件稍微降低了f值。

我们还可以对有三个独立组的设计进行贝叶斯分析。

新水平与其他水平之一相似：三组，每组230名被试；

新水平介于其他两个条件之间：三组，每组950名被试。

3. 三水平的单因素重复测量方差分析

在相关样本的t检验中，效果大小d是基于差异分数的，你可以简单地用差异分数的平均值除以它们的标准差来计算：d = 17/17.7= 0.96。

我们大多数人可能会使用部分eta平方（η² p）作为效应大小的初始估计，因为这是大多数软件包给出的。如果我们对表2的数据进行方差分析，我们得到F(1,9) = 9.24，p = 0.014，η² p = 0.507。

在根据η² p估计d时，我们可能会出错的一种方法是，我们使用了经常被引用的从η² p到d的转换公式：

但是，这个公式只适用于组间。对于重复测量，正确的方程是：

这个方程之所以是近似的，是因为d是在N上计算的，而η² p是在df上计算的。如果我们在df上计算d。

N越大，方程的近似值越大。

在重复测量设计中，我们在计算d时可能会误入歧途，这是因为d可以有两种定义。首先，它可以像我们刚才在差异分数的基础上所做的定义；然而，d也可以定义为均值的差异除以均值标准差。

那么就相当于d ≈ 17/[(52.2+57.2)/2]= 0.31（而不是d=0.96）。

4. 其他相似的实验设计

我们可以用两种方法来模拟设计。首先我们让重复测量之间的相关性等于r=.50。然后我们知道，d z = d av 。

在这种情况下（r = .50；dav = .4；在混合分析中p < .05；对人口水平不同的配对比较进行显著的单尾Bonferroni校正的事后t检验），我们看到需要以下被试数量。

新的水平类似于其他水平之一：75名被试；

介于其他两个水平之间的新水平：290名被试。

我们模拟数据的第二种方法是假设r = .90的相关性，并调整dav，使dz保持在0.4.我们通过重新编码来实现。

所需的被试人数应该与r = .5的模拟大致相同，因为它们确实如此。

新水平类似于其他水平之一：75名被试；

介于其他两个水平之间的新水平：300名被试。

对于贝叶斯分析（在综合方差分析和相关的事后检验中BF > 10，非显著性对偶比较的BF < 3），这些是我们需要的被试数量如下。

重复测量变量：r = .50

与其他水平之一相似的新水平：120名被试；

介于其他两个水平之间的新水平：540名被试。

重复测量变量：r = .90

与其他水平之一类似的新水平：125名被试；

介于其他两个水平之间的新水平：540名被试。

5. 双因素重复测量方差分析

首先是我们要控制一个可能的额外变量。在这种情况下，我们主要对目标变量的主效应感兴趣，所以，我们假设变量A的d = .4，变量B的d = .0，A与B没有交互作用。

重复测量变量A（d z = .4）和B（d z = .0）无交互作用。

F检验(P < .05)：27名被试。

贝叶斯检验(BF >= 10)：52名被试。

所需被试的数量大约是配对样本t检验的一半。这是因为A的效应在B的两个水平上都能观察到，而且我们对每个被试的观察次数是其两倍（四个而不是两个）。

其次，我们希望在设计中包含两个变量，并且我们对变量之间的交互作用感兴趣。

在2x2设计中，具有最小规模的效应（变量A，变量B，A与B的交互作用）无法解释。作为一个经验法则，当线在某一点上相互接触或交叉时，交互作用不会小于两个主效应。

这些都是80%的效应与实验的被试数量有关。

F检验（综合检验中的交互作用p＜.05；变量B的事后t检验，变量A的差异p＜ .10/2[单尾，Bonferroni校正]；变量B的事后单尾t检验，变量A无差异p＜ .10/2)：105名参与者

贝叶斯检验(交互作用BF > 10，BFs事后检验 > 10)：200名被试。

6. 一个重复测量变量和一个组间变量的方差分析

在第一种情况下，组间变量预计不会产生主效应，也不会与重复测量变量相互作用。它只是增加了设计的复杂性。对于这种情况，以下是重复测量变量的主效应达到80%幂的数字，等于d = .4。

F检验（P < .05）：两组各27名被试；

贝叶斯分析（BF>10）：两组，每组50名被试。

在第二种情况下，拉丁方与重复测量变量的主效应相互作用。

F检验(P < .05)：两组各27名被试；

贝叶斯分析（BF>10）：两组，每组50名被试。

两组效果相反，交叉互动（d = +.4和d = -.4）。

F检验（P < .05）：唯一的交互作用显著：两组各27名被试。

交互作用加两次事后检验显著：两组名被试。

贝叶斯分析(BF > 10）：只有交互作用显著：两组各50名被试。

交互作用加两次事后检验显著：两组各125名被试。

如果我们只看交互作用的显著性，那么两组各27被试就足以进行F检验。要想有完整的模式，我们需要两组67个被试进行F检验，两组125名被试进行贝叶斯分析。

所以，在所需被试数量方面，被试内设计并不比被试间设计更有说服力。但它确实提供了更多的信息，因为它增加了组间变量可能的主效应，以及重复测量效应的组依赖性的信息。

1. 对于很多研究问题，少于100人的研究都是不足以说明问题的

综上可见，在每个主体间组的样本低于N = 100名被试的情况下，很少有研究能够说明问题。唯一的例外是用重复测量分析一个变量两个水平的主效应（p＜ .05）。

如今，更大的样本量比以前更容易运行的，越来越多的研究可以通过互联网进行。

2. 对于研究，我们需要新奖励制度

被试量不足的研究之所以不断发表，主要原因是目前的奖励制度有利于此类研究。

未来，我们希望更多效应量达到d = .4的研究进行发表。

3. 关于p＜.05和BF＞10的不同数据分析结果

贝叶斯分析的倡导者选择了一个更严格的标准来接受 "重要 "的结果，这减少了不可复制的假阳性被公布的机会。因此实验需要更多的被试数量。

4. 通过对每个被试在每个条件下的多次测量来增加实验的科学性

效应量分析中经常被忽视的一个问题是，误差可以通过增加每个被试的测量值来减少。

这对重复测量设计特别有效，因为这种设计的效应量除了取决于平均数的差异外，还取决于条件之间的相关性（即d z和d av的区别）。当相关性为r = .8时，d z ≈ 1.5 * d av ；当r = .9时，d z ≈ 2 * d av 。

5. 作为审稿人和编辑，认真对待效应量

根据贝叶斯零假设显著性检验的效应量要求，审稿人和编辑应注重实验的被试量和效应量问题。

参考文献：

Brysbaert, M.. (preprint). Number of participants required for common designs in psychology: A power analysis. http://doi.org/10.31234/osf.io/2v4yx

神经语用学推文：https://mp.weixin.qq.com/s/n6F57G-BrenQXwwpb1RwQA

PS：后台回复关键词“实验被试”即可获得所述论文的原文啦！

排版：思妤球球

编辑：shirly

校对：喵君姐姐 shirly

往期推荐

往期推荐

573招募线下被试 | 心理咨询的脑机制研究

572招募线上被试 | 互联网＋背景下数学师范生pck能力现状调查研究

571招募线上被试 | 关于大学生父母教养方式、人际交往等情况的调查

570招募线上被试 |社交网站中的自我呈现与自尊的关系

【声明】内容源于网络

壹脑云测评圈

被试招募平台，有趣心理游戏和心理测试等你来玩。有偿被试招募，方便主试发布，我们是最纯粹的实验被试招募平台~

内容 888

粉丝 0

壹脑云测评圈被试招募平台，有趣心理游戏和心理测试等你来玩。有偿被试招募，方便主试发布，我们是最纯粹的实验被试招募平台~

总阅读661

粉丝0

内容888