大数跨境

Nature 新闻特稿 | AI 会毁掉社会科学,还是让它发生革命?

Nature 新闻特稿 | AI 会毁掉社会科学,还是让它发生革命? 智能管理AI4MGMT
2026-06-09
0
导读:这项技术可能制造虚假发现并污染调查回答,但也可能让研究更加严谨。
这项技术可能制造虚假发现并污染调查回答,但也可能让研究更加严谨。
风格化插图:重叠气泡下方是人群剪影,彩色数据点和网络图暗示 AI 对社会科学的分析。
风格化插图:重叠气泡下方是人群剪影,彩色数据点和网络图暗示 AI 对社会科学的分析。插图:Ada Zielinska

作者:David Adam

去年,心理学家 Raluca Rilla 请志愿者完成一份调查时,在其中一个问题下收到了这样的回答:“我并不像人类那样体验困惑。”

Rilla 是柏林马克斯·普朗克人类发展研究所的一名博士生。她怀疑,这只是一个庞大而令人担忧的冰山露出水面的明显一角,这座冰山可能会让关于人类如何思考和行动的学术研究搁浅。她和同事估计,他们在这类调查中收到的回答,现在多达 45% 是从大型语言模型(LLM)的输出中复制粘贴而来的 。在某些情况下,参与者可能只是润色自己的语言;而在另一些情况下,Rilla 认为整个过程,从报名、阅读问题到提交回答,都由机器完成。这样的回答,以及建立在这些回答之上的学术研究,不太可能反映人性的真实状况。

实验心理学并不是唯一一个艰难应对 LLM 对研究影响的领域。从政治科学、经济学到民意调查,社会科学各领域的研究人员在发现人工智能的痕迹后都敲响了警钟,并开始思考其影响。

美国马萨诸塞州波士顿东北大学的政治学家和计算机科学家 David Lazer 说,即便可以限制 AI 对民调回答的输入,分析阶段仍然令人担忧:社会科学中的 AI 辅助分析,可能会通过快速炮制研究,用虚假发现淹没期刊。已有一家期刊记录到,其收到的稿件数量大幅增加,其中一些稿件全部或大部分是使用 AI 工具准备的

AI 模型使用量和能力的爆炸式增长,影响着所有学术领域的研究人员。但纽约大学政治学家 Joshua Tucker 表示,这对社会科学的冲击尤其尖锐。原因在于,与其他学科相比,许多社会科学研究高度依赖调查数据和分析。而当研究人员不是自己收集数据时,他们通常会分析大型通用数据集,例如人口普查或其他大型调查;这些数据最初往往是为其他目的收集的。这意味着,研究人员可能从数据噪声中挑出看似存在的信号,而这种做法在为检验某个假设而进行的狭窄实验所得数据中并不那么可行。后者通常只有单一用途,也有明确的有效期。

德国莱比锡大学心理学家 Björn Hommel 说:“我认为,我们正在接近一个阶段:行为科学和社会科学的可信度会被 LLM 污染这一持续威胁削弱。而眼下我们对此无能为力。”

但事情并非全是悲观。对最新 AI 系统的另一种看法是,它们可以通过让研究发现更稳健来改变社会科学。那些可用于润色语言等表层工作的算法,同样可以快速获取并分析复杂数据集;通过在不同统计技术之间切换,它们还可以检查某一具体发现对各种分析方法的敏感程度。AI 辅助审查可以帮助发现方法学错误;随着 AI 让研究人员更容易尝试更稳健的方法,社会科学期刊也可能坚持要求使用这些方法。

Tucker 说:“我们不应该掩盖 AI 的好处,它正在打开开展大量有趣研究的可能性。”

生产力悖论

最迫在眉睫的问题带有悖论色彩:这项技术可以极大提高生产力。

今年 4 月,发表组织社会科学研究的期刊 Organization Science 报告称,自 2022 年 11 月 ChatGPT 首次公开发布以来,该刊收到的投稿数量增加了 42%。编辑们使用纽约市 Pangram Labs 公司的一款 LLM 检测工具分析稿件后发现,这一增长主要由 AI 推动 。到今年 2 月,近三分之一的投稿摘要中含有大部分或全部由 AI 生成的文本;另有 40% 的投稿摘要含有部分由 AI 撰写的文本(见“社会科学期刊中 AI 使用的上升”)。

科学期刊中的 AI 写作文本正在增加。图表显示,自 ChatGPT 推出以来,Organization Science 期刊收到的投稿摘要中,含有大量 AI 写作文本的比例不断上升。
科学期刊中的 AI 写作文本正在增加。图表显示,自 ChatGPT 推出以来,Organization Science 期刊收到的投稿摘要中,含有大量 AI 写作文本的比例不断上升。

来源:参考文献 1

意大利佛罗伦萨欧洲大学研究所的政治学家兼期刊编辑 Kevin Munger 预测,今年顶级政治学期刊的投稿量将增加 50%(见 go.nature.com/4achvqc)。心理学研究预印本服务器 PsyArXiv 也收到了大量论文,以至于不得不在筛选流程的更早阶段加入人工检查,在该网站担任版主的伯尔尼大学元科学家 Jamie Cummins 说。

社会科学并不是唯一一个在这个问题上挣扎的领域。但 Tucker 和 Lazer 担心,由于该领域很大一部分依赖调查分析,它尤其容易受到 AI 快速生产脆弱研究的影响。

在接受 Nature 采访时,Lazer 演示了如何使用 LLM 快速炮制一篇看起来可信但内容单薄的研究论文。论文基于“公民健康与制度项目”50 州调查(CHIP50)收集的数据进行分析。CHIP50 是美国一项衡量公众信任和制度合法性的倡议。Lazer 说:“过去六年里,我们就许多不同主题调查了大约 100 万人。”

几个月前,他和团队询问受访者是否使用 GLP-1 受体激动剂。这类药物最初用于治疗糖尿病,如今已知也有助于减重。对结果的快速查看显示,这些药物的最大使用者未必是有糖尿病或肥胖等临床需求的人。Lazer 展示说,可以让一个 LLM 在一小时内把这一观察写成一篇 28 页的学术论文,其中包括文献综述、直接从 CHIP50 数据集中提取的表格结果,以及看起来很有说服力的图表。

这很可能确实是一个合法的发现,但在 Lazer 看来,这不是重点。他说:“我在做什么?我是不是把我的一部分小脑、我的一部分核心创造能力外包给了 AI?答案有点是,而且老实说,这在情感上令人痛苦。”

他补充说,Lazer 并没有把这样写出来的稿件提交给期刊。“我是在试图评估一个人能做什么,然后纠结于一个人应该做什么。”

调查污染

对 Rilla 和其他人来说,LLM 对调查数据日益严重的污染是一个更棘手的问题,而且更具体地影响社会科学。当调查分发在 Amazon Mechanical Turk 和 Prolific 等众包平台上时,这些平台会向志愿者支付少量报酬以换取回答,作弊就有了激励。许多社会科学家希望,在线调查仍有办法被挽救。

和其他一些科学家一样 ,Rilla 在自己的研究中引入了一系列检查,被称为“蜜罐”;这些检查可以发现 LLM 的使用,并让她的团队剔除调查答案。这些蜜罐形式各异,从调查问题源代码中极其微小的文字行,到隐藏给 AI 的指令,要求其仅用一串 X 作答;前者会进入复制粘贴的回答中。

她说,这是一场军备竞赛:随着 LLM 变得更复杂、更能隐藏踪迹,研究人员必须找到击败它们的方法。对于那些依赖人类回答的最重要研究,科学家可能不得不重新召集志愿者群体,并在他们完成调查时进行现场监督。(这类样本存在偏差且缺乏多样性,正是当初开发面向普通人群的网络调查的原因。)

面对寻找人类参与者的困难,一种应对方式是引入“硅样本”。这个术语由美国研究人员在 2022 年的一项研究中提出 ;该研究展示了,使用真实人口的社会人口统计特征训练的 LLM,包括年龄、种族、性别和政治归属,可以生成由调查受访者组成的“虚拟人口”。

同样来自伯尔尼大学的心理学家 Malte Elson 说:“你基本上是在要求它假定某些属性。‘请给我一些数据,就好像我对 1000 名瑞士人做过调查一样。’”

理论上,这些样本可能让研究人员以低成本、快速地对难以接触的人群建模,然后“询问”他们的意见。

一些调查公司如今把合成参与者作为商业服务提供,并已将其用于市场研究。Elson 和其他人担心,这种方法可能会在社会科学中被广泛采用。

Cummins 关于硅样本的研究 显示,根据你如何配置模型,例如调整“温度”等控制输出可变性的参数,你几乎可以得到任何想要的结果。他强调,研究人员未必是在有意操纵结果,但这种做法的效果会是产生五花八门的答案。

Elson 的看法更严厉。他说:“你基本上可以指挥它给出支持或否定你假设的结果。眼下,这和欺诈没有区别。”

统计把戏

Lazer 还担心研究人员使用 AI 系统去钓取他们想要的结果。任何数据集,只要用足够多的方式盘问,最终都会仅凭偶然产生一个看似显著的结果。AI 智能体,即被赋予一定自主性以执行代码并在线互动的系统,可以在几分钟内构建并测试数十种变体。当它们发现看似匹配的结果时,算法可以把数据反向工程成一个貌似合理的假设,让不诚实的研究人员声称自己一直就在研究这个假设。

实际上,这会强化一种叫作 P 值操纵的研究把戏。它指的是反复摆弄数据,直到得到一个 P 值,即用于衡量某个发现仅因偶然出现在数据中的可能性有多低的统计指标,并让它通过通常被视为结果显著的门槛。

目前尚不清楚 LLM 辅助的 P 值操纵是否正在社会科学中上升。但在健康研究中,科学家已经发出警报:公共数据集正被用来生成数千篇低质量、公式化的分析,这些分析可能由 LLM 驱动,其中包括把复杂健康状况与单一变量联系起来的可疑工作

LLM 的好处

但哈佛大学统计学家 Nic Fishman 说,研究人员也可以使用 AI 来避免 P 值操纵,转而让自己的方法严谨得多。

他特别指出,AI 系统会让研究人员更容易常规采用某些人称为多元宇宙的数据分析方法。Fishman 和其他人更愿意把这种技术称为规格曲线分析 ;它会使用每一种合理的分析选择组合同时分析数据,并展示结果的完整分布。研究人员可以看到哪些分析规格会产生显著结果、哪些不会,从而检查自己的发现对方法学上的细微调整有多稳健(见“多重世界”)。

多重世界。折线图展示规格曲线分析的结果,这是一种用于检验发现稳健性的技术。在这个例子中,一项曾认为人们对女性名字命名的飓风准备较少的研究被重新检验。研究人员使用了数千种不同分析方法,产生了不同结果。其中只有 37 种给出了统计显著效应。这表明原始发现是脆弱的。
多重世界。折线图展示规格曲线分析的结果,这是一种用于检验发现稳健性的技术。在这个例子中,一项曾认为人们对女性名字命名的飓风准备较少的研究被重新检验。研究人员使用了数千种不同分析方法,产生了不同结果。其中只有 37 种给出了统计显著效应。这表明原始发现是脆弱的。

来源:参考文献 7/Nic Fishman

Fishman 说,如果一个结果在大多数合理规格下都成立,那就比来自单一模型、并只使用少数精挑细选稳健性检验的发现更有说服力。而如果结果并不成立,那也是该领域需要知道的信息。他说,AI 让专家可以更快完成数千项稳健性检查。

他说:“我非常乐观。我认为这正是我们一直都应该做的事。”

很大程度上,这将取决于期刊编辑如何回应这项技术带来的问题与可能性。西北大学计算机科学家 Jessica Hullman 今年 2 月在一篇博客文章中写道:“现在,把任何论文转化为多元宇宙分析都轻而易举”(见 go.nature.com/4dwxvaz)。她认为,因此,审稿人对论文的审查水平,以及期刊编辑所要求的审查水平,都将发生巨大变化。

Tucker 说,过去只有资源充足的大学才有成群的研究生协助研究,而如今,许多 LLM 每月花费不到 100 美元,“任何研究人员现在都能拥有几乎无限的研究辅助能力”。这缩小了资金充足与资金不足机构之间的差距。

LLM 还可以让结果以更有影响力的方式呈现。在上个月发表的一篇论文中 ,Tucker 使用 AI 工具搭建了一个交互式网站,随着新模型出现,该网站可以实时更新(见 go.nature.com/4wutzbq)。通过这种方式,LLM 也许可以兑现这样一种承诺:静态期刊论文不再是科学产出的合适单位,取而代之的是活的数据集和交互式结果,政策制定者和公众可以直接探索它们。

Hullman 认为,随着 AI 让社会科学研究发现更容易接受压力测试并被呈现出来,人类研究者对于哪些问题值得探索、应以何种方式探索的判断只会变得更加重要。她说:“你不能用一组检查来替代谨慎的科学思考。某些发现可能在一种分析方式下确实能从数据中观察到,而在另一种分析方式下则不能。”

Fishman 还预测,社会科学家将不得不更认真地思考如何证明自己分析数据的最佳方式是合理的,而不是像过去那样,倾向于用少数几种分析方法研究数据集,然后为自己发现的东西寻找理由。他说:“我认为这是一个非常令人兴奋的时期。我们正在进入社会科学的一个新机制。”

Nature 654, 22-24 (2026)

doi: https://doi.org/10.1038/d41586-026-01726-y

参考文献

 Rilla, R., Werner, T., Yakura, H., Rahwan, I. & Nussberger, A.-M. Preprint at arXiv https://doi.org/10.48550/arXiv.2508.01390 (2025).

 Gartenberg, C., Hasan, S., Murray, A. & Pierce, L. Organ. Sci. https://doi.org/10.1287/orsc.2026.ed.v37.n3 (2026).

 Panizza, F., Kyrychenko, Y. & Roozenbeek, J. Nature650, 293–295 (2026).

 Argyle, L. P. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2209.06899 (2022).

 Cummins, J. Preprint at arXiv https://doi.org/10.48550/arXiv.2509.13397 (2025).

 Spick, M. et al. Preprint at medRxiv https://doi.org/10.1101/2025.07.07.25331008 (2025).

 Simonsohn, U., Simmons, J. P. & Nelson, L. D. Nature Hum. Behav.4, 1208–1214 (2020).

 Waight, H. et al.Nature https://doi.org/10.1038/s41586-026-10506-7 (2026).

本文由 codex gpt-5.5 medium 全文翻译

【声明】内容源于网络
0
0
智能管理AI4MGMT
吴建祖,博士,教授。探战略管理之本,思人工智能之变,虑气候变化之忧,寻绿色创新之路,悟管理认知之理。
内容 32
粉丝 0
智能管理AI4MGMT 吴建祖,博士,教授。探战略管理之本,思人工智能之变,虑气候变化之忧,寻绿色创新之路,悟管理认知之理。
总阅读126
粉丝0
内容32