顶级科学杂志Science刊登重磅报道,直指当前学术界一个令人担忧的现象:大量质量低劣的论文,正在借助公共数据集和人工智能(AI)工具疯狂涌入学术期刊。
英国萨里大学的统计学家Matt Spick在担任Scientific Reports副主编期间,敏锐地察觉到同行评审的论文异常相似。这些论文都基于一个公开的美国数据集:美国国家健康与营养检查调查(NHANES)。该调查通过健康体检、血液检测和访谈,收集了超过13万人的饮食信息和其他健康相关指标。“I was getting so many nearly identical papers—one a day, sometimes even two a day”Spick说道。
西北大学的元科学家Reese Richardson表示,这些免费数据源几乎允许任何人采用已知的研究方法,筛选特定年份或特定年龄段的受访数据,进行变量组合,并寻找具有统计学显著性的结果,批量发表论文!他表示,其他研究人员在一系列主题中也发现了类似的“爆炸式增长”,包括各种遗传学研究,以及不同科学学科的文献计量学或性别差异分析。Richardson发现使用NHANES数据集的论文从2023年的4926篇增加到2024年的7876篇,许多疑似与“论文工厂”有关。
Spick和他的团队搜索了PubMed 和 Scopus这两个科学论文数据库,发现近期的NHANES论文大多由中国研究人员撰写:2021年后发表的论文中,92%的第一作者隶属于中国机构,而2021 年之前发表的论文中只有8%的第一作者隶属于中国机构。Spik 表示,这也表明存在论文工厂的参与,中国研究人员面临的压力和激励机制推动了“论文工厂”的使用。
Springer Nature旗下拥有Scientific Reports、BMC Public Health和BMJ Open以及许多其他发表NHANES论文的期刊,其科研诚信主管Tim Kersjes 表示,该出版商已经撤回了多篇 NHANES 论文,调查仍在进行中!
[1]O'Grady, Cathleen. "Low-quality papers surge thanks to public data and AI." Science 388.6749 (2025): 807-808.


