

Science怒批公共数据库滥用！中国学者系最大推手？

数据皮皮侠

2025-06-20

顶级科学杂志Science刊登重磅报道，直指当前学术界一个令人担忧的现象：大量质量低劣的论文，正在借助公共数据集和人工智能（AI）工具疯狂涌入学术期刊。

英国萨里大学的统计学家Matt Spick在担任Scientific Reports副主编期间，敏锐地察觉到同行评审的论文异常相似。这些论文都基于一个公开的美国数据集：美国国家健康与营养检查调查（NHANES）。该调查通过健康体检、血液检测和访谈，收集了超过13万人的饮食信息和其他健康相关指标。“I was getting so many nearly identical papers—one a day, sometimes even two a day”Spick说道。

Spick在PLOS Biology杂志上发表报告称，近年来，使用NHANES的低质量论文数量急剧增加，这可能是由被称为“论文工厂”的非法牟利企业所为，并借助人工智能（AI）生成的文本而促成的。Spick表示，其他大型健康数据集（例如The Global Burden of Disease study）也可能存在漏洞。这些公共数据集让研究人员能够轻松地使用Python或R等编程语言与其信息进行交互，以操纵所有数据。

西北大学的元科学家Reese Richardson表示，这些免费数据源几乎允许任何人采用已知的研究方法，筛选特定年份或特定年龄段的受访数据，进行变量组合，并寻找具有统计学显著性的结果，批量发表论文！他表示，其他研究人员在一系列主题中也发现了类似的“爆炸式增长”，包括各种遗传学研究，以及不同科学学科的文献计量学或性别差异分析。Richardson发现使用NHANES数据集的论文从2023年的4926篇增加到2024年的7876篇，许多疑似与“论文工厂”有关。

Spick和他的团队搜索了PubMed 和 Scopus这两个科学论文数据库，发现近期的NHANES论文大多由中国研究人员撰写：2021年后发表的论文中，92%的第一作者隶属于中国机构，而2021 年之前发表的论文中只有8%的第一作者隶属于中国机构。Spik 表示，这也表明存在论文工厂的参与，中国研究人员面临的压力和激励机制推动了“论文工厂”的使用。

Springer Nature旗下拥有Scientific Reports、BMC Public Health和BMJ Open以及许多其他发表NHANES论文的期刊，其科研诚信主管Tim Kersjes 表示，该出版商已经撤回了多篇 NHANES 论文，调查仍在进行中！

参考文献
[1]O'Grady, Cathleen. "Low-quality papers surge thanks to public data and AI." Science 388.6749 (2025): 807-808.

[2]Suchak, Tulsi, et al. "Explosion of formulaic research articles, including inappropriate study designs and false discoveries, based on the NHANES US national health database." PLoS biology 23.5 (2025): e3003152.

【声明】内容源于网络

数据皮皮侠

社科数据综合服务中心，立志服务百千万社科学者

内容 2137

粉丝 0

数据皮皮侠社科数据综合服务中心，立志服务百千万社科学者

总阅读615

粉丝0

内容2.1k