Nature:生物和医学论文中,有3%可能是来自“论文工厂”的造假论文
注:本文整理自Nature官网2023年11月6日的一篇报道,原文标题为“How big is science’s fake-paper problem?”
《Nature》一项尚未正式发表的研究显示,过去二十年,有40多万篇研究论文与论文工厂产出的文章有很强的文本相似性;仅在2022年,就有7万篇这样的文章发表。该分析估计,在2022年发表的所有论文中,1.5-2%的论文像是论文工厂的文章;在生物和医学论文中,这一比例达到了3%。
图. 近20多年来疑似论文工厂文章的占比
这项研究结果来自伦敦学术数据服务公司的主管Adam Day使用机器学习软件Papermill Alarm的一项分析。论文工厂生产的论文是大批量快速生产的,通常遵循特定的模板,偶尔会更换一两个单词或图像。Day将软件设置为分析2000年以来4800多万篇论文的标题和摘要,并标记了与论文工厂文章(如已撤稿论文)相似的稿件。
一位研究者称,Day使用的文本相似性法是目前识别论文工厂文章的最好方法,可以估计这类论文的普遍程度。但一些人表示,该方法可能会无意中捕捉被论文工厂复制内容的真实论文,或者存在作者将真实数据套入模板的情况。然而,Day表示,他将软件测试结果与已知真实论文或假论文的测试样本进行了验证,可以保持错误率“趋近零”。
Day还对OpenAlex数据库中记录了学科领域的285万项研究(均发表于2022年)进行了分析,其中约2.2%被标记为疑似论文工厂生产,具体比例因学科而异,其中医学和生物学领域中,该占比达到了3%。
图. 不同学科领域中疑似论文工厂文章的占比
Bik表示,Day的估计比例“高得惊人,但并非不可能”。她也表示,如果没看到Day的分析方法和全部细节,就无法充分评估他所做的工作。
Day认为这个估计仅是一个下限,因为分析软件会遗漏那些有意不使用模板的论文工厂文章。分析显示,论文工厂的文章并没有在期刊均匀发布,而是聚集在特定的期刊。Day说,他不会公开透露哪些出版商受到的影响最严重,这样做可能产生不利后果。
出版伦理委员会2022年6月的一份报告称,对多数期刊来说,有2%的投稿可能来自论文工厂,有的甚至超过40%。该报告以六家出版商提供的私人数据为基础,未说明估算方法。
如何发现那些来自论文工厂的文章?
过去几年中,出版商加大了对论文工厂的打击力度。Bik和Byrne等科学侦探总结了许多提示为论文工厂文章的危险信号,目前已有70多种。
遵循通用模板的文本只是其中一个信号。其他还包括:可疑的电子邮箱地址;来自不同实验的相同图表;试图避免剽窃检测的明显措辞;引用其他已知为论文工厂的研究;多个期刊重复投稿。
2023年5月,德国一位神经心理学家Bernhard Sabel发布了一篇预印本,建议任何来自医院但提供了非机构电子邮件地址的论文,都应被标记为疑似论文工厂的产物。Sabel估计,2020年医学和神经科学领域的论文中,有20-30%可能是论文工厂的产品,但在10月份的修订版预印本文章中,这一比例降至11%。他也承认,他采用的方法会产生一些误判,许多研究者也对此提出了批评。
不管论文工厂问题的严重程度如何,显然已使出版商系统不堪重负。在“撤稿观察网”总计44000项撤稿记录中,有近3000项撤稿与论文工厂有关。该网站的联合创始人表示,这一数据都是被低估了的,因为工作人员仍在录入数千项撤稿,同时,一些出版商在撤稿通知中也会避免使用“论文工厂“一词。
文章整理自:https://www.nature.com/articles/d41586-023-03464-x
-----------分割线---------
邀您参与医咖社区本期话题讨论:你是如何面对阴性结果的?
点击链接:https://new.mediecogroup.com/group/posts/gp_5CC0xHGE/,参与讨论,看看其他同行怎么说