AI工具如何辅助检查研究论文中的错误?误报率如何?
去年年底,全球媒体纷纷报道称,黑色塑料厨具中可能含有与癌症相关的阻燃剂,且其含量远超安全标准。然而,这一风险后来被证明是被夸大了——原始研究中的一个数学错误导致关键化学物质的含量被误报为超出安全限值,而实际上其含量比限值低10倍。眼尖的研究者很快指出,人工智能(AI)模型可以在几秒钟内发现这一错误。
这一事件催生了两个利用AI检测科学文献错误的项目。“Black Spatula Project”是一个开源AI工具,目前已分析了约500篇论文中的错误。该项目由约8名活跃开发者和数百名志愿者顾问组成,AI研究员Joaquin Gulloso表示,他们尚未公开这些错误,而是直接联系受影响的作者。Gulloso说:“它已经发现了许多错误。这是一个庞大的列表,简直令人难以置信。”
另一个项目名为“YesNoError”,其创始人兼AI企业家Matt Schlicht表示,该项目受到了“Black Spatula Project”的启发,并设定了更高的目标。他们的AI工具在2个月内分析了超37,000篇论文。该项目的网站会标记出存在问题的论文,尽管许多错误尚未经过人工验证,但Schlicht表示,YesNoError计划最终大规模实现人工验证。
这两个项目都希望研究者在提交论文前使用他们的工具,期刊在发表前也能利用这些工具,以避免错误甚至造假。
这些项目得到了研究诚信领域的学术侦探们的初步支持,但也引发了一些担忧。荷兰一研究者表示,必须明确这些工具发现错误的能力及其声明的准确性。“如果你开始指责他人,结果却发现并没有错误,可能会造成声誉损害,”她说。
其他人则认为,尽管存在风险,但这些项目的目标是正确的。瑞典林奈大学的一位研究者、同时也是Black Spatula Project”的顾问James Heathers指出,发表低质量论文比撤稿容易得多。Heathers建议,可首先使用AI筛选需进一步审查的论文。
AI如何检测论文错误?
许多研究者致力于发现论文中的诚信问题,而现有的工具只能检查论文的某些方面。倡导者希望AI能够一次性完成更广泛的检查,并处理更大规模的论文。
“Black Spatula Project”和“YesNoError”都使用大型语言模型(LLMs)来检测论文中的各种错误,包括事实错误、计算错误、方法错误和引用错误。这些系统首先从论文中提取信息,包括表格和图像,然后生成一组复杂的指令(即“提示词”),告诉“推理”模型(一种专门的LLM)它正在分析什么内容以及需要寻找哪些类型的错误。模型可能会多次分析一篇论文,每次扫描不同类型的错误,或交叉检查结果。每篇论文的分析成本在15美分到几美元之间,具体取决于论文的长度和使用的提示序列。
AI纠错的主要挑战:误报率
误报率(即AI错误地声称论文存在错误的情况)是这些项目面临的主要障碍。目前“Black Spatula Project”系统的误报率约为10%。该项目的创始人、软件工程师兼企业家Steve Newman指出,每个被指控的错误都必须由该领域的专家进行核实,而找到这些专家是项目最大的瓶颈。
YesNoError团队目前仅量化了在首批10,000篇论文中发现的约100个数学错误的误报率。Schlicht表示,在回应他的作者中,90%的人同意AI检测到的错误是有效的。YesNoError计划与ResearchHub合作,后者是一个以加密货币向博士研究者支付费用以进行同行评审的平台。当AI检查完一篇论文后,YesNoError将触发验证结果的请求,尽管这一功能尚未启动。
误报的争议与改进
林奈大学的科学诚信研究者Nick Brown指出,YesNoError网站上存在许多误报。在标记为存在问题的40篇论文中,他发现了14个误报(例如,模型声称文本中提到的图表未出现在论文中,但实际上存在)。他表示:“他们发现的大多数问题似乎是写作问题,而且很多检测结果是错误的。”
Brown担心,这些努力可能会给科学界带来大量需要清理的工作,同时也会引发对诸如拼写错误等小问题的过度关注,而这些错误本应在同行评审中被发现(这两个项目主要分析预印本库中的论文)。除非技术大幅改进,否则“这将产生大量工作,却没有明显的好处。”
Schilicht表示,YesNoError正在努力尽可能减少误报。“识别研究论文中的小错误可能看起来微不足道,但正如我们在最近关于黑色厨具毒性的论文中看到的那样,即使多一个0也可能对世界产生巨大影响。”YesNoError已经在与学者们协商,Schlicht欢迎进一步反馈。
本文整理自:https://www.nature.com/articles/d41586-025-00648-5
医咖会员全面升级,课程增多,AI工具升级!点击链接:会员-医咖社区 (mediecogroup.com),立享会员优惠!