除了文本润色，未来AI将从哪些方面改变同行评审？

5天前来源：Nature

2024年2月，加拿大蒙特利尔大学生态学家Timothée Poisot在查阅投稿的审稿意见时，发现其中一份报告疑似由AI生成。这份报告中出现了"Here is a revised version of your review with improved clarity and structure [这是经改进的审稿意见修订版]"这样的标志性语句，明显带有大语言模型（LLM）的写作特征。

涉事期刊明确禁止在同行评审中使用人工智能（AI）工具，Poisot选择保护期刊隐私，但他在博客中严正指出："投稿是为了获得同行的专业见解，如果这个前提不复存在，整个学术评审制度将失去意义。"

AI作为审稿人

在ChatGPT和其他基于LLM的AI工具出现之前，出版商就已经使用了各种AI应用程序来简化同行评审过程，包括检查统计数据、总结研究结果以及简化审稿人选择等任务。然而，LLM的出现改变了游戏规则，它们能够模仿流畅的人类写作。

国际知名出版商Wiley对5,000名研究者的调查显示，19%的研究者承认使用AI工具辅助审稿[1]；而对2023-2024年AI会议论文评审的分析发现，7%-17%的审稿意见存在明显的AI修改痕迹[2]。

相关阅读：ChatGPT能给出有价值的同行评审意见吗？

许多资助机构和出版商目前禁止审稿人在审阅基金申请书或论文时使用AI，理由是担心如果审稿人将材料上传到聊天机器人网站，可能会泄露机密信息。

LLM可以改善一些审稿人的写作风格。然而，LLM的输出几乎总是包含错误，因为这些工具的工作原理是根据训练数据和输入内容，生成在统计学上看来可能的文本。研究人员正在想办法降低错误率。

一项研究为300多名美国计算生物学家和AI研究人员提供了对他们自己论文的审稿意见，其中一些评论由审稿人撰写，另一些则由GPT-4撰写。约40%的受访者表示，AI要么比人类的评审更有帮助，要么同样有帮助；另有42%的受访者认为，AI比许多人的帮助要小，但比某些人的帮助要大。

图. 比较AI与人类审稿人的审稿质量

超越润色：AI在学术评审中的进阶应用

去年12月，在伦敦举行的出版创新展会上，众多AI开发者展示了超越文本润色的评审增强工具。荷兰World Brain Scholar公司推出了一个名为Eliza的工具，能够优化审稿意见、推荐相关文献，并将用其他语言撰写的审稿意见翻译成英文。公司创始人Zeger Karssen强调："这个工具并非要取代审稿人，而是帮助分析审稿人写下的内容。"

类似的工具还有Review Assistant，由跨国出版服务公司Enago与Charlesworth联合开发，起初，该工具使用LLM系统回答有关稿件的结构化查询，然后审稿人可以对其进行检查或验证。但在与出版商沟通后，开发人员增加了“人工优先”模式，即审稿人先回答问题，然后由AI工具检查他们的答案。

英国初创公司Grounded AI开发的Veracity系统另辟蹊径，专注于解放审稿人最耗时的核查工作。联合创始人表示："它能验证文献引用是否存在，并分析引用内容是否支持作者观点，就像一位拥有无限时间的严谨事实核查员。"

更多基于大语言模型的辅助工具正在涌现，从图像重复检测到统计检查程序。但研究者提醒，这些工具可能存在误报风险。

目前进入出版商测试阶段的Alchemist Review声称能在保护稿件机密性的前提下，总结核心发现、评估研究新颖性并验证参考文献。该工具正在两种期刊中进行测试。

2024年12月，针对顶级医学期刊的一项研究发现，各大出版商态度分化：Elisver完全禁止生成式AI参与评审，而Wliey和Spring Nature允许"有限制地使用"。值得注意的是，78种顶级医学期刊中，59%明确禁止AI审稿，其余允许使用的期刊也设置了不同限制条件[3]。

AI主导评审：颠覆还是灾难？

在同行评审领域，最激进的AI应用当属直接生成完整审稿意见。其中一个例子是Paper-Wizard，它能在论文上传时生成完整的多页审稿意见，并检查统计严谨性等方法论细节。有研究者强调这属于"预评审"工具，旨在帮助作者完善研究。

对于AI系统能否可靠地生成有用的审稿意见，许多研究者持不同的观点。加拿大蒙特利尔大学的Poisot教授直言："大语言模型根本不具备评审所需的批判性思维，只会用冗长的文字表达肤浅的观点。"追踪AI与评审发展的学术传播顾问Chris Leonard则预测，虽然现有系统还无法可靠评估科研原创性，但结合参考文献核查和统计程序的AI未来将极具潜力。Leonard断言："两年内，AI自动评审质量将超越大多数审稿人，且速度更快。"。

许多研究者对此持消极态度。西班牙塞维利亚大学的学术诚信专家Oviedo-García表示："让AI撰写完整评审令人不安，这等于让机器而非同行与你对话。"她发现数百份评审存在模板化表述，尽管不确定是否源自AI [4]。西北大学的研究伦理学家Mohammad Hosseini则担忧，当AI既写论文又审稿，科学界将陷入循环，人类只在名义上参与。

折中方案认为AI评审可作为人工评审的前置环节。《JAMA》前主编Howard Bauchner在去年发表的一篇论文中写道："我们设想的未来是，AI将初筛所有投稿，提供质量评估摘要供编辑参考，再决定是否启动同行评审。"[5] 他测试过多款AI评审工具，认为Paper-Wizard在发现统计和方法学问题方面表现突出。

Hosseini承认AI评审能提供额外反馈，但坚称无法取代人类评审。令人不安的事实是，反对者可能无法阻止AI逐步渗透到同行评审过程中——若研究者偷偷用AI撰写初稿评审意见，期刊很难察觉。

Hosseini呼吁，即便接受学术界开始接受AI参与到同行评审过程中，也必须制定严格的透明度标准："必须公开AI系统的所有使用细节，包括提示词、调用时间等完整信息。"

本文整理自：https://www.nature.com/articles/d41586-025-00894-7

参考文献：

1. Liang, W. et al. Proc. 41st Int. Conf. Mach. Learn. 235, 29575–29620 (2024).

2. Liang, W. et al. N. Engl. J. Med. AI https://doi.org/10.1056/AIoa2400196 (2024).

3. JAMA Netw Open. 2024;7(12):e2448609.

4. Oviedo-García, M. Á. Scientometrics 129, 5805–5813 (2024).

5. Health Aff Sch. 2024;2(5):qxae058.

医咖会员全面升级，课程增多，AI工具升级！点击链接：会员-医咖社区 (mediecogroup.com)，立享会员优惠！‍

请先登录后再发表评论

发表评论