研究显示：大型语言模型（LLM）在回答医学问题方面表现不及临床医生

2023-08-18 来源：JAMA

当你在Google中输入“冠状动脉疾病是由什么引起”时，搜索引擎会提供几种答案：动脉粥样硬化、吸烟和炎症等。

大型语言模型（LLM），如OpenAI 的ChatGPT或Google的PaLM，通过数十亿条信息训练的模型，来预测并给出答案。

因此，LLM有可能承担医学领域的任务，例如通过起草答复或回答患者的问题来简化行政工作。然而，将它们的功能集成到临床工作流程中仍然是一个挑战。最近发表在《Nature》上的一篇文章指出，尽管Google的医学专用LLM（Med-PaLM）为医学问题提供了高度准确的答案，但没有达到临床医生的回复水平。在这些模型应用于临床之前，必须克服许多限制，例如有关患者隐私和安全的问题。

链接：https://www.nature.com/articles/s41586-023-06291-2

尽管存在这些关键问题，但该领域正在迅速发展。加州大学一位教授Atul Butte在一次采访中说，在这篇《Nature》文章的94篇参考文献中，半数以上是预印本，侧面证实了该领域发展的迅速。在今年5月，也就是这篇文章发表的前几个月，另一篇发布于arXiv的预印本报告，Med-PaLM 2（Med-PaLM的升级版本）在美国医疗执照考试（USMLE）中的表现，相比Med-PaLM 提升了19%以上。

Med-PaLM表现更接近临床医生

《Nature》的这篇文章引入一组称为MultiMedQA的题目，来评估LLM的医学知识。MultiMedQA由6个开放数据集组成，其中包括USMLE的试题和印度医学院入学考试中的多项选择题。研究人员还引入了一个新的数据集，称为HealthSearchQA，由3173个来自搜索引擎的提问者、并且需要长篇回答的医疗问题组成。

研究结果表明，Med-PaLM及其前身Flan-PaLM准确地回答了多项选择题和长格式医学问题。

Flan-PaLM在多项选择题上的成功显而易见，该模型回答USMLE问题的正确率约为68%。

《Nature》文章一位作者Alan Karthikesalingam表示，以自由格式回答临床问题更加困难。研究人员必须确定一些关键因素，比如答案是否正确或者遗漏了一些关键信息，以及它如何与当前的科学和医学思维保持一致。

为了评估模型在自由格式回答中的表现，Karthikesalingam的团队寻求了来自印度、英国和美国临床医生的帮助，将他们分为2组。其中一组针对140个需要长篇答案的问题给出自己的专家答案。另一个小组由9名具有儿科、外科、内科和初级保健等领域专业知识的临床医生组成，对他们同行的答案以及模型生成的答案进行了评分。

专家组对Flan-PaLM长篇回答的评分低于临床医生组，研究人员为该模型提供了高质量答案的示例，从而创建了Med-PaLM。Med-PaLM的长篇回答得分高于Flan-PaLM，并且在许多指标上与临床医生的表现相匹配。

临床医生小组判断Med-PaLM的回答中，5.9%会导致潜在的有害结果，而临床医生的回答中该占比为5.7%。对于这两组答案，专家组认为这些危害主要是轻度至中度的。相比之下，临床医生将29.7%的Flan-PaLM答案评为潜在有害。

麻省理工学院（MIT）一位教授David Sontag（未参与此项研究）在一次采访中说，准确回答这些临床问题的能力可能并不是Google模型所独有的。“你会从ChatGPT-4等大型语言模型中得到基本相同的结果。”

Med-PaLM的不足

Med-PaLM的回答在一些重要领域表现不佳。临床医生的回答只包含1.4%不适当或不正确的信息，而Med-PaLM和Flan-PaLM这一比例分别为18.7%和16.1%。

与临床医生的答案相比，Med-PaLM的答案更频繁地显示检索错误和推理错误。此外，提问者认为91.1%的临床医生的答案有帮助，而Med-PaLM的答案只有80.3%。

Sontag说：“仅仅报告一个整体准确率数字是一回事，了解错误发生的时间、严重程度，以及理解其含义是另一回事。”

这些发现有助于确定未来研究方向，以缩小LLM和临床医生之间的差距。该研究的作者写道，促使这些模型在答案中引用资料来源，并传达他们对回答的不确定性，是研究人员减少错误回答的两种途径。

计算机+人类

越来越多的研究表明，ChatGPT在很多医学问题中表现良好，从通过USMLE，到生成高质量、富有同理心的回答，再到在自由格式临床推理考试中超过医学生。

尽管Sontag认为这项技术将成为人工智能（AI）系统的一部分，从而完善医疗保健系统，但他不相信自动生成答案（特别是那些通过简单搜索快速得出的答案），将会改变医疗实践或改善患者生活。许多考察LLM回答问题效果的研究，并没有说明当临床医生使用LLM时，患者护理质量是否或如何发生变化。

“这不是计算机和人类的较量，”斯坦福大学的Chen指出。更重要的问题是，“现在你已经有了LLM，那么计算机加上人类呢？”

Sontag说，临床专家如何使用AI来实现最佳的联合决策，这是未来的研究应该解决的问题。

未来愿景

许多LLM（包括Med-PaLM）由于自身局限性，尚未准备好被广泛整合到临床工作流程中，当然也没有人来验证他们的工作。Karthikesalingam说：“安全使用的门槛必须非常高，因为医学和人类健康是安全的关键领域。”

此外，问题还围绕着如何监管临床环境中使用的模型，以及如何保护患者隐私和人类自主权。国际团体正在研究这些问题。

然而，专家们表示，该技术可能很快会被用来简化非临床管理和运营工作。Karthikesalingam和Sontag指出，医学领域的信息包括非结构化的，包括冗长而复杂的临床指南、病人记录、以及医疗记录。

临床医生可以利用LLM来浏览这些信息。这些模型可以从指南中提取具体答案，从临床记录中提取计费信息，或者创建一个可编辑的医疗病史记录。既往研究表明，此类管理任务会导致临床医生职业倦怠。Sontag指出，LLM可以通过节省医疗人员的时间，从而减轻职业倦怠。

实际操作方法

专家指出，在快速发展的医学领域，临床医生最好的方法是主动与模型合作，弄清楚它们如何运作，并了解它们的不足。“医疗领域需要完全解决是否、何时以及如何使用这项技术的问题。”

Butte说：“医生们能越快发现安全有效使用这些模型的方法，并接受这些模型时刻都在变化，我们的医疗环境就越好。”

文献整理自：https://jamanetwork.com/journals/jama/fullarticle/2808297

请先登录后再发表评论

发表评论

确认

取消

APP下载 NEW

扫码下载APP

领2张课程券

公众号

统计咨询

扫一扫添加小咖个人微信，立即咨询统计分析服务！

会员服务

SCI-AI工具

积分商城

意见反馈