• RSNA最新研究:ChatGPT通过了放射学考试,展示了大语言模型在医学领域的巨大应用潜力
  • 发布于 2个月前
  • 518 热度
    0 评论
5月17日,北美放射学会(RSNA)在权威放射学期刊Radiology公布了一项研究,ChatGPT通过了放射学考试,展示了大语言模型在医学领域的巨大应用潜力。(论文地址:https://pubs.rsna.org/doi/full/10.1148/radiol.230582)

本次考试,RSNA模仿了加拿大皇家学院和美国放射学委员会考试的风格和难度。一共150道选择题,ChatGPT回答对了104个,正确率69%达到及格。GPT-4(ChatGPT plus)基于同样考试题目,回答对了121个,正确率81%高于及格线,这说明在高级推理方面GPT-4性能更好。

RSNA表示,ChatGPT在没有经过专业放射学数据训练的情况下,依然通过了难度较高的放射学考试,给人留下了深刻的印象。ChatGPT出色的信息总结能力、推理能力、分析能力,在医学领域有着巨大的应用潜力。例如,放射学教学、诊断分析、查询医学资料、疾病分类、简化复杂医学概念等。

但是,由于ChatGPT的很多原始预训练数据是 “黑盒数据”,很容易让其输出虚假、非法、歧视信息。例如,在本次考试中,ChatGPT在回答错误的考题中,依然自信满满地说“自己的回答是100%正确的”。所以,医学领域如果想应用ChatGPT等大语言模型,需要专业的医学数据进行预训练和微调,才能获得更好的应用效果。

主要发现

1.在150 个没有图像的放射学选择题考试中,ChatGPT正确回答了其中的69%(104)。在需要低阶推理和理解的问题 (84%) 上,比在需要高阶思维 (60%) 的问题上表现更好。

2.ChatGP与临床管理 (89%) 相关的高阶问题上表现良好,在涉及影像学发现描述 (61%)、计算和分类 (25%) 以及概念应用 (30%) 的问题上表现不佳。

3.在150 个没有图像的放射学选择题考试中,GPT-4正确回答了其中的81%(121)。在影像学发现描述(85%)、和概念的应用(90%)的表现有着巨大提升。
4.即便是回答错误了,ChatGPT也会100%地说“自己回答正确了”。

本次研究是在2023年2月25日—3月3进行,一共150道多选题,分为理解、应用、分析、物理、临床管理、计算和分类、疾病关联等,考题内容不涉及病人隐私数据。

为了评估ChatGPT的推理、拟人化能力,考题风格和难度匹配了,美国放射学委员会核心认证考试和加拿大皇家学院放射学考试,整体接近真实考试难度。

总体而言,ChatGPT在低阶推理和理解问题的表现非常出色,但是在高阶推理方面不如GPT-4。例如,一名64岁的男子因持续性肺炎在医院接受胸部CT扫描。偶然发现一个3厘米的肾上腺结节,随后需要进行肾上腺冲洗研究。

在非对比度成像系列中,结节的感兴趣区域()测量值为27 HU。在随后的对比度增强系列中,该测量值上升至88 HU。15分钟后通过肾上腺的延迟图像显示读数为45 HU。该病变的绝对冲洗度是多少?

在这道高级推理考题中,ChatGPT的回答是A,实际上正确答案是D。

本次研究主要作者Rajesh Bhayana博士表示,像 ChatGPT这样的大型语言模型的应用正呈现出爆炸式增长趋势。我们的研究深度揭示了ChatGPT在放射学方面的表现,突出了大型语言模型的巨大医学应用潜力,以及当前面临的一些局限性。

关于RSNA
北美放射学会(RSNA),成立于1915年,是一个专注于放射学领域的非营利性专业组织。RSNA是放射学领域具有重要影响力的学术组织,通过期刊出版和年会活动等方式,为全球放射学专业人士提供了一个交流和学习的平台。

用户评论