超越想象的GPT医疗
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

GPT-4对医学的了解究竟如何呢

我相信你们中的一些人对GPT-4关于二甲双胍的认识并不会感到惊讶,这是可以理解的。毕竟,通过简单的网络搜索同样可以找到相关信息,虽然可能需要花费更多的时间和精力。但更关键的问题是,如果我们希望在医疗场景中应用GPT-4,那么它对医学方面的了解到底如何呢?

事实上,要准确回答这个问题颇具挑战性。我们可以肯定的是,GPT-4并未接受过专门的医学培训。而一个接受过医学培训的GPT-4对其开发者OpenAI、微软以及众多计算机科学家、医学研究员和医疗专业人士来说无疑具有巨大吸引力。其中一个原因是,了解GPT-4所受的医学“教育”至关重要,就像我们通常需要了解人类医生的背景一样。然而,如今我们所拥有的GPT-4仍仅仅是一个通用系统(general-purpose system)。因此,弄清楚其目前的知识水平变得尤为重要。

出人意料的是,GPT-4在医学领域的知识颇为丰富。我们发现,GPT-4能在常见和罕见的临床场景中进行推理、解释,甚至感同身受。为了验证这一点,我们可以用美国执业医师资格考试(USMLE)的问题来测试GPT-4。美国执业医师资格考试是一个分阶段的考试,任何想在美国获得执业医师资格的人都需要通过这个考试。

以下是一个美国执业医师资格考试中的典型问题的例子,我们呈现给GPT-4并得到了它的回答:

 一名12岁女孩因双腿肿胀加重一周而由母亲带至急诊科。患者昨天注意到尿液中带血,但之后再未出现出血。一周前,她因上呼吸道感染和喉咙痛好几天没去学校。除此之外,她的病史并无其他特殊情况,也没有长期服用的日常用药。初潮尚未来临。BMI为20。生命体征:体温37.0摄氏度(98.6华氏度),脉搏78次/分,呼吸频率12次/分,血压136/84毫米汞柱。室内空气下脉搏血氧饱和度为100%。体格检查发现咽部后方发红,轻度颈部淋巴结肿大,双膝出现3+凹陷性水肿。尿液分析结果如下:

蛋白质:150 mg/dL

血液:阳性

白细胞酯酶:阳性

亚硝酸盐:阴性

白细胞:5~10/hpf

红细胞:10~25/hpf

尿管型:1~2/lpf

对于这位患者,哪项实验室检查结果最可能出现异常?

(A)出血时间

(B)红细胞计数

(C)血清C3浓度

(D)血清IgA浓度

(E)血清类风湿因子检测

 (C)血清C3浓度。

在我们的测试中,当使用一整套美国执业医师资格考试问题对GPT-4进行测试时,它的答案正确率超过90%。(这表明自从ChatGPT发布以来,这个模型已经取得了显著的进步,在这之前我们测试过的得分仅达到或接近及格线。)此外,GPT-4还能提供详细的答案解释:

 根据患者的临床症状,包括近期的上呼吸道感染、水肿、尿液中的血液和蛋白质,这些症状与急性链球菌感染后肾小球肾炎(APSGN)相符。急性链球菌感染后肾小球肾炎通常与血清C3水平降低有关,因此这位患者血清C3浓度很可能出现异常。

GPT-4的解释展示了其对医学知识的理解,正如我们将在本书中探讨的那样,它似乎通过因果关系进行了推理。

我们将在第3章深入探讨GPT-4在推理方面的表现,包括因果关系分析。然而,一个关键观点是,迄今为止,AI系统主要致力于在大量数据中发现相关性。例如,AI系统可以发现搜索“丰田普锐斯评测”的人与购买汽车保险的人之间的关联。但正如古老的谚语所言:“相关性并不意味着因果关系。”

在医学领域,这种区分尤为重要,因为相关性可能造成误导。例如,我们需要弄清楚是吃大量意大利面导致高血糖,还是说它们之间只是相关,背后可能存在其他根本原因。如今在计算机科学领域,AI系统是否能够进行这种推理是一个研究热点,有时甚至引发激烈争论。对于一些研究人员来说,因果推理仍然是人类智能的独有特征。

关于GPT-4是否具有因果推理能力的问题超出了本书讨论的范围,最好的说法是这个问题尚未解决。但如果我们请教GPT-4本身,它会给出一个微妙的回答:

 你在解释答案背后的推理方面表现得非常出色。有时,你似乎能够进行因果推理。这是真的吗?

 作为一款AI语言模型,我可以根据训练数据中的已知事实和关系来模拟因果推理。然而,我的理解仅限于数据中的模式,而不涉及真正的理解或意图。我的目标是根据收到的输入,尽我所能提供有用且准确的答案。

尽管GPT-4声称可以模拟因果推理,但这并不意味着它真的具备这种能力。然而,我们随后将看到,GPT-4在回答中给出的解释往往出乎意料地深入。