哈佛大学临床试验：OpenAI o1急诊分诊准确率达67%，超过人类医生

今天 4阅读

2026年4月30日，《卫报》报道了一项来自哈佛大学的里程碑式研究：OpenAI的o1模型在急诊室分诊诊断中达到了67%的准确率，显著高于人类分诊医生的50-55%。这是AI在临床医疗决策中首次在严格对照试验中超越人类医生。

研究设计

哈佛大学医学院的研究团队设计了一个严格的临床试验：

样本规模：超过2000例真实急诊病例，涵盖从轻微外伤到急性心肌梗死等各类急症。

对比组：AI组使用OpenAI o1模型进行初步诊断和分诊建议；对照组为经过标准培训的急诊分诊医生（平均从业经验8年）。

评估标准：以最终确诊结果（由资深专科医生确认）为金标准，评估分诊建议的准确性。

双盲设计：评估专家不知道哪个诊断来自AI，哪个来自人类医生。

研究结果令人震惊：

整体准确率：AI 67% vs 人类医生 50-55%。差距约12-17个百分点。

危急病例：在急性心肌梗死、脑卒中、肺栓塞等危急病例中，AI的优势更为明显——准确率领先20%以上。AI几乎不会漏诊这些致命疾病。

常见病症：在感冒、扭伤等轻症方面，人类医生反而略占优势，准确率相近。

速度：AI平均20秒完成分诊建议，人类医生平均需要3-5分钟。

研究团队分析了AI表现更好的原因：

无认知偏差：人类医生容易受到锚定效应（过度依赖第一个症状信息）、近因效应（最近看到的病例影响判断）等认知偏差的影响。AI没有这些问题。

海量知识储备：o1模型在训练过程中接触了数十万本医学教材、数百万篇科研论文和诊断指南。任何一个人类医生都无法掌握如此全面的医学知识。

疲劳无影响：人类医生在连续工作8小时后诊断准确率会下降，AI始终保持一致水平。

罕见病识别：对于罕见疾病，人类医生可能从未在职业生涯中遇到过，但AI在训练数据中"见过"成千上万次。

研究也坦诚指出了AI的不足：

缺乏体格检查能力：AI只能根据文字描述的病史和症状来推断，无法进行视诊、触诊、听诊等体格检查。

过度谨慎：AI倾向于将更多病例标记为"需要紧急处理"，可能导致急诊资源浪费。

信任问题：患者对AI诊断的接受度是实际应用中的重大挑战。

法律责任：如果AI误诊，责任归属尚不明确。

这项研究对医疗行业有深远影响：

AI辅助分诊将成为标准配置。预计到2027年，大部分三级医院急诊科将引入AI分诊系统作为"第二意见"参考。

分级诊疗加速。AI可以有效识别需要紧急处理的重症患者和可以等待的轻症患者，缓解急诊拥堵。

基层医疗受益最大。在医疗资源匮乏的基层诊所，AI分诊系统可以弥补专科医生不足的问题。

医生角色转型。医生的角色将从"初步诊断者"转向"最终决策者和沟通者"，需要更多同理心和沟通技巧。

AI进入临床决策也带来了一系列伦理问题：患者是否知情AI参与了诊断？诊断错误的后果由谁承担？如何防止AI被滥用？这些问题需要医疗监管机构和法律体系尽快给出答案。

尽管如此，67% vs 55%的数据差距已经足够有说服力。AI不会取代医生，但善用AI的医生会取代不善用AI的医生。