今天和大家分享 Google Research 与英国国家医疗服务体系(NHS)合作开展的两项最新重量级研究(已发表于《Nature Cancer》)。这两项研究深入探讨了如何利用 AI 机器学习来改进乳腺癌筛查的工作流程,不仅展示了技术的可行性,更揭示了 AI 落地真实医疗场景的巨大潜力与挑战。

面对英国放射科医生严重短缺(目前短缺 30%,预计到 2028 年达到 40%)的困境,研究证明了 AI 可以作为可靠的“第二读片人”介入传统的“双人读片(Double-read)”流程,在不牺牲准确率的前提下大幅提升效率。
以下是我对文章主要成果的梳理:
1. 癌症检测率显著提升(独立性能评估)
在独立性能评估中,AI 展现出了惊人的实力:
- 敏感度提高:作为单一读片者,AI 系统的敏感度显著高于原始的第一位人类医生,且没有降低特异性。
- 总体检出率增加:总体癌症检出率从 7.54/1000 人提升至 9.33/1000 人。
- 攻克漏诊难题:AI 成功检测出了传统“双人读片”流程中漏诊的 25% 的间期癌(Interval cancers,即在常规筛查间期发作的癌症)。
- 特定场景表现优异:AI 在检测高风险的浸润性癌症(Invasive cancers)以及首次参加筛查的女性时表现格外优异,既提高了敏感度,又大幅减少了假阳性。

2. 人力工作量与耗时大幅下降(AI 整合进双人流程)
技术再好,也要能融入现有的工作流。研究测试了“1名人类医生 + AI”的混合工作流:
- 性能“不劣于”人类双检:经过仲裁后,其整体敏感度和特异性,统计学上不劣于传统的“2名人类医生”工作流。
- 降低一半阅读量:AI 的引入预计可减少 46% 的人类读片总量。
- 节省专家时间:考虑到疑难杂症的仲裁耗时,整体为放射科医生节省了 36%–44% 的时间,这能够极大地缓解医疗系统的人力危机。
- 极速响应:在临床实地部署中,从完成筛查到 AI 出具结果的中位数时间仅为 17.7 分钟,而人类医生的一读出结果往往需要 2 天以上。

3. 真实世界部署的挑战与洞察
这是整篇研究中最具现实意义的部分。AI 从实验室走向临床,面临的绝不仅仅是代码问题:
- 实地技术验证:系统成功在伦敦的 12 个 NHS 临床站点进行了非干预性前瞻部署,证明了其与真实临床流程整合的技术可行性。
- 人类对 AI 的“信任赤字”:研究发现了一个很有意思的现象:在面对分歧需要人类仲裁时,人类专家组在 93 个阳性病例中错误地否决了 AI 的“正确召回”决定(这些大多是极难发现的早中期癌症)。这表明,未来的重点不仅是提升模型跑分,更需要增强 AI 判断的可解释性(Explainability),帮助人类医生建立对 AI 的信任。
- 本地化校准至关重要:实地部署揭示了历史训练数据与现代临床数据之间的“分布偏移(Data drift)”,强调了 AI 系统在不同医院落地时,必须根据本地数据进行阈值校准以确保安全。
🪵 Youmoo 观点:AI 的下一站在于“工作流重构”与“信任建立”
从半导体/科技行业的视角来看,AI 在医疗领域的这份成绩单令人振奋。它再次印证了我们常说的一个观点:AI 目前最大的价值不在于完全取代人类,而在于作为极高效率的 Copilot,重构现有的低效工作流。
节省近一半的专家时间,这意味着宝贵的医疗资源可以被重新分配给真正需要“人类判断力”和共情能力的复杂病例上。但同时,“人类否决了正确的 AI”这一现象也提醒我们,人机协作的终极瓶颈依然在于信任。如何让 AI 给出决定的同时,也给出“我为什么这么选”的推导逻辑,将是所有 AI 赛道下一步必须攻克的堡垒。