Google Research 最新成果：AI 如何在乳腺癌筛查中拯救医疗系统？

今天和大家分享 Google Research 与英国国家医疗服务体系（NHS）合作开展的两项最新重量级研究（已发表于《Nature Cancer》）。这两项研究深入探讨了如何利用 AI 机器学习来改进乳腺癌筛查的工作流程，不仅展示了技术的可行性，更揭示了 AI 落地真实医疗场景的巨大潜力与挑战。

Google Research NHS

面对英国放射科医生严重短缺（目前短缺 30%，预计到 2028 年达到 40%）的困境，研究证明了 AI 可以作为可靠的“第二读片人”介入传统的“双人读片（Double-read）”流程，在不牺牲准确率的前提下大幅提升效率。

以下是我对文章主要成果的梳理：

1. 癌症检测率显著提升（独立性能评估）

在独立性能评估中，AI 展现出了惊人的实力：

敏感度提高：作为单一读片者，AI 系统的敏感度显著高于原始的第一位人类医生，且没有降低特异性。
总体检出率增加：总体癌症检出率从 7.54/1000 人提升至 9.33/1000 人。
攻克漏诊难题：AI 成功检测出了传统“双人读片”流程中漏诊的 25% 的间期癌（Interval cancers，即在常规筛查间期发作的癌症）。
特定场景表现优异：AI 在检测高风险的浸润性癌症（Invasive cancers）以及首次参加筛查的女性时表现格外优异，既提高了敏感度，又大幅减少了假阳性。

AI 敏感度提升

2. 人力工作量与耗时大幅下降（AI 整合进双人流程）

技术再好，也要能融入现有的工作流。研究测试了“1名人类医生 + AI”的混合工作流：

性能“不劣于”人类双检：经过仲裁后，其整体敏感度和特异性，统计学上不劣于传统的“2名人类医生”工作流。
降低一半阅读量：AI 的引入预计可减少 46% 的人类读片总量。
节省专家时间：考虑到疑难杂症的仲裁耗时，整体为放射科医生节省了 36%–44% 的时间，这能够极大地缓解医疗系统的人力危机。
极速响应：在临床实地部署中，从完成筛查到 AI 出具结果的中位数时间仅为 17.7 分钟，而人类医生的一读出结果往往需要 2 天以上。

AI 整合工作流

3. 真实世界部署的挑战与洞察

这是整篇研究中最具现实意义的部分。AI 从实验室走向临床，面临的绝不仅仅是代码问题：

实地技术验证：系统成功在伦敦的 12 个 NHS 临床站点进行了非干预性前瞻部署，证明了其与真实临床流程整合的技术可行性。
人类对 AI 的“信任赤字”：研究发现了一个很有意思的现象：在面对分歧需要人类仲裁时，人类专家组在 93 个阳性病例中错误地否决了 AI 的“正确召回”决定（这些大多是极难发现的早中期癌症）。这表明，未来的重点不仅是提升模型跑分，更需要增强 AI 判断的可解释性（Explainability），帮助人类医生建立对 AI 的信任。
本地化校准至关重要：实地部署揭示了历史训练数据与现代临床数据之间的“分布偏移（Data drift）”，强调了 AI 系统在不同医院落地时，必须根据本地数据进行阈值校准以确保安全。

🪵 Youmoo 观点：AI 的下一站在于“工作流重构”与“信任建立”

从半导体/科技行业的视角来看，AI 在医疗领域的这份成绩单令人振奋。它再次印证了我们常说的一个观点：AI 目前最大的价值不在于完全取代人类，而在于作为极高效率的 Copilot，重构现有的低效工作流。

节省近一半的专家时间，这意味着宝贵的医疗资源可以被重新分配给真正需要“人类判断力”和共情能力的复杂病例上。但同时，“人类否决了正确的 AI”这一现象也提醒我们，人机协作的终极瓶颈依然在于信任。如何让 AI 给出决定的同时，也给出“我为什么这么选”的推导逻辑，将是所有 AI 赛道下一步必须攻克的堡垒。