编辑 | ScienceAI 编辑部
人工智能(AI)已渗透到各行各业,并展示了其巨大潜力,但为了将 AI 工具以安全和负责任的方式集成到工作场所,就需要开发更强大的方法来评估它们何时最有效。
基于深度学习的预测 AI 系统已被证明可以在多种医学成像环境中实现专家级的疾病识别,但在临床医生准确诊断的情况下可能会出错,反之亦然。
那么什么时候 AI 更准确,什么时候人类更准确?这个问题在医疗保健领域尤其重要,因为预测人工智能越来越多地用于高风险任务中,从而协助临床医生做出判断。
7 月 17 日,Google DeepMind 联合多机构研究团队提出了一种 AI 系统:互补驱动的临床工作流程延迟(Complementarity-Driven Deferral to Clinical Workflow,CoDoC),可以学习何时预测 AI 提供正确的信息,以及何时最好听从临床医生的意见。
CoDoC 探索了如何在假设的医疗环境中利用人类与人工智能的协作来提供最佳结果。
在筛查乳腺癌或结核病(TB)的临床工作流程中,CoDoC 相对于仅临床医生或仅 AI 基线提高了准确性。在乳腺癌筛查方面,与英国筛查项目中的「双读仲裁」相比,CoDoC 在相同假阴性率的情况下将假阳性率降低了 25%,同时临床医生的工作量减少了 66%。在结核病分类方面,与独立的人工智能和临床工作流程相比,CoDoC 在五个商用预测人工智能系统中的三个系统中,在相同的假阴性率下,假阳性率降低了 5-15%。
为了帮助研究人员在其工作基础上提高现实世界人工智能模型的透明度和安全性,研究人员还在 GitHub 上开源了 CoDoC 的代码。
该研究以「Enhancing the reliability and accuracy of AI-enabled diagnosis via complementarity-driven deferral to clinicians」为题,发布在《Nature Medicine》上。
预测 AI 工具在临床应用中显示出巨大的前景,特别是从医学图像(即乳腺 X 光检查或胸部 X 光检查)中识别乳腺癌或肺癌等疾病的存在。在一些临床场景中,预测 AI 工具和临床医生在不同类型的病例中会犯错误。理想的预测系统应该利用人类临床医生和诊断人工智能工具的互补优势。
在此,研究团队开发了 CoDoC,可以学习在预测 AI 模型的意见和临床工作流程之间做出决定。
CoDoC:人类与 AI 协作的附加工具
构建更可靠的人工智能模型通常需要重新设计预测人工智能模型的复杂内部运作。然而,对于许多医疗保健供应商来说,重新设计预测性人工智能模型根本不可能。CoDoC 可以帮助用户改进预测人工智能工具,而无需他们修改底层人工智能工具本身。
在开发 CoDoC 时,该团队设置了三个标准:
- 非机器学习专家(例如医疗保健提供者)应该能够部署该系统并在一台计算机上运行它。
- 训练需要相对少量的数据——通常只需要几百个例子。
- 该系统可以与任何专有的人工智能模型兼容,并且不需要访问模型的内部工作原理或训练数据。
确定预测 AI 或临床医生何时更准确
通过 CoDoC,研究人员提出了一个简单且可用的人工智能系统,通过帮助预测人工智能系统「知道何时不知道」来提高可靠性。该团队研究了临床医生可能可以使用旨在帮助解释图像的人工智能工具的场景,例如,检查胸部 X 光片以确定是否需要进行结核病检查。
对于任何理论临床环境,CoDoC 的系统只需要训练数据集中每个病例的三个输入。
- 预测 AI 输出的置信度分数介于 0(确定不存在疾病)和 1(确定存在疾病)之间。
- 临床医生对医学图像的解释。
- 是否存在疾病的基本事实,例如通过活检或其他临床随访确定的。
并且,CoDoC 不需要访问任何医学图像。
图示:CoDoC 训练流程展示。(来源:论文)
CoDoC 学习确定预测 AI 模型与临床医生的解释相比的相对准确性,以及这种关系如何随预测 AI 的置信度分数波动。
经过训练后,CoDoC 可以插入到假设的未来临床工作流程中,该工作流程涉及人工智能和临床医生。当预测人工智能模型评估新的患者图像时,其相关的置信度得分将被输入系统。然后,CoDoC 评估接受人工智能的决定还是听从临床医生的决定最终会产生最准确的解释。
图示:将 CoDoC 插入到假设的临床工作流程中。(来源:论文)
图示:建立「优势函数」来优化 CoDoC。(来源:论文)
提高准确性和效率
该团队使用多个真实世界数据集(仅包括历史数据和去识别化数据)对 CoDoC 进行了全面测试,结果表明,将人类最好的专业知识与预测性人工智能相结合,比单独使用任何一种数据集都能获得更高的准确性。
除了将乳腺 X 线摄影数据集的误报率降低 25% 外,在允许人工智能在某些情况下自主行动的假设模拟中,CoDoC 能够将临床医生需要阅读的病例数量减少三分之二。研究人员还展示了 CoDoC 如何假设改进胸部 X 光检查的分类,以便进一步进行结核病检测。
还有局限性需要在未来解决
尽管该团队的乳腺 X 光检查测试集代表了英国的一些医学实践,还应该增加更多数据来训练。用于决定 Xpert 测试是否应用于结核病分类的 CXR 检查也存在同样的限制,其中放射科医生可能会注意到多种非结核病,但筛查结核病的人工智能工具不会对其进行分类。纳入这些任务需要进一步的研究。
此外,对于乳腺X光检查,当前的临床实践还不允许基于人工智能的自主决策。然而,鉴于人工智能在医疗保健领域的快速进步,未来可能会出现这种情况,这是需要进一步解决的。
负责任地开发医疗保健 AI
虽然这项工作是理论上的,但它显示了 AI 系统的适应潜力:CoDoC 能够提高不同人口群体、临床环境、使用的医学成像设备和疾病类型的医学成像的解释性能。
CoDoC 是一个很有前景的例子,它展示了如何将人工智能的优势与人类的优势和专业知识相结合。为了将 CoDoC 等技术安全地引入现实世界的医疗环境,医疗保健供应商和制造商还必须了解临床医生如何与人工智能进行不同的交互,并使用特定的医疗人工智能工具和设置来验证系统。
论文链接:https://www.nature.com/articles/s41591-023-02437-x%20
代码开源地址:https://github.com/deepmind/codoc
参考内容:
https://twitter.com/GoogleDeepMind