医工互联

 找回密码
 注册[Register]

手机动态码快速登录

手机号快速登录

微信登录

微信扫一扫,快速登录

QQ登录

只需一步,快速开始

查看: 128|回复: 0
收起左侧

学术分享|重新思考细粒度注释以克服基于深度学习的放射诊断中的捷径学习

[复制链接]

  在线 

发表于 2023-2-21 22:57:17 来自手机 | 显示全部楼层 |阅读模式 <
X光片是胸部多种疾病常用的临床辅助诊断方法,很多研究已经表明,深度学习在胸部X光片病灶筛查的性能表现能明显提高医生的诊疗效率。而通常模型用于测试分布和内部训练集不一致的外部数据时,性能低于预期。近期,来自深圳市罗湖区人民医院、中国香港玛丽医院、香港大学李嘉诚医院、香港中文大学计算机科学与工程系、中国香港医院管理局总行资讯科技及健康资讯部人工智能实验室、中国科学院深圳先进技术研究院粤港澳人机智能协同系统联合实验室,以及视见科技人工智能研究实验室多方合作联合发表的大型回顾性临床研究:《一项多中心研究:重新思考细粒度注释以克服基于深度学习的放射诊断中的捷径学习》被Radiology: Artificial Intelligence (IF:8.3)正式接收。研究人员与国内多家医院合作收集了34501例胸部X光片并标注病变定位信息并构建内部测试集,设计分类模型和检测模型,并采用外部测试集进行性能测试。我们认为当可用数据丰富时,改进医学图像诊断系统的根本在于提供更精细的病灶定位信息用于训练模型,而不是设计更复杂的分类模型。

文章链接: https://doi.org/10.1148/ryai.210299

01研究内容
胸片X光是最常用的诊断X光技术,仅以香港为例,每年胸肺门诊人次近百万计。大量的扫描筛查累积了海量X光数据,同时也给阅片医生带来了更多负担。因此,基于胸片X光的自动化疾病扫描对于提高筛查效率,减轻医生负担,尤其是基层医院的筛查负担,有着极为重要的意义。然而,先进的疾病检测定位算法往往需要大量的病灶级标注,而疾病的标注又极度依赖专业医生,且会耗费大量标注时间,这无疑对开发自动检测算法提出了重大挑战。

联合团队回顾性收集和注释了 2005 年 1 月至 2019 年 9 月的 34501 张胸片,伴有心脏肿大、胸腔积液、肿块、结节、肺炎、气胸、肺结核、骨折和主动脉钙化的多种疾病类型,构建内部数据集,并根据X射线照片级别的注释(是或否疾病)、细粒度的病变级别注释(病变边界框)开发了两个 DL 模型,分别命名为 CheXNet 和 CheXDet。

1.jpeg


外部测试集有3个,分别是NIH-Google, PadChest, CheXPert,同时采用AUC曲线评价内部测试集分类任务的性能、与医生判读的结果进行对比,JARFOC_FOMs评价定位任务的性能,并对模型决策区域进行了可视化。

结果发现,在像素级别分类任务上,分类模型和检测模型在内部测试集上性能没有显著性差异。然而在外部测试集上,分类模型则表现得比较差。在病变定位任务上,在内部和外部测试集上,即使只用20%的数据训练检测模型,其性能也明显优于用100%数据训练的分类模型。通过进一步可视化模型的决策区域,我们发现由于确实病变位置的信息,分类模型只能学习了大致的病变模样,因此不能很好地对具体的病变位置进行定位。

2.jpeg


如上图2是内部测试集分类任务的性能对比,采用AUC评价指标。蓝色是分类模型,红色是检测模型,绿色是用内部数据加CheXPert数据训练的分类模型,n.s表示无显著性差异,*越多表示显著性差异越大。可以看出,分类模型和检测模型没有明显的差异。


3.jpeg

图3是内部测试集定位任务的性能对比,采用JAFROC-FOMs评价指标。蓝色是分类模型,红色是检测模型,n.s表示无显著性差异,*越多表示显著性差异越大。可以看出检测模型明显优于分类模型。

4.jpeg

图4是分类任务上模型与医生水平的比较,采用AUC评价指标。蓝色是分类模型,红色是检测模型,不同颜色的点代表不同医生个体。可以看出,分类任务上,分类模型和检测模型的性能与放射科医生相当。


5.jpeg

图5是模型决策区域可视化,左边是医生标注框,中间是分类模型的检测框,右边是检测模型的检测框。可以看出,检测模型的检测框与标注框更一致,分类模型的预测框很不准确。


02贡献总结

本次研究收集共 34501 张胸片X光,均含有病灶级标注和图片级标注,外部测试集 272988 张,涵盖主动脉钙化、心脏肥大、骨折、肿块、结节、胸腔积液、肺炎、气胸、肺结核等九种疾病。研究结果表明,1)提供定位信息的数据越多模型泛化能力越好;2)加入更多只有图像级别分类标签的数据对分类模型提升不大;3)在分类任务上,分类模型和检测模型具有与放射科医生相当的性能;4)在病变定位任务上,检测模型的性能明显优于分类模型,具有显著性差异;5)在外部测试集上,检测模型都分类和检测任务上都优于分类模型。因此,在未来基于深度学习的胸部X光片筛查应用中,训练深度学习模型时提供定位信息比只提供图像级别分类标签更加有意义,可以更有效的提升模型的病变筛查能力。

03临床应用价值

2022年2月,国家卫生健康委、国家医保局、国家中医药局、中央军委后勤保障部卫生局四部委联合印发《医疗机构检查检验结果互认管理办法》,提出医疗机构应当按照医院信息化建设标准与规范要求,加强以电子病历为核心的医院信息平台建设。医联体牵头医院应当推进医联体内数据信息的互联互通,加强检查检验的质量控制,提升检查检验的同质化水平,实现检查检验结果的互认共享。

本文的研究结果证明了细粒度注释克服了快捷学习,使 DL 模型能够识别正确的病变模式,提高模型的泛化性,对于实现跨医院、多中心超声、X线、核磁共振成像、电生理、核医学等图像或数据信息进行结果互认提供了解决路径和证据支撑,对于进一步提高医疗资源利用率,减轻人民群众就医负担有一定推动作用。
04改进方向

从我们的研究结果可以看出,即使提供病变的定位信息也并不能完全解决泛化能力问题,检测模型在外部测试集上的性能并不如其在内部测试集的性能。此外,位置信息的获取比图像级别分类标签获取的难度大很多,这也是模型开发过程中需要考虑的因素。

来源:https://zhuanlan.zhihu.com/p/551652354
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
回复

使用道具 举报

提醒:禁止复制他人回复等『恶意灌水』行为,违者重罚!
您需要登录后才可以回帖 登录 | 注册[Register] 手机动态码快速登录 微信登录

本版积分规则

发布主题 快速回复 收藏帖子 返回列表 客服中心 搜索
简体中文 繁體中文 English 한국 사람 日本語 Deutsch русский بالعربية TÜRKÇE português คนไทย french

QQ|RSS订阅|小黑屋|处罚记录|手机版|联系我们|Archiver|医工互联 |粤ICP备2021178090号 |网站地图

GMT+8, 2024-11-21 22:16 , Processed in 0.273087 second(s), 65 queries .

Powered by Discuz!

Copyright © 2001-2023, Discuz! Team.

快速回复 返回顶部 返回列表