医工互联

 找回密码
 注册[Register]

手机动态码快速登录

手机号快速登录

微信登录

微信扫一扫,快速登录

QQ登录

只需一步,快速开始

查看: 120|回复: 0
收起左侧

干货!容忍数据缺失的临床超声报告知识图谱乳腺癌诊断

[复制链接]

  离线 

发表于 2022-11-8 22:51:14 | 显示全部楼层 |阅读模式 <
点击蓝字

235515t9922x52nheo55nc.jpeg

关注我们
AI TIME欢迎每一位AI爱好者的加入!
医学领域经常存在样本短缺或数据缺陷的问题,在医学领域数据层面造成严重干扰。鉴于临床报告因登记过程的数据遗漏,诊断报告数据缺失问题会造成现有方法推理无效。尽管现有方法在解决数据不精确方面取得了进展,但几乎所有这些方法都无法接受缺失数据输入。缓解数据缺失问题的一种常见策略是用人造数据对缺失值进行填充。然而,数据填充策略在实际上会引入原始数据中并不存在的额外噪声。为回避数据填充带来的噪声污染,本报告展示一种数据缺失容忍性的语义知识泛化推理模型,在构建智能诊断算法时引入了开放世界假设,将临床超声报告中的缺失数据视为尚未观察的事实。该方法基于编码器-解码器的框架设计,其中编码器通过图谱嵌入而获得图谱结构信息,解码器通过推断患者与临床结果的关联而进行泛化推理诊断。对数据缺失场景,所提出方法对数据缺失表现出更好的容忍性。
本期AI TIME PhD 直播间我们邀请到西北工业大学副教授——习佳宁,为我们带来报告分享《容忍数据缺失的临床超声报告知识图谱乳腺癌诊断》。
235516xm3rjmt88of8roa5.png

习佳宁
西北工业大学副教授,2009年保送至中国科学技术大学(全国中学物理竞赛奖,免高考)并于2013年获学士学位,随后推免至中国科学技术大学硕博连读,并于2018年获博士学位。2018年至2019年于西安电子科技大学任职讲师,2019年9月起西北工业大学从事博士后,并于2021年7月晋升副教授。曾获国家奖学金、研究生国家奖学金、安徽省普通高等学校品学兼优毕业生等多项荣誉奖励。于2014-2015年担任IEEE国际电气电子工程师协会学生分会主席。2020年荣获西安市自然科学优秀学术论文奖(排名第一)科研奖励。目前主持NSFC青年科学基金项目1项,主持博士后面上项目1项。担任国际SCI期刊Frontiers in Genetics、Mathematical Biosciences and Engineering客座编辑,还担任国际期刊Bioinformatics、Zoological Research、Genomics, Proteomics & Bioinformatics等SCI期刊审稿人,还担任CVPR、ICCV、BIBM、ICME等国际会议审稿人。已发表学术论文26篇,其中本人第一作者发表14篇,通讯作者3篇,包括SIGKDD(知识挖掘顶级国际会议,CCF A类)、Bioinformatics(生物信息学国际顶刊,本人一作)、TCBB(生物信息学国际权威期刊)等。
01
 背   景 
对于人工智能辅助诊断模型来说,医学超声图像相比于更加标准化的CT图像或者磁共振(MRI)图像,其成像效果与医生的检查手法密切相关。在相同场景下,医生的手法动作稍有差别,便会导致成像结果的图像存在差异。因此,相比于CT和MRI给出的标准化横截面来说(下图左),医学超声成像是一个非标准化的过程,所给出的图像也存在较大差异(下图中右)。但对于人工智能模型而言,非标准化的输入会使得模型构建存在困难,因此需将非标准化的超声图像转换成标准化输入格式。
235516urymgrmbr73mprcp.png

关于乳腺超声图像的标准化表述,目前已经存在BI-RADS(Breast Imaging Reporting and Data System)国际标准,该表征可有效描述图片所含的常见语义,比如形状、存在毛刺、是否钙化等。通过使用BI-RADS,可将非标准化的乳腺超声图像转换成标准化的医学报告。进而,将医学超声的BI-RADS语义特征作为标准的输入,可有效缓解数据非标准化对智能辅助诊断系统的负面影响。
具体而言,乳腺癌BI-RADS报告示例如下图所示,其报告内容由医生根据超声图像分别填写其相关BI-RADS语义特征。然而在实际临床场景中,超声图像中的一些特征往往难以分辨,而医生无法判断具体属性,从而造成报告的部分BI-RADS特征未观察或者未填写,最终导致报告语义特征存在数据缺失。
235517umnaaawnfdsw4qaa.png

然而,由于目前的机器学习和模糊推理算法主要针对数据不精确,因此无法处理数据缺失问题。如果存在数据缺失,这些现有方法则难以计算向量距离或相似性,因而无法进行后续推理。当然,目前也存在一些通过人工填充数据的方式来缓解数据缺失,比如填充零或众数,但由于无法确保所填充的内容和缺失真实情况一致,因而又会引入额外的人工噪声。
为回避数据填充带来的噪声影响,本文工作引入了开放世界假设,即允许未观察的数据存在,将缺失数据就作为未观察的数据,而不是零值或者其他填充值。本工作中,我们不再采用传统的样本x特征的矩阵存储方式来表征BI-RADS报告特征(如下图a),而是采用使用知识图谱(Knowledge Graph,KG)来表征超声数据的BI-RADS报告特征。其中知识图谱由三元组事实构成,这里的三元组事实可以通俗理解为类似(主,谓,宾)形式(如下图b),通过KG embedding(知识图谱嵌入)来获得图谱的点和边所映射低维空间后的表征向量,这些向量关于已存在三元组可表现出较高的重建分数,但对未知三元组的重建分数并非较低,而是不强制其高低,这种方式可有效回避缺失的三元组。如果数据缺失,只需在知识图谱中不设置相应实体和关系的连接即可,如下图c所示。
235517dyzj2tz87tmkmiz5.png

02
 方   法 
本文提出KGSeD(KG based Structural embedding Diagnosis)方法,来完成数据缺失情况下根据超声检测数据进行乳腺癌诊断任务。下面是KGSeD的总体框架,包括编码器和解码器两个部分。首先在编码器阶段,采用关系图卷积网络(Relational Graph Convolutional Network,R-GCN),将知识图谱中的结构信息转换为嵌入低维向量,即通过KG嵌入(KG embedding)将图谱结构信息转化为潜向量。通过潜向量的双线性函数反应图谱重建得分构建解码器,并以待测样本实体和良/恶性实体之间关联的连接重建,预测乳腺癌是良性还是恶性,从而实现病患的计算机辅助诊断。

下面详细介绍一下编码器和解码器两个部分。下图中malignant节点表示恶性,benign节点表示良性,图谱中的病患样本实体与良恶性两实体存在连接关系则为已知病患的良恶性情况。由于知识图谱存在不同类型的边,因此编码器采用关系图卷积网络(R-GCN),图中用不同颜色的圆点来表示。具体而言,R-GCN会把不同类型的边抽取出来,每种类型的边都会对应一组邻居节点,进而为这些邻居节点赋予向量,网络通过多次迭代,这些邻居节点的向量可以近似预测当前节点向量,从而可以实现原始图谱的近似恢复。此外,由于每个关系都会由一个权重向量,随着关系的累积,权重参数越来越多,因此增加了低秩正则化来防止过拟合。
在解码器部分,通过已经得到了实体/关系的潜向量,对原始图谱进行近似恢复。这里采用一个运算量较小的经典方法DistMult。前面讲到知识图谱中的三元组分为三个部分:主语,谓语,宾语。DistMult设定主语、谓语、宾语三个向量维度相同,然后将三个向量的每个维度对应的元素相乘后相加,具体操作会把第一个向量转换为行向量,第二个转换为对角矩阵,第三个转换为列向量,三者相乘可以获得重建分数,分数数值越大则认为三元组存在的可能性越高。随后经过sigmoid激活函数,将邻边预测结果值转换为一个概率。样本点与良性和恶性都会有相应概率,概率更大的结果则为最终预测结果。
在模型迭代优化时,采用已知链路和所预测链路的交叉熵作为损失函数,采用Adam优化器进行优化,将解码器的重建损失作为反馈,从而实现编码器和解码器共同训练,最终得到的诊断模型。
235518f7mw2arbznbadbba.png

03
 实  验
数据集:
由中山大学肿瘤防治中心收集的数据,共1488例,其中401例良性,1087例恶性。数据集标注由三位5年以上经验的超声科医生完成,我们通过方差分析选择了18个特征进行实验。
Baseline与评估指标:
235518gryoqooyqsos1o1p.png

实验结果:
下面是本文方法(KGSeD)与其他基准方法的5哲交叉验证对比,本文方法的从准确率与F1得分方面均在此数据集取得最优性能。
235518ogzrbtib5ru1kzj1.png

下面是本文方法KGSeD与其他基准方法在数据缺失情况下性能对比实验,本文方法在不同缺失率情况下均取得最优性能。
235519ih7333jgx3tlgh33.png

下面是在不同的数据缺失率下,各种方法的相对性能下降柱状图,本文方法KGSeD在各个缺失率下的性能下降的都比较小,体现了较强的数据缺失容忍性。
235519u41yvwyyb4wfgflf.png

04
 总  结
本文所提出的容忍数据缺失临床超声报告知识图谱乳腺癌诊断方法,通过开放世界假设有效回避了数据缺失问题,通过基于关系图卷积网络的编码解码框架实现了数据缺失情况的诊断推理,实验结果表明本文方法对数据缺失具有更强的容忍性,更适合应用于真实临床场景。


论文链接:

https://dl.acm.org/doi/10.1145/3447548.3467106
点击“阅读原文”,即可观看本场回放
整理:爱 国
审核:习佳宁
直播预告
235520wy5apy3gh6nht3v3.jpeg

往期精彩文章推荐
235520mpdguz4pdm9mlkc1.jpeg


记得关注我们呀!每天都有新知识!
 关于AI TIME 
2019年,清华大学人工智能研究院院长张钹院士、唐杰教授和李涓子教授等人联合发起“AI TIME science debate”,希望用辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
AI TIME是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者创办的圈子。AI TIME旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家与爱好者,打造成为全球AI交流与知识分享的聚集地。
235520y4snjs4phnvvp8bm.png

我知道你
在看

~
235521rz1k2knjjwkzexkh.gif

点击 阅读原文 查看回放!

来源:https://blog.csdn.net/AITIME_HY/article/details/122974947
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
回复

使用道具 举报

提醒:禁止复制他人回复等『恶意灌水』行为,违者重罚!
您需要登录后才可以回帖 登录 | 注册[Register] 手机动态码快速登录 微信登录

本版积分规则

发布主题 快速回复 收藏帖子 返回列表 客服中心 搜索
简体中文 繁體中文 English 한국 사람 日本語 Deutsch русский بالعربية TÜRKÇE português คนไทย french

QQ|RSS订阅|小黑屋|处罚记录|手机版|联系我们|Archiver|医工互联 |粤ICP备2021178090号 |网站地图

GMT+8, 2024-9-20 00:07 , Processed in 0.436024 second(s), 66 queries .

Powered by Discuz!

Copyright © 2001-2023, Discuz! Team.

快速回复 返回顶部 返回列表