关注我们
AI TIME欢迎每一位AI爱好者的加入!
医学领域经常存在样本短缺或数据缺陷的问题,在医学领域数据层面造成严重干扰。鉴于临床报告因登记过程的数据遗漏,诊断报告数据缺失问题会造成现有方法推理无效。尽管现有方法在解决数据不精确方面取得了进展,但几乎所有这些方法都无法接受缺失数据输入。缓解数据缺失问题的一种常见策略是用人造数据对缺失值进行填充。然而,数据填充策略在实际上会引入原始数据中并不存在的额外噪声。为回避数据填充带来的噪声污染,本报告展示一种数据缺失容忍性的语义知识泛化推理模型,在构建智能诊断算法时引入了开放世界假设,将临床超声报告中的缺失数据视为尚未观察的事实。该方法基于编码器-解码器的框架设计,其中编码器通过图谱嵌入而获得图谱结构信息,解码器通过推断患者与临床结果的关联而进行泛化推理诊断。对数据缺失场景,所提出方法对数据缺失表现出更好的容忍性。
本期AI TIME PhD 直播间我们邀请到西北工业大学副教授——习佳宁,为我们带来报告分享《容忍数据缺失的临床超声报告知识图谱乳腺癌诊断》。
习佳宁:
西北工业大学副教授,2009年保送至中国科学技术大学(全国中学物理竞赛奖,免高考)并于2013年获学士学位,随后推免至中国科学技术大学硕博连读,并于2018年获博士学位。2018年至2019年于西安电子科技大学任职讲师,2019年9月起西北工业大学从事博士后,并于2021年7月晋升副教授。曾获国家奖学金、研究生国家奖学金、安徽省普通高等学校品学兼优毕业生等多项荣誉奖励。于2014-2015年担任IEEE国际电气电子工程师协会学生分会主席。2020年荣获西安市自然科学优秀学术论文奖(排名第一)科研奖励。目前主持NSFC青年科学基金项目1项,主持博士后面上项目1项。担任国际SCI期刊Frontiers in Genetics、Mathematical Biosciences and Engineering客座编辑,还担任国际期刊Bioinformatics、Zoological Research、Genomics, Proteomics & Bioinformatics等SCI期刊审稿人,还担任CVPR、ICCV、BIBM、ICME等国际会议审稿人。已发表学术论文26篇,其中本人第一作者发表14篇,通讯作者3篇,包括SIGKDD(知识挖掘顶级国际会议,CCF A类)、Bioinformatics(生物信息学国际顶刊,本人一作)、TCBB(生物信息学国际权威期刊)等。 01 背 景
对于人工智能辅助诊断模型来说,医学超声图像相比于更加标准化的CT图像或者磁共振(MRI)图像,其成像效果与医生的检查手法密切相关。在相同场景下,医生的手法动作稍有差别,便会导致成像结果的图像存在差异。因此,相比于CT和MRI给出的标准化横截面来说(下图左),医学超声成像是一个非标准化的过程,所给出的图像也存在较大差异(下图中右)。但对于人工智能模型而言,非标准化的输入会使得模型构建存在困难,因此需将非标准化的超声图像转换成标准化输入格式。
关于乳腺超声图像的标准化表述,目前已经存在BI-RADS(Breast Imaging Reporting and Data System)国际标准,该表征可有效描述图片所含的常见语义,比如形状、存在毛刺、是否钙化等。通过使用BI-RADS,可将非标准化的乳腺超声图像转换成标准化的医学报告。进而,将医学超声的BI-RADS语义特征作为标准的输入,可有效缓解数据非标准化对智能辅助诊断系统的负面影响。
具体而言,乳腺癌BI-RADS报告示例如下图所示,其报告内容由医生根据超声图像分别填写其相关BI-RADS语义特征。然而在实际临床场景中,超声图像中的一些特征往往难以分辨,而医生无法判断具体属性,从而造成报告的部分BI-RADS特征未观察或者未填写,最终导致报告语义特征存在数据缺失。
记得关注我们呀!每天都有新知识!
关于AI TIME
2019年,清华大学人工智能研究院院长张钹院士、唐杰教授和李涓子教授等人联合发起“AI TIME science debate”,希望用辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
AI TIME是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者创办的圈子。AI TIME旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家与爱好者,打造成为全球AI交流与知识分享的聚集地。