论文引用格式:
韩冬, 李其花, 蔡巍, 夏雨薇, 宁佳, 黄峰. 人工智能在医学影像中的研究与应用. 大数据[J], 2019, 5(1):39-67
HAN D,LI Q H, CAI W,XIA Y W,NING J, HUANG F. Research and application of artificial intelligence in medical imaging. Big data research[J], 2019, 5(1): 39-67
影像组学起源于肿瘤学领域,最早是由荷兰学者Lambin P等人于2012年正式提出的,即高通量地提取大量描述肿瘤特性的影像特征。同年,Kumar V等人进一步对概念进行了完善,即影像组学是高通量地从MRI、PET及CT影像中提取大量高维的定量影像特征,并进行分析。影像组学将传统的医学影像转化为可挖掘的高通量影像特征,用于定量描述影像中的空间时间异质性,揭示出肉眼无法识别的图像特征,有效地将医学影像转换为高维的可识别的特征空间,并对生成的特征空间进行统计学分析,从而建立具有诊断、预后或预测价值的模型,为个性化诊疗提供有价值的信息。近年来,该领域成为研究热点,以Radiomics为关键词从Web of Science数据库中检索近10年的相关SCI论文发表情况,发现自2012年正式提出影像组学概念以来,2013年关于影像组学的论文只有7篇。而2018年1月至11日,影像组学论文发表量已经高达600余篇(如图4所示)。
3.1.2 影像组学在医学影像分析中的应用
作为医学领域一种新兴的研究方法,影像组学利用信息挖掘等信息技术,通过从不同模态的影像中提取定量的高通量影像特征,在一定程度上实现了感兴趣区域异质性的诊疗和预后评估。例如Aerts H J等人于2014年回顾分析了1 019例肺癌和头颈癌患者的CT影像,利用影像组学分析方法,非侵入式地分析了影像特征与临床分型、基因表达图谱的关联性,揭示了影像特征与基因表达的潜在关系,提出了一种可以量化和监控治疗期间肿瘤表型改变的方法,引发了国内外影像组学研究的热潮。Cui Y等人回顾分析了两个研究中心79例胶质母细胞瘤患者的资料信息,从T1增强序列和磁共振成像液体衰减反转恢复序列(FLAIR)两个模态的MR影像中提取了多区域的影像特征,将影像特征与患者总生存期进行了关联性预测分析,采用多参数的LASSO回归,构建了患者总生存期预测模型,提供了一种肿瘤内部子区域分割方法,验证了影像组学可以为患者提供具有生存期预测价值的信息。Huang Y Q等人回顾分析了500余例进行结直肠癌手术的患者资料,利用影像组学方法,对影像特征和临床病理特征(血清标记物和临床指标)进行关联性分析,构建了结直肠癌淋巴结转移术前预测模型,与传统CT影像学评估相比,影像组学预测模型术前淋巴结预测准确率提高了14.8%,为医生进行结直肠癌的术前决策提供了重要参考。目前,影像组学被用于多种疾病的良恶性判定、生存期预测、生物分子标志物状态及淋巴结转移风险等,为医生的诊断、治疗决策、预后管理等提供了具有参考价值的预测模型,具有重要的临床价值和应用前景。
无监督学习方法也是一个活跃的研究领域。Suk H I等人将fMRI图像分类,得到健康或轻度认知障碍的诊断,使用RBM的堆叠结构学习不同大脑区域之间的分层功能关系。
3.2.2 检测
计算机辅助检测(computer-aided detection,CADe)是一个重要的研究领域,因为在检查中遗漏病变会对患者和临床医生产生严重后果。CADe的目标是在图像中定位异常或可疑区域,从而提醒临床医生。CADe旨在提高患病区域的检出率,同时降低假阴性率。Shin H C等人评估了5种CNN结构,用于CT扫描检测胸腹部淋巴结和间质性肺病。检测淋巴结很重要,因为它们可能是感染或癌症的标志物。他们使用GoogLeNet获得了纵隔淋巴结检测模型,AUC(area under curve)评分为0.95,灵敏度为85%。Becker A S等人通过训练模型从乳房钼靶图像中检测乳腺癌, AUC评分为0.82,与经验丰富的放射科医师相当。Wang X等人采用T2加权MR图像训练CNN模型,用以检测前列腺癌, AUC评分为0.84,明显高于传统的机器学习方法(如基于尺度不变特征变换特征的支持向量机模型,AUC为0.70)。
DeepLesion是迄今全球规模最大的多类别、病灶级别标注的开放获取临床医疗图像数据集,含有32 735个带标记的病灶实例,包括来自全身各个部位的关键影像学发现,比如肺结节、肝肿瘤、淋巴结肿大等。Yan K等人基于DeepLesion数据集,开发了一种通用的病变检测器,为帮助放射科医生找到患者身上所有类型的病灶提供了技术可能,如图8所示。通用病灶检测的难度远高于特定病灶检测, DeepLesion中包含肺、肝、肾、淋巴、胰腺、骨骼、软组织等各种病灶,病灶类内差异大,类间差异小(肺、肝的病灶相对容易检测一些,而一些腹腔中的病灶与周围正常组织差异较小)。为了改进病灶检测的精度,Yan K等人又提出了一种利用3D信息的检测算法,将病灶识别准确率提高到了84.37%。
图8 基于DeepLesion构建的通用病灶检测流程
组织病理学图像目前也越来越数字化,Ciresan D C等人使用11~13层CNN识别来自MITOS数据集的50个乳房组织学图像中的有丝分裂图。他们的方法分别达到了88%的精确度和70%的召回率。Yang X L等人使用5~7层CNN将肾癌组织病理学图像分类为肿瘤或非肿瘤,达到97%~98%的准确度。Sirinukunwattana K等人使用CNN检测100个结肠直肠腺癌组织学图像中的细胞核。
3.2.3 分割
CT和MRI的图像分割研究涵盖了肝脏、前列腺和膝关节软骨等多种器官,但大量工作主要集中在脑部图像分割,如肿瘤分割。肿瘤分割在外科手术计划中尤其重要,可确定肿瘤的确切边界,指导手术切除。Moeskops P等人通过集成3个CNN模型,将22个早产儿和35个成人的MRI脑图像分类和分割成不同的组织类别,如白质、灰质和脑脊液,该算法Dice系数在0.82和0.87之间。大多分割研究是关于二维图像切片的,但Milleterai F等人应用三维CNN分割了来自PROMISE2012挑战数据集的MRI前列腺图像。受到参考文献[6]中U-Net架构的启发,他们提出了V-Net,并在MRI前列腺扫描中进行了训练,Dice系数为0.869。Stollenga M F等人使用3D LSTM-RNN在6个方向上对脑部MR图像进行了分割,用金字塔方式重新排列了MD-LSTM中传统的长方体计算顺序,在2015年MRBrainS挑战赛中取得了很好的分割结果。Andermatt S等人使用带有门控单元的3D RNN分割脑MR图像中的灰质和白质,结合数据预处理和后处理操作,进一步提高了分割准确率。Singh V K等人提出了一种基于条件生成对抗网络(conditional generative adversarial network,cGAN)的乳腺肿块分割方法,生成网络不断学习肿瘤的内在特征,对抗网络不断进行强制分割,该方法在乳腺钼靶数据库(digital database for screening mammography,DDSM)公开数据集和内部数据集中提取的数十个恶性肿瘤上进行了验证,获得了0.94的Dice系数和0.89的Jaccard指数,如图9所示。
图9 基于cGAN的乳腺肿块分割和形态分类流程
3.2.4 配准
图像配准用于神经外科手术或脊柱外科手术,以定位肿瘤或脊柱骨界标,便于手术切除肿瘤或植入脊柱螺钉。Yang X等人使用来自开放获取系列影像研究(open access series of imaging studies,OASIS)数据集的MRI脑部扫描,以编码器-解码器方式堆叠卷积层,以预测输入像素将如何变形为最终像素。他们引用了高度形变微分同胚度量映射(large deformation diffeomorphic metric mapping,LDDMM)模型进行配准,同时在计算时间方面也取得了显著的进步。Miao S等人在合成X射线图像上训练5层CNN,以便将膝关节植入物、手部植入物和经食道探针的三维模型配准到二维X射线图像上,以便估计他们的姿势。Yan P等人提出了对抗图像配准网络(adversarial image registration,AIRnet)配准框架,应用于MR和经直肠超声(TRUS)图像融合配准,训练生成器和判别器两个深度神经网络,不仅可以获得用于图像配准的网络,还获得可以帮助评估图像配准质量的度量网络,如图10所示。
深度神经网络模型在图像视觉识别中表现卓越。主流的、应用效果较好的深度神经网络计算机视觉模型大多基于有监督的训练过程,而有监督的训练过程依赖于大规模高质量的有标注数据集。现有的大规模图像数据集(如ImageNet)通过AMT (Amazon mechanical turk)等大量人工操作完成图像标注。在医疗影像的辅助诊疗等应用场景下,众多的研究机构和公司投入了大量的资源用于构建更大规模的有标注的医疗影像数据集。
然而,在医疗影像研究方面,通过人工方式对医疗影像进行标注构建训练数据集具有非常大的挑战性,标注者需要具备相当程度的医学专业知识,不能像普通的图像标注任务一样进行众包。另外,医疗影像的标注工作要求更加细致,病灶的人工识别过程往往需要仔细阅片,并尽可能地发现和准确标注微小病灶,标注速度慢,标注成本高,因此很多情况下标注的准确度往往不令人满意。
现代医院已经逐步完成了信息化改造,并逐步向更加标准化、数字化的方向发展,医疗影像归档与通信系统(picture archiving and communication system, PACS)中不仅包含大量的医疗影像,也包含与其相关的各种文本报告,这些文本报告中含有相当多的专业诊断信息。使用自然语言处理技术从这些文本中提取有价值的标签,对相关的影像进行标注,是自动化生成有标注影像数据集的一种有效途径。
4.2 医学影像领域结合自然语言文本处理的研究进展
Schleg T等人最先发表了“用文本报告代替人工标注医疗影像”的研究。在研究中收集使用了157例频域光学相干断层扫描技术(spectral-domain optical coherence tomography,SD-OCT)的视网膜图像和相关的文本报告,通过自然语言处理技术挖掘文本报告中与病理相关的物体信息,对图像进行“某(病理相关的)物体是否出现”的标注,在此基础上训练CNN模型,训练得到的模型可根据视网膜影像预测“视网膜内囊样液体(intraretinal cystoid fluid,IRC)”“视网膜下液体(subretinal fluid,SRF)”“视网膜正常”3种结果。在具体实验中, Schleg T等人使用SVM对报告文本进行解析,挖掘出“与病理相关的物体”和“位置”的对结构([obj, loc]),在此基础上,构建([物体1, 有/无],[物体2, 有/无],…)的向量,作为标签对影像数据进行二分(出现或未出现)标注,并训练CNN模型。
Shin H C等人构建了包括78万例来自PACS的CT/MRI影像(含头、胸等多个身体部位)和文本报告的数据库,使用基于隐含狄利克雷分布(latent dirichlet allocation,LDA)主题模型的文档主题学习(document topic learning),分层次挖掘文本报告中的词汇,对影像进行标注,并训练深度CNN模型,训练的模型可以根据CT/MRI影像生成来自3个不同层级的词汇。Shin H C等人对文本报告的L DA挖掘是分层次的,包括顶级词汇(如“MRI”“胸”)、次级词汇(如“肿块”“增强”),目的是挖掘文本报告中尽可能多的“潜在主题”。在此基础上,使用ImageNet的预训练模型(pre-trained model),以主题词作为标签,对影像进行迁移学习,通过预训练模型进行微调,得到初始CNN模型。为了得到更好的“图像到文本”的输出,Shin H C等人使用了一系列自然语言处理技术:通过文本向量化(word to vector)建模和Skip-Gram建模去除词汇级别的歧义;利用疾病本体知识(disease-ontology)构建二元语法语言模型(bi-grams),进行影像与“病理文字描述”之间的关系挖掘匹配。主题词是分层次的,训练得到的CNN模型预测结果也是分层次的,最终得到的CNN模型可以根据影像生成3个不同层级的输出词汇,如图11所示。
图11 分层次的主题词输出
Wang X S等人提出了参考文献中的两个问题:类别极度不平衡(最多的类别包含113 037个图像,某些类别仅包含几十个图像);类别不是“视觉关联”的,导致Shin2015训练出的CNN模型不像ImageNet的CNN模型那样适合用来迁移学习。
为了解决以上问题,Wang X S等人设计了LDPO框架(looped deep pseudo-task optimization framework),如图12所示,该框架的核心思想如下:
训练CNN模型的过程中,当聚合出未知的类别时,使用“伪标签”进行标注(而不是先从文本报告中挖掘标签标注);
使用通用的ImageNet预训练CNN模型和通过文本挖掘出主题标签(topic label)的CNN模型进行特征提取与编码,不断迭代优化;
当图像聚类相对稳定时,对每个聚类对应的文本报告分别进行语义标签挖掘。
Wang X S等人使用和Shin2015相同的数据集进行实验,得到了更优的语料标签输出和更适合迁移学习的模型。
图12 LDPO框架
Shin H C随后基于医学主题词表(medical subject heading,MeSH)标签进行了X光胸片的研究,此研究的关注点是通过CNN-RNN联合学习(joint learning)训练可以生成X光胸片影像描述(主题)的模型。Shin团队使用的数据集是OpenI中的部分X光胸片影像(已有MeSH标注)和文本报告。MeSH是一种对影像数据的标注标准,数据集中的所有影像已经打好MeSH标签(如图13所示),包含17种疾病的标注模式(disease annotation pattern)。Shin首先对这些打好MeSH标签的影像数据进行迁移学习,完成图像的初始编码,得到初始的CNN模型。
Wang X S等人提出要建设大规模多标签胸片X光影像数据集ChestX-ray8,以解决医疗影像领域缺乏已标注数据库的难题。Wang X S的团队从PACS中采集了32 717个病人的脱敏数据,包含108 948张X光正片,并使用人机联合的方式(基于少量人工标注的弱监督学习方式)对疾病类型和位置进行了多标签标注,如图15所示。
图15 参考文献中的8种常见胸部疾病
使用自然语言处理技术挖掘文本报告中的8种常见病。具体步骤包括:使用DNorm和MetaMap挖掘文本中的病理关键词(疾病名称和疾病相关的实体),并使用Python开源自然语言处理工具包(natural language toolkit,NLTK)和布朗实验室的语言信息处理分析器(David McClosky模型)处理文本中的模糊词和否定词(如“疑似气胸”“并非气胸”等)。在此基础上,使用8种疾病名称作为标签对图像进行第一轮标注。利用第一轮标注结果(8种疾病标签),在每种疾病中选出200个实例(共1 600个实例),并由一名专业医师通过边界矩形框(bounding box, B-Box)方式标注出每种疾病的位置,保存在XML中,作为后续CNN训练的基础。深度学习训练过程中用到了ImageNet的预训练模型(即AlexNet、GooLeNet)以及VGGNet-16和ResNet-50等模型。最终训练的模型可用于标注胸片X光影像中的疾病和位置。
在后续的研究中,Wang X等人进一步通过扩展论文的arxiv版本建设ChestXray8库,扩充影像实例,加入更多的疾病类型的标注,形成了Chest X-ray14数据集,并进一步提出了RNN-CNN结合方法基于该数据集的影像分类模型,该数据集是目前有标注的规模最大的医疗影像开放数据集,其中包含14种疾病、30 805名患者的112 120张前胸X光图片。
ChestX-ray14的超大规模迅速吸引了诸多研究者在该数据集上进行研究, Yao L等人在数据集上训练了基于LSTM的分类模型,取得了平均80%以上的准确率;吴恩达团队的Rajpurkar P等人基于ChestX-ray14数据集训练了一个121层的卷积神经网络CheXNet,并取得了平均84%以上的准确率,并在数个疾病的分类准确率超过了90%,研究人员在文献中称“新技术已经在识别胸透照片中肺炎等疾病的准确率上超越了人类专业医师”。
另外一种自动化的数据集构建趋势也值得关注,参考文献首先在12 600张无标注影像数据中人工标注了100张影像数据,通过学习100张少量的人工标注数据,构建对无标注数据的粗糙标注后由人工进行审核,并将人工审核通过的数据作为标注数据进行下一轮迭代,整体进行6轮迭代后,得到了较高质量的半自动化手部骨骼影像数据集。
随着医疗人工智能场景落地的需求加剧,工业界也注意到了利用文本挖掘技术辅助构建医疗影像有标注数据集的应用前景。在一些工作中,应用自然语言处理结合图像认知模型赋能真实世界临床数据,通过人在环路(human-in-the-loop)的方法,迭代构建基于临床数据的有标注、标准化、大规模数据,通过医工结合和医学研究大数据的方法,有望夯实医疗影像分析的数据基础,实现医疗影像辅助诊断、影像智能设备、影像自诊等智能场景的大范围突破。