在线
写在前边
本文主要介绍了公开发表 的利用AI进行乳腺癌病理诊断相关信息,希望以朴素的文笔和表达来介绍我对这个领域的一个小小认识,期待各位的指点指教。
本文所提到的所有信息均已经注明来源,是笔者为自己科普的自我总结,绝不能作为任何诊断依据,请读者自我关照,谨遵医嘱。
世界卫生组织宣布乳腺癌成为全球最常见癌症,这意味着什么?一种患者几乎全是女性的癌症,能够成为全球最常见的癌症,足够说明其高发的特性和危险,关爱乳腺健康刻不容缓。随着AI技术的逐步发展,AI病理诊断也将会(或者未来会)助力多种癌症监测和诊断。目前已经有一些技术是针对乳腺癌而展开的,本文是作者对这个领域的管中窥豹。
本文将围绕以下三个问题展开:
为什么要使用AI进行癌症病理诊断?
AI如何进行病理诊断,(和病理医师相比)AI的诊断水平如何?
AI病理诊断现状和展望
在回答这个问题之前,我想先根据我自己的理解说明一下什么是病理诊断,让不太了解这个领域的读者有个初步的认识。一般人们觉得不舒服时,会去医院看医生,医生会对患者“望闻问切”,也会让患者做一些相关的体格检查或影响检查。如果经过检查发现疑似肿瘤,这时候就需要对疑似病灶进行病理学检查(提取病理标本,染色,固定,进行组织学检查),通过病理诊断这个“金标准”判断疑似病灶是否是癌症,如果确认是癌症,则再进一步判断是什么癌症。
医院有专业的病理科负责病理学检查和诊断。病理诊断是一个劳动密集且非常容易出错的过程。若以HE染色(hematoxylin-eosin staining)的乳腺癌切片为例,一张切片在40X显微镜下查看等同于查看不少于11张的300dpi的A4纸,一个病人有多张切片,可以想象这个工作量。而且培养一个病理医师要耗时数年之久,资深的病理科医师非常宝贵。随着近些年癌症发病率提升,病理诊断出现严重的劳动力缺口也是可以预计的问题。那么,用AI进行病理诊断来减轻病理医生的工作量是不是很有必要呢?
2. AI如何进行病理诊断,(和病理医师相比)AI的诊断水平如何?
AI病理诊断要利用深度神经网络学习大量被精确标注的病理切片后自动预测输入的病人病理切片中的肿瘤以及其具体的位置。在这一部分,我想介绍一篇Google Brain发表于2017年的一篇有关乳腺癌的文章“Detecting Cancer Metastases on Gigapixel Pathology Images”[1]来使读者了解乳腺癌AI诊断的三个基本方面:数据,算法和评估方法。
数据
谷歌在上述文章中的使用了两种数据,一是Camelyon16[2]竞赛集数据,二是谷歌数字化的额外的数据集NHO-1.
Camelyon16竞赛采用来自两所欧洲医学中心的乳腺癌病理切片数据。所有数据是HE染色固定的数字化病理切片和由数位病理专家对照免疫组化结果穷尽标注了所有肿瘤区域的标注文件构成。共有270张标注的slide(切片或载玻片)用作竞赛训练集(其中有159张normal 切片和111张有肿瘤的切片),130张用作竞赛测试集(后续竞赛官方公布了标注文件)。
NHO-1使用了从20例患者(86个生物组织块)中提取的H&E染色的淋巴结中的另一组110张切片(其中57个切片包含肿瘤),由经过认证的病理专家进行标注。
算法
谷歌使用了基于Inception(V3)的patch-level分类器来预测是否存在肿瘤以及肿瘤的粗略位置。没有使用pixel-level的分割模型有两个原因:1. Cameylon16数据并不是完完全全能达到像素级标注的,也就是说,如果作为像素级标注真值来看,训练数据有标注误差。2. Camelyon16竞赛的两个评估准则AUC和FROC[3]并不需要像素级的预测。
简要概括一下该算法就是:训练阶段从训练数据根据一定比例和规则对normal和tumor的切片进行随机采样299x299大小的patch,但只根据中心128x128区域patch的label进行反馈训练,训练时只要patch中心区域有一个tumor像素,则该patch为tumor;测试时以128x128的大小对待测切片进行滑窗采样,再对该区域进行预测,最终该patch的预测结果是八种增强后预测结果的平均值。将某张测试切片所有patch的预测结果拼起来,就能得到这张切片的肿瘤预测概率热力图(如下图[4]所示),patch的颜色越深,代表是肿瘤的概率越高。
肿瘤预测概率热力图示意得到肿瘤预测概率热力图后,热力图的中最大的概率就是整个slide的肿瘤预测概率。Camelyon16竞赛还要求预测每一个切片中肿瘤的位置。这里可以用两种方法:1. 将得到的热力图按照一定阈值二值化后,可以得到多个肿瘤的连通域,每一个连通域可以看出一个肿瘤区域,从而得到某个肿瘤区域的坐标和预测概率(这一步还有一些细节操作,不再赘述,感兴趣的读者自行查阅)。2.使用和谷歌类似的非极大值抑制方法,直接得到肿瘤位置和预测概率的数值。个人觉得第一种方法更直观,也更容易进行后续的诊断。谷歌的方法可能对于Camelyon16竞赛更有效。
评估准则(待补充)
AUC
Area under receiver operating characteristic, (Area Under ROC, AUC),也就是ROC曲线下方面积。这是一个机器学习中常用的模型评估指标。在这里用它来衡量切片级别的分类精度。
FROC
Free Response Operating Characteristic (FROC) curves. 用来评估肿瘤检测定位的性能。它和上述中使用到的ROC曲线的区别之处在于x轴上的误报率被每个图像的误报平均数所代替。这里的每个图像的误报是根据上文算法里得到的“肿瘤区域坐标-预测概率”的list,然后和标注文件中的肿瘤位置对比得到的。所有落在标注肿瘤区域外的预测坐标就是一个“假阳性”(false positive)。
文章的结果如下图所示[5]。2到9行是谷歌的多组不同实验条件下的结果,可以看出在FROC评估准则下,大部分超越了人类病理专家[6]和Camylon16竞赛的冠军。在平均每张图8个FP的条件下,谷歌的AI诊断模型性能也远远超过了其他两者。在图片级别肿瘤分类的AUC指标下,谷歌的模型和人类病理专家的标注水平相当。
笔者注:根据笔者对其他Camelyon16文献 [7]的数据梳理,竞赛官方的AI诊断模型和人类病理专家的对比结论是:1.AI诊断模型和人类病理专家在有时间约束(2h)的条件下进行标注时,AI诊断模型表现明显优于人类专家;2.无时间约束时,两者表现相当。
现状
AI在乳腺癌病理诊断领域在少量人工整理的干净样本(如Camleyon竞赛)上超越了人类,而且在速度上非常有优势,应该能够有效帮助病理诊断劳动密集的问题,前景广阔。但在实际应用推广中还存在一些难点和问题。
数据的质量问题。实际医疗领域真实数据的获取非常困难,获得的数据质量很不稳定,噪声很多,此时算法的鲁棒性和稳定性将会受到极大考验。极端情况下可能出现超长延时,超高错误率等情况,无论是哪一种,都是实际临床所无法接受的代价。
深度学习算法自身存在的置信度问题。深度学习算法是非确定性预测,是一个黑盒,既无法得知其预测机理,也无法保证结果百分之百正确,对错误的预测也难以溯源。人命关天的病理诊断领域,如果因为错误预测,轻则病人良性组织被误切,重则因为假阴性预测而使得癌症扩散,病人生命受损。
AI病理诊断目前看来可以用作辅助诊断,但不能脱离病理医师独立使用。当然AI助手和人类医师预测结果相反时如何抉择,谁来承担预测带的后果,这些问题都是尚未涉及和讨论过的。
展望
一般来说,AI在医学领域的应用主要包括三个方面,如下图所示[8]:
AI病理诊断是AI在临床中的一个应用,对于人的健康管理来说,已经属于“君有癌在腺体,不治将恐深”。个人认为如果能够建立以人单位的健康管理,从饮食作息,到健康管理,再到及时的疾病发现,为每个人建立电子病历,掌握和预测临床参数,防患于未然,防疾于腠理,是非常有意义的。当然,建立一套系统,打通一个产业,绝非纸上谈兵能做到,需要克服的障碍,调动的资源不是散兵游勇可行。这里也非常期待能够与其他AI医疗的专业人士互相讨论学习。
病理分期
病理分期pN-stage主要表明淋巴结播散情况,是常用的肿瘤分期标准TNM分期中的一种(T是表征原发肿瘤的范围和大小,M是表征是否存在转移)。下图是乳腺癌的病理分期说明[9]。从下图可以看出,要确定一个病人的pN-stage,需要了解病人多个淋巴结病灶的大小和转移的情况。所以病理诊断需要对病人的多个淋巴结(前哨淋巴结和腋窝淋巴结,具体不同病人情况可能不一样,笔者不是很清楚什么时候做什么淋巴结的活检 )进行组织活检,获得组织细胞后,将其固定,包埋(embedding),切割和染色,制成载玻片(病理切片),最后用显微镜观察。
图片来源丁香园,http://www.dxy.cn/bbs/topic/43041293数字化病理切片
AI使用的是数字化的病理切片,来源于一种叫全玻片扫描仪的仪器。全玻片扫描仪能够对病人的病理切片进行高分辨率扫描,并得到数字化的全幻灯片图像(Whole-slide-image)。用作AI训练的病理切片的标注来自著名医院的病理专家。有了这些高分辨率的数字病理图片以及医院病理医师对癌症区域的标注,目前的AI算法才能大显身手。通过学习高精度图片和对应的高准确率的专家标注的ground truth,AI算法能够自动预测病理切片的癌症区域,然后根据同一个病人多个淋巴结的预测癌症转移(cancer metastases)合成病理分期的结果。下图是两张来自公开数据的乳腺数字病理切片及其局部标注图片[10]。
局部病理切片,数据来源https://camelyon16.grand-challenge.org/Data/癌症转移(肿瘤)区域和正常区域,图片来源https://camelyon16.grand-challenge.org/Data/
注:本文题图来自Home - Grand Challenge
写在后边
文章初版写于农历新年之前,初衷已不可考。写完之后幸得有不愿意露面的朋友提了几个非常中肯且有建设性的意见,在那些意见之上,最终修改成此文。
参考
^https://arxiv.org/abs/1703.02442
^https://camelyon16.grand-challenge.org/
^https://camelyon16.grand-challenge.org/Evaluation/
^Fig7 https://arxiv.org/abs/1703.02442
^Table 1 https://arxiv.org/abs/1703.02442
^https://camelyon16.grand-challenge.org/
^Bejnordi, Babak Ehteshami, et al. "Diagnostic assessment of deep learning algorithms for detection of lymph node metastases in women with breast cancer." Jama 318.22 (2017): 2199-2210.
^https://link.zhihu.com/?target=https%3A//www.nature.com/articles/s41591-018-0300-7
^http://www.dxy.cn/bbs/topic/43041293
^https://camelyon16.grand-challenge.org/
来源:https://zhuanlan.zhihu.com/p/349917515
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!