原文:2nd place solution for the 2017 national datascience bowl 翻译参考:知乎用户王小新 Kaggle百万美元大赛优胜者:用CNN识别CT图像检测肺癌 概要
本文为2017年由Kaggle举办的数据科学竞赛的第二名获奖者Julian de Wit的部分解决方案。Julian de Wit和Daniel Hammack通过构建3D卷积神经网络创建肺结节探测器,预测患者患癌的可能性。Wit的开发环境为Windows版的Tensorflow和Keras库。
Kaggle在该比赛中提示参赛选手可参考之前的LUNA16竞赛。该竞赛采用的数据集是由公开数据集LIDC-IDRI转化而来的,医生为800多个病人的CT图像标记了1000多个肺结节。因此,可以从整张CT图像中的标记周围裁剪出小型3D图像,将这些小型3D图像与结节标记直接对应,从而利用神经网络学习这些特征,训练出一个神经网络来检测肺结节,并评估结节的恶性程度,预测患者患癌的可能性。其中,预测时神经网络通过滑动窗口的方式来遍历整张CT图像,分别判断每个滑动窗口所包含的区域是否含有恶性信息的可能性。
数据预处理和创建训练集
数据预处理
在预处理过程中,首先对CT图像进行缩放,保证图像中的每个像素点只表示 1 m m 3 1mm^3 1mm3的体积;然后将CT图像的像素强度转换为HU值,并最大化HU值后进行归一化处理;最后,确保所有CT图像都具有相同的方向。
训练集构建