基于非霍奇金淋巴瘤分类的深度学习方法研究
作者: 李欣 侯莹 李宏博 贾美娟 仲晓庆摘要:近年来,随着国家层面对“AI+医疗领域”的重视,医疗人工智能研究得到快速发展。深度学习作为人工智能领域的一个重要分支,具有强大的数据处理能力,已逐渐应用在智能医疗影像辅助诊断方面。文章对基于深度学习的非霍奇金淋巴瘤数字病理学图像分类技术进行了概述和总结,并重点阐述了卷积神经网络对病理学图像分类。最后,对深度学习在淋巴瘤诊断、预后和治疗中面临的挑战分享了观点。
关键词:深度学习;非霍奇金淋巴瘤;医学图像;特征提取 ;图像分类
中图分类号:TP301 文献标识码:A
文章编号:1009-3044(2022)10-0071-03
淋巴瘤俗称“淋巴癌”,是淋巴T细胞或B细胞的克隆性恶性肿瘤。根据世界卫生组织的淋巴恶性肿瘤分类标准,全世界每年有28万人被诊断为淋巴恶性肿瘤,其亚类型超过百种。淋巴瘤通常可分为霍奇金淋巴瘤和非霍奇金淋巴瘤(Non-Hodgkin’s lymphoma,NHL) 两大类。其中,NHL约占所有淋巴瘤数量的80%~90%,也是全球10种最常见的癌症亚型之一[1]。2020年,美国共有77240例新病例和19940例癌症相关死亡是由NHL造成的[2]。由于NHL每个亚型的治疗策略和预后不同,因此,通过病理诊断确定正确的亚型至关重要。恶性肿瘤诊断方法仍然广泛使用传统的组织病理学分析。在NHL的诊断和分型过程中,通常需要临床学、血清学、形态学和细胞遗传学信息。病理诊断过程十分依赖病理学专家经验和医疗检测设备,而诊断结果却受多种因素影响。即使有经验的血液病理学家,有时也很难做出标准化的诊断。因此,利用计算机进行辅助诊断(computer aided diagnosis,CAD) ,建立标准化的诊断程序有着巨大的潜力。
随着显卡GPU的算力不断提高,深度学习方法可帮助病理学家进行辅助诊断,从客观性和一致性上提高诊断的效率。研究人员已经专注智能医疗细分领域——医疗影像与诊断,尝试利用智能医疗方法自动识别淋巴瘤的组织病理学特征。因此,深度学习用于CAD方面具有很高的理论价值和实用价值。在本文中,对近年来基于深度学习方法的NHL病理图像、影像分类技术进行了分类和概述,并提出了当前技术存在的困难。
1 数字病理学图像与深度学习
1.1 数字病理学图像
组织病理学涉及检查由组织、细胞等组成的微观载玻片。目视检查组织病理学载片是病理学家评估淋巴瘤类型、阶段和亚型的主要方法之一。 随着高性能扫描机、大容量存储技术迅速发展,现在已经可以将微观载玻片转换为高分辨率的数字载玻片保存到计算机中。数字病理学图像已成为疾病诊断和治疗中不可或缺的重要部分。目前,广泛应用于淋巴瘤诊断的影像技术包括:核磁共振成像(Magnetic resonance image,MRI) 、显微病理图像、全切片图像(Whole Slide Image, WSI)和PET/CT显像。相比于传统病理切片,数字病理学图像技术有利于安全存储,远程诊断和分析病理信息,为医学病理切片图像自动分级及量化分析提供了基础。
1.2 人工智能与图像分割
早期的数字病理学图像分析一般针对特定任务而设计,属于手工定制式设计方法,主要包括:边缘检测、纹理特征、形态学滤波以及构建形状模型和模板匹配等方法。机器学习作为人工智能领域的一个重要部分,以数据驱动方式分析任务,能自动地从特定问题的大规模数据集中学习相关模型特征和数据特性。通过学习,模型从训练数据中选择正确的特征,使分类器在测试新数据时做出正确决策[3]。然而,机器学习通常需要利用先验知识,从数字病理学图像中提取各种特征并依据特征进行分类。分类的效果很大程度上依赖特征的选取。近年来,得益于理论基础坚实,模型及算法不断改进,硬件计算能力不断提高和持续增长的可用数据量,深度学习方法增强了其在医疗影像与诊断领域的适用性。深度学习包含多个隐含层,通过组合低层次特征形成更为抽象的高层次表示。不同于机器学习,它可以自动生成数据的中间表示,自己学习特征。深度学习由多种算法组成,主要包括卷积神经网络、循环神经网络、自编码网络、迁移学习和强化学习等[4]。其主流框架主要有TensorFlow、Caffe、Keras、PyTorch等,特别是TensorFlow框架,在近期数字病理学图像分类中使用较多。
2 基于深度学习算法的NHL病理图像分类
2.1 基于的CNN模型病理图像分割技术
淋巴瘤的计算机辅助图像分割方法可分为三大类:基于SUV阈值、基于区域增长和基于卷积神经网络(Convolutional Neural Networks,CNN) 的方法。 在图像处理方面,CNN特征提取能力尤为卓越。它利用一种空间采样的方法发现数据间潜在的关系,因此非常适合发现高维数据中的复杂结构[5]。它已成为数字组织病理学的首选方法,其主要模型包括:LeNet5、AlexNet及VGGNet等。
2.1.1 基于增强LeNet-5网的辅助诊断
LeCun等人于1998年提出经典的CNN网LeNet-5,它包含了深度学习的基本模块:卷积层、池化层、全链接层。张剑飞等提出一种基于增强型LeNet-5的NHL辅助诊断模型。增强型leNet-5改进如下:(1) 加强了卷积特征提取的强度和密度;(2) 调整了部分模型的超参数配置和网络结构;(3) 使用全局平均池化层代替了全连接层[6]。所用数据集为网络公开淋巴瘤数据集,共374张病理图像。在预处理阶段,将数据集分割为训练集、验证集和测试集,其比例为0.72:0.08:0.2。病理图像切分规格为48×48×3大小,最后对数据集进行归一化处理。通过与原型对比,增强型LeNet-5分类精度高、模型收敛速度快,而且具有很好的稳定性和泛化能力。
2.1.2 基于DeepMedic网的辅助诊断
Penni L等人[7]研究深度学习模型在临床MRI图像中自动检测和分割原发性中枢神经系统淋巴瘤(Primary Central Nervous System Lymphoma,PCNSL)。其CCN模型采用了一种经典的医学图像分割网DeepMedic。3D CNN架构的DeepMedic具有两个相同的通道,因此适用于不同的图像分辨率,更有助于捕捉肿瘤外观特征。3D图像斑块集中在同一位置为给两条通道提供输入。对于第二条通道输入的图像,采样降到原始大小的三分之一。该网络共有11层,其核大小为33 。其中,第4、6、8和10层是残差连接,而第9和10层是全连接。在神经胶质瘤数据的训练过程中,通过沿其轴线翻转图像来进行实时图像增强。训练的批量大小设置为15,采用批归一化和参数化ReLU激活函数,损失函数为Dice相似系数。训练代数设为35,每代训练由另外20个子代组成,并从训练数据中随机提取大小为253的近1000个3D图像片段。为保证分类平衡,提取的斑块在背景和肿瘤之间的分布为50%。该策略在初次检查和治疗后的扫描图像中表现优秀。
2.1.3 基于EfficientNet网的辅助诊断
2019年,谷歌推出的EfficientNet网络模型使用一种新的模型缩放方法。不同于以前任意缩放网络的维度,它使用一个简单而高效的复合系数从深度、宽度、分辨率三个维度放大网络,获得一组最优的复合系数。Steinbuss G等人[8]训练优化了一个EfficientNet卷积神经网络算法,并评估了其对NHL的分类潜力。作者选用EfficientNet家族基准模型B0。EfficientNet网具有较少可训练权值,因此,可以使用较少的训练资源,获得更快推理速度。Tensorflow框架为模型提供的不可训练的模型参数。当对一个EfficientNet进行扩展时,批的规模通常会变小;而由于额外的权重,图像分辨率会增加,导致模型本身变得更大。文中使用Adam优化器,每个模型选择如下:使用完整的数据训练模型训练50代,不同的学习速率大致在10−5到10−6之间。然后,选择最佳的学习速率进一步训练各自的模型,直到性能不再提高。从EfficientNet每一类模型(B0-B4) 中挑出验证精度最高的模型对测试集分类。通过验证训练精度、过拟合量和精度曲线平滑度来直观地评估模型性能。研究表明,分类对四类淋巴癌有很高的准确率。作者认为复合系数似乎对NHL组织病理学图像识别有帮助。
2.1.4 基于ResNet网的辅助诊断
深度残差网络(Deep residual network, ResNet) 利用残差学习原理解决退化问题。ResNet网在VGG19网基础上修改而来,通过加入了残差单元的短路机制解决了深度CNN模型训练难的问题。Guo R等人[9]设计一种基于ResNet-18网的弱监督深度学习模型。它使用开发良好的未标记数据集预测疾病预后。ResNet-18指卷积层和全连接层带有的权重为18层。算法概述如下:在输入3D图像的尺寸后:(1) 使用标记好的数据训练获得基准模型;(2) 再使用CNN基准模型从标记和未标记数据中抽取数据;(3) 构造PNU分类器从未标记数据中生成隐式标签;(4) 再次训练标记和未标记数据获得最终诊断。总体来说,该方法能够利用不完整或缺失的随访数据改善预测。
2.1.5 其他CNN网的辅助诊断
Li D等人[10] 训练了一个高度精确的人工智能深度学习模型诊断弥漫性大B细胞淋巴瘤(Diffuse large B-cell lymphoma, DLBCL) 。为了提高诊断准确率,设计的全局优化迁移深度学习平台(GOTDP-MP-CNNs) 具有多个预训练CNN网。GOTDP-MP-CNNs为一系列医学图像应用提供了模块化的深度学习方式。该模型包括数据加载、数据增强、网络架构、损失函数和评估指标几部分。该模型最终获得接近100%的诊断率。El Achi H等人[11]尝试使用CNN算法来构建四种诊断类别的淋巴瘤诊断模型:(1) 良性淋巴结;(2) DLBCL;(3) Burkitt淋巴瘤;(4) 小淋巴细胞淋巴瘤。Xia W等人[12]设计的CNN模型利用MRI图像自动区分PCNSL和恶性胶质瘤。分别设计了单参数CNN模型,基于决策级融合的多参数CNN模型和基于图像级融合的多参数CNN模型。模型评价采用5折交叉验证法。最终,CNN模型可以在没有肿瘤描述的情况下区分PCNSL和恶性胶质瘤,达到优秀的区分效果。Miyoshi H等人[13]利用 深度学习区分DLBCL、滤泡性淋巴瘤和淋巴结节反应增生。通过病理学家和交叉验证方式对深度神经网络分类器进行评价。当分类器仅使用苏木精伊红切片图像时,就能对某些类型的恶性淋巴瘤分类取得较高的诊断准确率,其性能表现超过了病理学家。
2.2 基于FCN网的病理图像分割技术
2.2.1 FCN全卷积神经网介绍
在医学图像处理领域,图像分割除了CNN框架外,还有另一种全卷积网络框架(Fully Convolutional Networks,FCN) 。FCN与CNN不同之处在于,用全卷积层替换了全连接层。它训练端到端的像素分类,不受输入图像尺寸限制,可以对每个像素都产生一个预测,跳跃式的架构结合来自深粗层的语义信息和浅细层的表征信息产生准确精细的分割[14]。发表于2015年的U-Net模型是比较典型的FCN网络结构,由于其鲁棒性较好被广泛应用于目标检测或分割。
2.2.2 基于U-Net模型的病理图像分割技术
Zhou[15]等人提出基于Xception架构[16]的U-Net模型,用于检测套细胞淋巴瘤的PET/CT图像。其CNN网络首先在作者机构内部测试图像,外部机构图像被排除在网络训练之外,并将其用于训练网的额外测试。为了克服患者样本不足的情况,使用五折交叉验证进行训练和初始测试。为了利用图像卷之间的层间信息,网络同时以PET和CT图像的三个连续轴向切片作为输入。通过输出病变或非病变的二元分类图,给出每个像素对应的分类概率。数据管理使用滑动窗口策略,首先将病理图像排列、裁剪和调整为128*128的矩阵,然后沿着轴向应用三层滑动窗口形成图像板,最后再分别在[0,1]区间归一化PET和CT的图像板。基于Xception构造的编码器总共124层,包括34层深度可分离卷积层和12层残差相加层,第一卷积层的步长修改为1。由于数据包含PET和CT图像,作者构造了两个编码器通道来同时处理图像。对于解码器,不是简单地将PET和CT特征图分别传递到顶部,而是沿着路径将特征图进行组合。