随着深度学习技术在疾病诊断方面的广泛应用,尤其是卷积神经网络(CNN)在计算机视觉、图像处理方面的突出表现,越来越多的研究提出使用该算法实现阿尔茨海默病(AD)、轻度认知障碍(MCI)以及正常认知(CN)之间的诊断。本文系统地回顾了几种经典的卷积神经网络模型在该疾病不同阶段脑影像分析诊断方面的应用进展,进一步探讨了其存在的问题及研究方向,以期为该领域的研究提供一定的参考和借鉴。
引用本文: 续宝红, 丁冲, 徐桂芝. 卷积神经网络在阿尔茨海默病诊断中的应用研究. 生物医学工程学杂志, 2021, 38(1): 169-177, 184. doi: 10.7507/1001-5515.202007019 复制
引言
阿尔茨海默病(Alzheimer’s disease,AD)是一种起病隐匿的进行性发展的神经系统退行性疾病,表现为持续性的认知功能下降以及行为障碍等。据统计全球每 3 秒钟就有 1 例痴呆患者产生,全球痴呆相关成本持续增加[1]。据调查 62%的医疗从业者认为痴呆是正常衰老的一部分,即每三个人中就有两个人认为痴呆症是由正常衰老引起的,因此很多老人有 AD 症状但却无法得到确诊[2]。轻度认知障碍(mild cognitive impairment,MCI)是介于正常和 AD 之间的一种中间过渡状态。根据阿尔茨海默病神经影像学计划(Alzheimer’s Disease Neuroimaging Initiative,ADNI)数据库诊断标准将 AD 分为四组:认知功能正常组(cognitive normal,CN 或者 normal cognitive,NC),早期轻度认知障碍组(early mild cognitive impairment,EMCI),晚期轻度认知障碍组(late mild cognitive impairment,LMCI)以及 AD。一部分文献中会有转化型轻度认知障碍(convert mild cognitive impairment,cMCI)及稳定型轻度认知障碍(stable mild cognitive impairment,sMCI)的分类[3-6]。目前 AD 尚无治愈方法,中晚期治疗手段非常有限,而且 MCI 常被误诊为正常衰老的症状,在研究中发现有 44% 的 MCI 在几年内可能最终转化为 AD[7]。因此 MCI 的早期诊断和干预对预防和延缓 AD 的发展具有重要作用。
神经影像成像技术是 AD 诊断中重要的临床检查手段之一。研究显示在认知和记忆退化前,海马、颞叶等某些特定部位已经出现了退行性形变和萎缩,这些大脑结构的改变是 AD 早期诊断的可靠标志[8]。通过脑影像成像技术可以对疾病不同阶段结构的变化进行定量定性的分析研究。首先是磁共振成像(magnetic resonance imaging,MRI),主要用于排除其他潜在疾病和发现 AD 的特异性影像学表现,可以监测出大脑变性区域物质的代谢异常、血流量的改变等;其次是正电子发射型计算机断层显像(positron emission computed tomography,PET),18 氟-氟代脱氧葡萄糖正电子发射型计算机断层显像(18-fluoro-deoxyglucose PET,18F-FDG-PET)可以显示大脑局部葡萄糖的代谢率,为评价组织的代谢活性提供了可能,且研究显示 18F-FDG-PET 对 AD 的诊断准确率更高[9];还有计算机断层扫描(computed tomography,CT),AD 早期的 CT 脑影像诊断以脑萎缩、脑室扩大为主要评判指标[10]。上述方法中由于 MRI 不会产生如 CT 检测中的伪影,无需注射造影剂,无电离辐射且无创,具有较高的普及率,因而成为 AD 早期诊断研究中常用的影像材料。
随着计算机技术的发展,深度学习方法广泛应用于医学图像处理中,使得医学图像处理逐渐实现智能化。其中卷积神经网络(convolutional neural network,CNN)是一种带有卷积结构的深度神经网络,其结构包含输入层、卷积层、激励层、池化层以及全连接层。到目前为止,在图像识别领域的每一个重大的突破都用到了该模型。CNN 以及众多由此衍生出来的模型,被不断用在 MCI 和 AD 分类任务中,并取得了优异的效果。
本文首先简述了 CNN 的发展及最初的结构,其次综述了 LeNet、AlexNet、GoogleNet、VGGNet、ResNet 以及 DenseNet 几个典型的 CNN 网络在 AD 早期诊断中的应用及研究方向,探讨了目前存在的不足与挑战,并提出了一些想法和建议。
1 卷积神经网络
1.1 CNN 发展简述
CNN 是一种前馈型神经网络,它的出现启蒙于 1962 年 Hubel 和 Wiesel 对猫视觉皮层电生理研究中提出的感受野(receptive field)的概念[11]。感受野是 CNN 每一层输出的特征图(feature map)上的像素点在输入图片上映射的区域大小,即特征图上的一个点对应输入图上的区域。基于此 1980 年日本学者 Fukushima[12]提出的神经认知机(neocognitron)可以看作是 CNN 的第一个实现网络,也是感受野概念在人工神经网络领域的首次应用。之后 1989 年,LeCun 等[13]将反向传播应用到了类似 Neocognitron 的网络上做有监督学习,实现了一个手写数字识别的神经网络,最重要的是简化了卷积操作,便于将反向传播应用到 CNN 上。直到 1998 年被称为是现代卷积神经网络的鼻祖 LeNet-5 被 LeCun 等[14]提出,它是第一个成功大规模应用于手写数字识别问题的 CNN,在 MNIST 数据集中的正确率可以高达 99.2%,也标志着 CNN 的开端。但直到 2012 年 AlexNet 的成功才奠定了 CNN 在深度学习应用中的重要地位,同时也成为了计算机视觉中的重点研究对象并且逐渐演化了众多经典模型,包括 GoogLeNet、VGGNet、ResNet 以及 DenseNet 等,且广泛应用于图像处理、计算机视觉等领域。
1.2 CNN 的基本结构
与普通神经网络非常相似,CNN 也是由具有可学习的权重和偏置常量的神经元组成。每个神经元都接收一些输入,并做点积计算,输出是每个分类的分数,而它成功的原因关键在于所采用的局部连接和共享权值的方式,一方面减少了的权值数量使得网络易于优化,另一方面降低了过拟合的风险。该优点在网络的输入是多维图像时表现得更为明显,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。
CNN 的基本结构一般划分为 5 层:输入层、卷积层、池化层、全连接层以及输出层,结构如图 1 所示。在图像处理时,首先将原始数据送入输入层经过去均值、归一化、主成分分析(principal component analysis,PCA)和白化等预处理,其次经过卷积层与池化层交替操作对图像进行特征提取与压缩,之后经过全连接层输出数据。

1.3 CNN 在医学影像分析中的应用
近年来,使用深度学习方法进行数据分析呈迅猛增长趋势,它已成为计算机视觉领域中领先的机器学习工具,其中 CNN 提取的信息在目标识别和定位方面效果优异。CNN 和其他深度学习方法结合用于医学图像分析,减少了特征选择及特征提取的步骤,直接将图像作为网络的输入,降低了医学诊断错误率,在病变检测、图像分割、图像配准及图像融合等方面已有突出表现。医学图像处理基本流程是图像预处理、图像分割、特征提取、特征选择、训练分类器及对测试集进行测试。
CNN 在 AD 脑影像诊断应用中的大部分医学数据,一是来自 ADNI 数据库(http://adni.loni.usc.edu/),由美国加利福尼亚大学放射学和生物医学成像中心创建于 2004 年,该计划致力于确定 AD 的进展;另一个是影像研究开放获取系列(Open Access Series of lmaging Studies,OASIS),是一个旨在向科学界免费提供大脑的神经影像数据集的项目,通过汇编和自由分享神经影像数据集,促进基础和临床神经科学方面的新发现。获取到神经影像数据后,将图像进行预处理,如时间层校正、头动校正、配准、标准化、分割以及平滑处理等。SPM 和 FSL 是主要的脑影像处理工具,可以对核磁图像进行一系列的预处理[15-16]。其中 FSL 是牛津大学研究人员开发的一种全面分析大脑图像数据的软件,可实现图像预处理的各种任务。一般脑影像数据经过预处理后会送入 CNN 输入层开始训练,之后进行测试并分析评价分类效果。CNN 在 AD 脑影像诊断中的基本流程如图 2 所示。

2 卷积神经网络不同模型在 AD 诊断中的研究进展
从 1998 年 LeCun 等[14]发表论文确立了第一个真正意义上的 CNN 结构,到 2012 年 AlexNet 的成功,越来越多的研究者致力于该方向的研究,逐渐发展了许多经典的 CNN 模型,且应用于语音识别及图像处理等领域。如今 CNN 在医学图像处理中占据着举足轻重的地位,从最开始的 LeNet 到目前的 DenseNet,都有用于 AD 的早期诊断研究,并取得了很好的分类效果。各类 CNN 模型的特点及其在 AD 早期诊断中的大致流程如图 3 所示。

2.1 LeNet
CNN 的发展简述中提到,LeNet 的实现确立了 CNN 的结构如图 1 所示,现在的神经网络中都能看到它的身影,例如卷积层、池化层等。但由于当时缺乏大规模的训练数据,计算机硬件的性能也较低,因此 LeNet 神经网络在处理复杂问题时效果并不理想。之后 LeCun 等对其进行完善,设计了一种多层的人工神经网络 LeNet-5。它通过巧妙的设计,利用卷积、参数共享、池化等操作提取特征,减少了计算成本,最后用全连接神经网络进行分类识别。
Sarraf 等[17]应用 LeNet-5 架构对 AD 和正常对照组受试者的功能磁共振成像数据进行分类,分类准确率达到 96.86%。此外,Dai 等[18]改进现有 LeNet-5 模型,设计了 10 层的 CNN,对 MRI、PET 和多模式融合图像分别进行训练和测试,在网络输出层结合贝叶斯方法对临床简易智力状态检查量表(Mini-Mental State Examination,MMSE)分类的结果,最终显示多模态成像与临床数据相结合的深度学习诊断方法性能最优,平均准确率达到了 88.244%。由于 LeNet 的设计较为简单,因此其处理复杂数据的能力有限,近年研究中较少将其应用在 AD 病程分类的研究中。
2.2 AlexNet
2012 年,Krizhevsky 等[19]提出的 AlexNet 以绝对的优势赢得了 ImageNet 竞赛的冠军。它将 LeNet 的思想扩展到了更大的、能学习到更复杂对象层次的神经网络上。其突出贡献是使用修正线性单元(rectified linear unit,ReLU)、在训练的时候使用 Dropout[20]技术有选择地忽视单个神经元从而避免过拟合,AlexNet 的出现被称为一个经典之作,激发了更多研究者的兴趣,随之更多更深的神经网络被提出。
AlexNet 原模型对医学图像没有针对性,Shakarami 等[21]在 AlexNet 末端添加全连接层,以减少特征向量长度,并用支持向量机(support vector machine,SVM)替换原有的分类输出层作为分类器,平均分类精度达到 96.39%。另一项研究中,基于 AlexNet 提出了一种数据排列方案,包括离群值去除和基于熵的 MRI 切片选择等对 OASIS 和 ADNI 数据集上的 MRI 图像进行分类,取得平均分类准确率为 97.05%的分类效果[22]。
Kazemi 等[23]采用 AlexNet 模型,用随机梯度下降求解方法更新权重,首次用深度学习方法对 AD 的不同阶段即正常健康对照(NC)、显著记忆关注(SMCI)、早期轻度认知障碍(EMCI)、晚期轻度认知损伤(LMCI)以及 AD 进行分类,平均准确度达到 97.63%。
2.3 GoogleNet
2014 年,Szegedy 团队[24]提出的 GoogleNet 获得了 ImageNet 竞赛的冠军。该模型创新之处是提出一种网中网的 Inception 结构,其中采用 1*1 卷积主要用来降维。用 Inception 之后整个网络结构的宽度和深度都可扩大,但又不会增加计算量,且稀疏连接的方式有助于减少过拟合,因此它的设计目的在于用稀疏、分散的网络来取代庞大、密集、臃肿的网络。
在文献[25]中,研究人员提出了一个使用 inceptionV3 架构的深度学习模型,将 CN、AD 及 MCI 患者 18F-FDG PET 脑图像的 90% ADNI 数据集进行训练,并在其余 10% 的数据集以及独立的测试集上进行测试,对 AD 与 CN 的分类预测能力较强,准确率达到 97.58%,但对 MCI 的识别准确度相对较低,可能是因为最终诊断为 MCI 的患者尚处于早期状态,无法显示 AD 的临床迹象,或者还有些属于不会进展到 AD 的患者。
2.4 VGGNet
VGG 网络由著名的牛津大学视觉组提出[26],并取得了 ILSVRC 2014 比赛分类任务的第 2 名和定位任务的第 1 名。VGGNet 整个网络都使用了同样大小的卷积核尺寸(3 × 3)和池化尺寸(2 × 2),通过不断加深网络深度来提升性能。VGGNet 的拓展性很强,迁移到其他图片数据上的泛化性非常好。Mehmood 等[27]在 VGG-16 中插入额外的卷积层有效地获取了数据集上的最大特征,在 AD 病程阶段的分类中达到了 99.05% 的测试准确性。
还有研究者提出了一种将 VGGNet 和 SVM 相结合来更有效地区分 EMCI 和 NC 的方法。结果表明,与以往的研究相比,分类性能有了显著的提高,平均准确率达到了前所未有的 89.4%[28]。
VGGNet 包含多层网络,深度从 11 层到 19 层不等,较为常用的是 VGG16 和 VGG19。Jain 等[29]研究中采用了一种基于迁移学习的数学模型名为 PFSECTL,该模型使用 ImageNet 数据集中 VGG-16 作为分类任务的特征提取器,在 ADNI 数据库收集的 MRI 数据验证集部分三分类的准确率达到了 95.73%。Khan 研究团队[30]也用同样的迁移学习方法,使用 VGG 模型对 CN、AD 和 MCI 的 MRI 数据进行分类,且获得了非常高的分类性能,AD 与 NC 以及 MCI 与 NC 的分类准确率分别为 99.36% 和 99.04%,三分类的总体准确率为 99.20%。
2.5 RestNet
2015 年,微软亚洲研究院 He 等[31]使用 ResNet 在 ILSVRC 比赛中取得冠军。该模型在增加网络深度的情况下有效地解决了梯度消失的问题。残差单元的引入使得在输入和输出之间建立了一个直接的连接,这样新增的层仅仅需要在原来输入层基础上学习新的特征,解决了层次比较深时无法训练的问题,残差单元结构如图 4 所示。与 GoogleLeNet 类似,ResNet 最后也使用了全局均值池化层,同时利用残差模块,可以训练 152 层的残差网络,其准确度高于 VGG 和 GoogleNet。

Menikdiwela 等[32]基于 ResNet,首次探讨了基于 MRI 皮质表面数据的 cMCI 和 sMCI 患者分类。该模型中特征向量对应于每次 MRI 扫描整个皮质厚度的测量值,最终获得了 81% 的准确度,而基于类似网络的 MRI 切片分类准确率为 68%。同时结果表明与切片数据相比,皮质数据在 cMCI 分类中表现良好。该团队是第一个将深度学习网络应用于 MRI 成像的大脑皮质图研究中的。
Yee 等[33]使用 ResNet 中残差结构设计的算法对 NC 和 AD 的分类准确率达到 93.5%。另外对 sMCI 在 3 年内转化为 AD 的预测准确率为 74.0%,准确率下降的原因主要是 NC 和 sMCI 的错误分类。Fulton 等[34]在改进的 50 层残差网络即 ResNet-50 中对 AD 及 MCI 进行分类,达到了 98.99% 的分类准确率。
2.6 DenseNet
随着网络结构的加深,为解决梯度与信息消失现象以及巨量的网络参数与网络结构利用率不高的问题,由康奈尔大学、清华大学、Facebook 的研究者[35]共同研究并提出了 DenseNet 网络结构,利用当前层与后面层的连接使得每一层的信息得到充分的利用,缓解梯度消失的同时极大地减少了参数,如图 5 所示为一个 4 层的 Dense Block 示意图。

DenseNet 尽管借鉴了 ResNet 及 Inception 网络的思想,但是呈现了全新的结构。它是一种具有密集连接的 CNN。该研究团队从特征图入手,让网络中的每一层都直接与其前面层相连,实现特征图(feature map)的重复利用。同时把网络的每一层设计得特别“窄”,即只学习非常少的特征图,实现降低冗余性的目的,最终使用更少的参数取得了更好的效果,而且减少了梯度消失的问题。
DenseNet[36]是比较新的 CNN 模型,它引入密集连接,解决了训练数据有限的问题,随着该模型深度的研究不断提出了不同的改进模型以提升分类性能[37-38]。Wang 等[39]以 3D-MRI 为基础采用 DenseNet 模型,进行了一系列超参数优化实验,选择多个优化的 3D-DenseNet 分类器,之后对各分类器结果进行集成最终证明了集成方法的优越性。
在文献[40]的研究中提出了一种结合 3D DenseNets 和双向门控递归单元(bi-directional gated recurrent unit,BGRU)的卷积递归混合神经网络,利用 sMRI 图像进行海马特征提取分析从而进行 AD 病程分类诊断。在 ADNI 数据集上 AD 与 NC、MCI 与 NC、pMCI 与 sMCI 的分类中,ROC 曲线下面积分别达到 91.0%、75.8% 和 74.6%,可见该方法在 AD 和 NC 分类中显示了良好的性能。
以上对不同 CNN 模型在 AD 诊断中的应用进行了简要概述,通过对近几年相关文献的阅读,对不同模型的分类诊断效果进行了对比,如表 1 所示。由于不同研究中所用数据、预处理以及算法改进优化方式不同,因此对于最后的分类准确率只是一个相对的比较。

3 CNN 在 AD 诊断中的应用分析
不同的经典 CNN 模型被广泛应用于 AD 的早期诊断中,各类模型的分类诊断效果各有所长。本节将从三个方面总结 CNN 在 AD 诊断中提升分类准确率的研究方向,如图 6 所示,首先是 CNN 算法结构优化,其次是与传统机器学习方法相结合,最后是多模态数据融合的方法。

3.1 算法结构优化
CNN 应用于 AD 脑影像识别的分类任务时,通常都会根据目标任务对模型进行优化。首先常采用迁移学习的方法使用在 ImageNet 数据集中预训练的 CNN 模型进行分类,这样可以减少训练时间。其次最初的研究中往往使用二维切片数据作为输入层,但为了更好地利用脑影像信息提出了 3D-CNN 结构及多任务学习的方法,同时针对整体网络对超参数进行调整,如学习率(Learning rate)、批处理大小(Batch size)的选择[41],以及采用归一化和 Dropout 技术进行优化以防止过拟合,提升 CNN 算法性能[42]。此外针对医学数据样本量小的问题提出数据增强的方法以扩充数据集[43]。最近的一项研究中提出了一种新的框架,该框架包含了 GoogleNet、ResNet 以及 DenseNet 三个先进的深度卷积神经网络,各模型输出层结果通过 Adaboost 集成分类器得出最后的判断,在 AD 与 NC 的分类中准确率达到 99.27%,灵敏度达到 95.89%,特异度达到 98.72%[44]。另一项研究提出一种孪生卷积神经网络(Siamese Convolution Neural Network),它借鉴孪生神经网络(Siamese Neural Network)的结构[45],用改进的 VGG-16 并行计算,更有效地获取到数据集的重要特征,总体分类准确率达到 99.05%[27],这项研究给 CNN 在 AD 病程分类应用的结构改进带来了新的启发。此外,Liu 等[46]使用深层孪生神经网络研究了 AD 和 MCI 中脑不对称预测的问题并取得了很好的预测精度。目前,很多研究表明与单一模型相比,不同 CNN 模型联合用于 AD 病程的分类可以获得更高的准确率[47-48]。
3.2 与传统机器学习方法相结合
CNN 与传统机器学习的方法结合,在 AD 分类中也有很好的表现。在几项研究中,CNN 仅被用作特征提取器,而分类时则使用随机森林[49]、线性或多项式核的 SVM 和逻辑回归[50]。Duc 等[51]开发了一种 3D CNN 结构用于 AD 和 CN 的 MRI 图像分类任务,同时结合线性最小二乘回归(linear least squares regression,LLSR)、支持向量回归及具有组独立成分分析(group independent component analysis,gICA)特征的树回归等方法预测 MMSE 分数以综合判断疾病状态。另有研究团队提出基于深度 CNN 和 SVM 的混合诊断方法,将每个目标的切片特征融合成一个特征向量,采用套索的特征选择方法,最后用 SVM 进行分类。实验结果表明,由于 CNN 和 SVM 的结合以及冗余特征的消除,该方法大大提高了分类性能。此外,迁移学习技术有效地缓解了小数据集带来的问题,减少了大量的训练时间[28]。
在国际 Kaggle 平台上提出了一项科学挑战,以评估预测 MCI 及 cMCI 不同方法的性能。第三名的参赛团队提出了一种基于随机森林特征选择和深度神经网络分类的分类策略,使用包含 NC、AD、MCI 和 cMCI 四种分类问题的混合队列来训练模型。此外该方法与一种新的基于模糊逻辑的分类策略进行了比较,发现模糊逻辑在 cMCI 分类中尤其准确,表明这些方法的结合可能会带来更优的分类效果[52]。CNN 与传统机器学习方法相结合,为 AD 病程的分类研究提供了新的思路和方向。
3.3 多模态数据融合
晚期 AD 患者在临床中很好鉴别,但是 MCI 的早期诊断较为困难,因此临床医生通常参考各类神经影像学检查以及神经心理学诊断结果,综合判断病程阶段。在基于 CNN 的 AD 病程分类中考虑多模态数据结合同样有助于提高该疾病的诊断准确率。研究中通常选取 MRI 与 PET 影像与临床简易智力状态检查量表(Mini-mental State Examination,MMSE)、临床痴呆评估量表(Clinical Dementia Rating Scale,CDR)或逻辑记忆测验(logical memory,LM)等临床信息进行融合分类。在一项研究中采用两个独立的 CNN 对 MRI 和 PET 医学图像进行训练,通过相关分析判断两个网络输出的一致性,最后将多模态神经影像诊断结果与临床神经心理诊断结果相结合,显著提高了辅助诊断的准确性,也使诊断过程更加接近临床医生的诊断流程。在 ADNI 数据集实验中,AD 与 MCI 分类灵敏度为 97.39%,特异度为 84.27%,准确度为 88.25%,AUC 值为 0.886 4。实验结果表明多模态辅助诊断方法能够达到很好的诊断效果[53]。此外,MRI 不同成像方式的融合也有利于提高分类精度,如结构 MRI 与弥散张量成像(diffusion tensor imaging,DTI)结合[54]。未来的研究中,更趋向将不同神经成像技术及临床文本信息充分结合以提高算法分类性能。
4 CNN 在 AD 诊断中的挑战
由于 AD 的不可治愈性,早期诊断变得尤为重要。近年来,深度学习方法中的 CNN 逐渐成为分析小数据集医学图像的热门工具,广泛应用于医学图像分割、识别等方面。本文通过系统地回顾近五年 CNN 在 AD 诊断方面的应用,了解到在该领域研究中 CNN 表现优异。在没有临床专家的情况下,自动分类疾病不同阶段的方法可以为 MCI 的早期诊断提供客观的依据。虽然目前在 AD、MCI、CN 甚至 MCI 早期的预测中已经取得了很好的分类效果,但仍然存在很多尚未解决的问题,而且研究成果还没有真正应用于临床以辅助医生诊断。CNN 分类诊断 AD 需要在各种条件下表现出一致的性能,才能为临床中的实际应用做好准备,但目前仍存在不足与挑战,主要分以下几点阐述。
4.1 可解释性
传统机器学习方法可能需要专家参与预处理步骤,以便从图像中提取和选择特征。然而,由于深度学习不需要人工干预,而是直接从输入图像中提取特征,相对于依赖预处理的传统机器学习可以实现更好的性能。但是深度学习这一特点带来了不确定性,即在每个时期会提取哪些特征,除非对特征有特殊的设计,否则很难显示哪些特定特征是在网络中提取的。同时因为深度学习算法的复杂性,具有多个隐含层,很难确定这些选择的特征是如何得出结论的,以及特定特征或特征子类的相对重要性。正因为 CNN 分类 AD 过程缺乏解释性,无法像临床专家在诊断中一样直接提供推理和解释,因此临床医生也很难完全信任此类系统。
如果 CNN 模型具备可解释性,算法研发者可根据其输出结果优劣的原因所在,对算法进行改良。但如果算法不具备解释性,则改良算法变得异常艰难。研究中提出利用反卷积可以重构每层的输入特征并实现可视化,分析每层对整体分类性能的贡献,解释 CNN 学习到的特征如何,并对不足之处进行改进,由此来分析如何建立更好的网络结构[55]。近年来研究者们不断对 CNN 可视化进行探索,在一项研究中从不同角度对 3D-CNN 在 AD 分类中的机制进行了可视化解释,提高了对 3D-CNN 在 AD 分类中的可解释性[56]。
4.2 泛化性
由于不同医院成像设备不同,扫描的参数也不尽相同,因此会影响 CNN 对疾病的分类效果,会出现模型在某个数据集上训练效果很好,但用于另一个数据集时效果突然下降的情况。针对这个问题,在目前研究中一方面通过扩大数据集的来源以缓解在实际应用中的泛化困难,另一方面通过技术上的手段加以克服,如迁移学习,即先在数量大的数据集预训练,再到数量小的数据集上微调,或者通过多任务学习(multi-task learning,MTL)的方法[57-59]。但目前该问题尚未得到有效的解决,仍在探索研究中。
4.3 准确率
医学影像分类不同于其他的分类问题,预测准确性不仅对提升临床医生诊断信心有价值,而且对患者更是意义重大,因此将该模型应用于临床实际诊断也需要更加慎重。任何一项关于 AD 分类模型最重要的目标就是提升准确率,有的算法表现很优异但是并不稳定,鲁棒性较差。在许多研究中已经证实使用两种或两种以上多模式神经成像数据比单一神经成像数据的分类准确性更高,即多模态数据融合,这是从输入数据的角度提高分类准确率。另外 CNN 各类模型在 AD 诊断中都有不错的表现,从算法结构优化、数据增强、迁移学习、数据预训练、CNN 与传统机器学习方法的结合以及注意力机制[60]的运用上,都在一定程度上提升了分类性能。该领域的研究者通过不断对 CNN 模型进行优化,致力于构建一个准确度高、性能稳定、可供临床应用的模型,为延缓 AD 的发展做出贡献。
5 总结与展望
随着全球 AD 数量的迅速增加,在发达国家它已是主要死亡原因之一,而且 AD 患者不仅自己痛苦,也给家庭也带来了沉重的负担,因此早期发现、早期干预对于延缓疾病发展十分关键。本文以 CNN 的发展为轴,系统地回顾了它在 AD 诊断中的应用现状,研究表明 AD 的早期诊断是完全可以实现的,但是仍存在一些待解决的问题,如模型泛化性、算法鲁棒性及可视化等。本文参阅的文献中,由于各个文献研究所用数据的来源、类型以及预处理方法等并不一致,所以对于各类模型最终分类结果的正确率只是作为大致的参考与对比,并没有详细比较各个研究中的分类结果。目前 CNN 在 AD 早期诊断方面的研究仍然在不断发展中,研究者们尝试探索不同生物标志物最佳的融合方式,以及算法结构的优化改进,如注意力机制与 CNN 的结合。同时,加强理论技术人员与临床工作者的交流对 AD 早期诊断的研究也大有益处。
利益冲突声明:本文全体作者均声明不存在利益冲突。
引言
阿尔茨海默病(Alzheimer’s disease,AD)是一种起病隐匿的进行性发展的神经系统退行性疾病,表现为持续性的认知功能下降以及行为障碍等。据统计全球每 3 秒钟就有 1 例痴呆患者产生,全球痴呆相关成本持续增加[1]。据调查 62%的医疗从业者认为痴呆是正常衰老的一部分,即每三个人中就有两个人认为痴呆症是由正常衰老引起的,因此很多老人有 AD 症状但却无法得到确诊[2]。轻度认知障碍(mild cognitive impairment,MCI)是介于正常和 AD 之间的一种中间过渡状态。根据阿尔茨海默病神经影像学计划(Alzheimer’s Disease Neuroimaging Initiative,ADNI)数据库诊断标准将 AD 分为四组:认知功能正常组(cognitive normal,CN 或者 normal cognitive,NC),早期轻度认知障碍组(early mild cognitive impairment,EMCI),晚期轻度认知障碍组(late mild cognitive impairment,LMCI)以及 AD。一部分文献中会有转化型轻度认知障碍(convert mild cognitive impairment,cMCI)及稳定型轻度认知障碍(stable mild cognitive impairment,sMCI)的分类[3-6]。目前 AD 尚无治愈方法,中晚期治疗手段非常有限,而且 MCI 常被误诊为正常衰老的症状,在研究中发现有 44% 的 MCI 在几年内可能最终转化为 AD[7]。因此 MCI 的早期诊断和干预对预防和延缓 AD 的发展具有重要作用。
神经影像成像技术是 AD 诊断中重要的临床检查手段之一。研究显示在认知和记忆退化前,海马、颞叶等某些特定部位已经出现了退行性形变和萎缩,这些大脑结构的改变是 AD 早期诊断的可靠标志[8]。通过脑影像成像技术可以对疾病不同阶段结构的变化进行定量定性的分析研究。首先是磁共振成像(magnetic resonance imaging,MRI),主要用于排除其他潜在疾病和发现 AD 的特异性影像学表现,可以监测出大脑变性区域物质的代谢异常、血流量的改变等;其次是正电子发射型计算机断层显像(positron emission computed tomography,PET),18 氟-氟代脱氧葡萄糖正电子发射型计算机断层显像(18-fluoro-deoxyglucose PET,18F-FDG-PET)可以显示大脑局部葡萄糖的代谢率,为评价组织的代谢活性提供了可能,且研究显示 18F-FDG-PET 对 AD 的诊断准确率更高[9];还有计算机断层扫描(computed tomography,CT),AD 早期的 CT 脑影像诊断以脑萎缩、脑室扩大为主要评判指标[10]。上述方法中由于 MRI 不会产生如 CT 检测中的伪影,无需注射造影剂,无电离辐射且无创,具有较高的普及率,因而成为 AD 早期诊断研究中常用的影像材料。
随着计算机技术的发展,深度学习方法广泛应用于医学图像处理中,使得医学图像处理逐渐实现智能化。其中卷积神经网络(convolutional neural network,CNN)是一种带有卷积结构的深度神经网络,其结构包含输入层、卷积层、激励层、池化层以及全连接层。到目前为止,在图像识别领域的每一个重大的突破都用到了该模型。CNN 以及众多由此衍生出来的模型,被不断用在 MCI 和 AD 分类任务中,并取得了优异的效果。
本文首先简述了 CNN 的发展及最初的结构,其次综述了 LeNet、AlexNet、GoogleNet、VGGNet、ResNet 以及 DenseNet 几个典型的 CNN 网络在 AD 早期诊断中的应用及研究方向,探讨了目前存在的不足与挑战,并提出了一些想法和建议。
1 卷积神经网络
1.1 CNN 发展简述
CNN 是一种前馈型神经网络,它的出现启蒙于 1962 年 Hubel 和 Wiesel 对猫视觉皮层电生理研究中提出的感受野(receptive field)的概念[11]。感受野是 CNN 每一层输出的特征图(feature map)上的像素点在输入图片上映射的区域大小,即特征图上的一个点对应输入图上的区域。基于此 1980 年日本学者 Fukushima[12]提出的神经认知机(neocognitron)可以看作是 CNN 的第一个实现网络,也是感受野概念在人工神经网络领域的首次应用。之后 1989 年,LeCun 等[13]将反向传播应用到了类似 Neocognitron 的网络上做有监督学习,实现了一个手写数字识别的神经网络,最重要的是简化了卷积操作,便于将反向传播应用到 CNN 上。直到 1998 年被称为是现代卷积神经网络的鼻祖 LeNet-5 被 LeCun 等[14]提出,它是第一个成功大规模应用于手写数字识别问题的 CNN,在 MNIST 数据集中的正确率可以高达 99.2%,也标志着 CNN 的开端。但直到 2012 年 AlexNet 的成功才奠定了 CNN 在深度学习应用中的重要地位,同时也成为了计算机视觉中的重点研究对象并且逐渐演化了众多经典模型,包括 GoogLeNet、VGGNet、ResNet 以及 DenseNet 等,且广泛应用于图像处理、计算机视觉等领域。
1.2 CNN 的基本结构
与普通神经网络非常相似,CNN 也是由具有可学习的权重和偏置常量的神经元组成。每个神经元都接收一些输入,并做点积计算,输出是每个分类的分数,而它成功的原因关键在于所采用的局部连接和共享权值的方式,一方面减少了的权值数量使得网络易于优化,另一方面降低了过拟合的风险。该优点在网络的输入是多维图像时表现得更为明显,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。
CNN 的基本结构一般划分为 5 层:输入层、卷积层、池化层、全连接层以及输出层,结构如图 1 所示。在图像处理时,首先将原始数据送入输入层经过去均值、归一化、主成分分析(principal component analysis,PCA)和白化等预处理,其次经过卷积层与池化层交替操作对图像进行特征提取与压缩,之后经过全连接层输出数据。

1.3 CNN 在医学影像分析中的应用
近年来,使用深度学习方法进行数据分析呈迅猛增长趋势,它已成为计算机视觉领域中领先的机器学习工具,其中 CNN 提取的信息在目标识别和定位方面效果优异。CNN 和其他深度学习方法结合用于医学图像分析,减少了特征选择及特征提取的步骤,直接将图像作为网络的输入,降低了医学诊断错误率,在病变检测、图像分割、图像配准及图像融合等方面已有突出表现。医学图像处理基本流程是图像预处理、图像分割、特征提取、特征选择、训练分类器及对测试集进行测试。
CNN 在 AD 脑影像诊断应用中的大部分医学数据,一是来自 ADNI 数据库(http://adni.loni.usc.edu/),由美国加利福尼亚大学放射学和生物医学成像中心创建于 2004 年,该计划致力于确定 AD 的进展;另一个是影像研究开放获取系列(Open Access Series of lmaging Studies,OASIS),是一个旨在向科学界免费提供大脑的神经影像数据集的项目,通过汇编和自由分享神经影像数据集,促进基础和临床神经科学方面的新发现。获取到神经影像数据后,将图像进行预处理,如时间层校正、头动校正、配准、标准化、分割以及平滑处理等。SPM 和 FSL 是主要的脑影像处理工具,可以对核磁图像进行一系列的预处理[15-16]。其中 FSL 是牛津大学研究人员开发的一种全面分析大脑图像数据的软件,可实现图像预处理的各种任务。一般脑影像数据经过预处理后会送入 CNN 输入层开始训练,之后进行测试并分析评价分类效果。CNN 在 AD 脑影像诊断中的基本流程如图 2 所示。

2 卷积神经网络不同模型在 AD 诊断中的研究进展
从 1998 年 LeCun 等[14]发表论文确立了第一个真正意义上的 CNN 结构,到 2012 年 AlexNet 的成功,越来越多的研究者致力于该方向的研究,逐渐发展了许多经典的 CNN 模型,且应用于语音识别及图像处理等领域。如今 CNN 在医学图像处理中占据着举足轻重的地位,从最开始的 LeNet 到目前的 DenseNet,都有用于 AD 的早期诊断研究,并取得了很好的分类效果。各类 CNN 模型的特点及其在 AD 早期诊断中的大致流程如图 3 所示。

2.1 LeNet
CNN 的发展简述中提到,LeNet 的实现确立了 CNN 的结构如图 1 所示,现在的神经网络中都能看到它的身影,例如卷积层、池化层等。但由于当时缺乏大规模的训练数据,计算机硬件的性能也较低,因此 LeNet 神经网络在处理复杂问题时效果并不理想。之后 LeCun 等对其进行完善,设计了一种多层的人工神经网络 LeNet-5。它通过巧妙的设计,利用卷积、参数共享、池化等操作提取特征,减少了计算成本,最后用全连接神经网络进行分类识别。
Sarraf 等[17]应用 LeNet-5 架构对 AD 和正常对照组受试者的功能磁共振成像数据进行分类,分类准确率达到 96.86%。此外,Dai 等[18]改进现有 LeNet-5 模型,设计了 10 层的 CNN,对 MRI、PET 和多模式融合图像分别进行训练和测试,在网络输出层结合贝叶斯方法对临床简易智力状态检查量表(Mini-Mental State Examination,MMSE)分类的结果,最终显示多模态成像与临床数据相结合的深度学习诊断方法性能最优,平均准确率达到了 88.244%。由于 LeNet 的设计较为简单,因此其处理复杂数据的能力有限,近年研究中较少将其应用在 AD 病程分类的研究中。
2.2 AlexNet
2012 年,Krizhevsky 等[19]提出的 AlexNet 以绝对的优势赢得了 ImageNet 竞赛的冠军。它将 LeNet 的思想扩展到了更大的、能学习到更复杂对象层次的神经网络上。其突出贡献是使用修正线性单元(rectified linear unit,ReLU)、在训练的时候使用 Dropout[20]技术有选择地忽视单个神经元从而避免过拟合,AlexNet 的出现被称为一个经典之作,激发了更多研究者的兴趣,随之更多更深的神经网络被提出。
AlexNet 原模型对医学图像没有针对性,Shakarami 等[21]在 AlexNet 末端添加全连接层,以减少特征向量长度,并用支持向量机(support vector machine,SVM)替换原有的分类输出层作为分类器,平均分类精度达到 96.39%。另一项研究中,基于 AlexNet 提出了一种数据排列方案,包括离群值去除和基于熵的 MRI 切片选择等对 OASIS 和 ADNI 数据集上的 MRI 图像进行分类,取得平均分类准确率为 97.05%的分类效果[22]。
Kazemi 等[23]采用 AlexNet 模型,用随机梯度下降求解方法更新权重,首次用深度学习方法对 AD 的不同阶段即正常健康对照(NC)、显著记忆关注(SMCI)、早期轻度认知障碍(EMCI)、晚期轻度认知损伤(LMCI)以及 AD 进行分类,平均准确度达到 97.63%。
2.3 GoogleNet
2014 年,Szegedy 团队[24]提出的 GoogleNet 获得了 ImageNet 竞赛的冠军。该模型创新之处是提出一种网中网的 Inception 结构,其中采用 1*1 卷积主要用来降维。用 Inception 之后整个网络结构的宽度和深度都可扩大,但又不会增加计算量,且稀疏连接的方式有助于减少过拟合,因此它的设计目的在于用稀疏、分散的网络来取代庞大、密集、臃肿的网络。
在文献[25]中,研究人员提出了一个使用 inceptionV3 架构的深度学习模型,将 CN、AD 及 MCI 患者 18F-FDG PET 脑图像的 90% ADNI 数据集进行训练,并在其余 10% 的数据集以及独立的测试集上进行测试,对 AD 与 CN 的分类预测能力较强,准确率达到 97.58%,但对 MCI 的识别准确度相对较低,可能是因为最终诊断为 MCI 的患者尚处于早期状态,无法显示 AD 的临床迹象,或者还有些属于不会进展到 AD 的患者。
2.4 VGGNet
VGG 网络由著名的牛津大学视觉组提出[26],并取得了 ILSVRC 2014 比赛分类任务的第 2 名和定位任务的第 1 名。VGGNet 整个网络都使用了同样大小的卷积核尺寸(3 × 3)和池化尺寸(2 × 2),通过不断加深网络深度来提升性能。VGGNet 的拓展性很强,迁移到其他图片数据上的泛化性非常好。Mehmood 等[27]在 VGG-16 中插入额外的卷积层有效地获取了数据集上的最大特征,在 AD 病程阶段的分类中达到了 99.05% 的测试准确性。
还有研究者提出了一种将 VGGNet 和 SVM 相结合来更有效地区分 EMCI 和 NC 的方法。结果表明,与以往的研究相比,分类性能有了显著的提高,平均准确率达到了前所未有的 89.4%[28]。
VGGNet 包含多层网络,深度从 11 层到 19 层不等,较为常用的是 VGG16 和 VGG19。Jain 等[29]研究中采用了一种基于迁移学习的数学模型名为 PFSECTL,该模型使用 ImageNet 数据集中 VGG-16 作为分类任务的特征提取器,在 ADNI 数据库收集的 MRI 数据验证集部分三分类的准确率达到了 95.73%。Khan 研究团队[30]也用同样的迁移学习方法,使用 VGG 模型对 CN、AD 和 MCI 的 MRI 数据进行分类,且获得了非常高的分类性能,AD 与 NC 以及 MCI 与 NC 的分类准确率分别为 99.36% 和 99.04%,三分类的总体准确率为 99.20%。
2.5 RestNet
2015 年,微软亚洲研究院 He 等[31]使用 ResNet 在 ILSVRC 比赛中取得冠军。该模型在增加网络深度的情况下有效地解决了梯度消失的问题。残差单元的引入使得在输入和输出之间建立了一个直接的连接,这样新增的层仅仅需要在原来输入层基础上学习新的特征,解决了层次比较深时无法训练的问题,残差单元结构如图 4 所示。与 GoogleLeNet 类似,ResNet 最后也使用了全局均值池化层,同时利用残差模块,可以训练 152 层的残差网络,其准确度高于 VGG 和 GoogleNet。

Menikdiwela 等[32]基于 ResNet,首次探讨了基于 MRI 皮质表面数据的 cMCI 和 sMCI 患者分类。该模型中特征向量对应于每次 MRI 扫描整个皮质厚度的测量值,最终获得了 81% 的准确度,而基于类似网络的 MRI 切片分类准确率为 68%。同时结果表明与切片数据相比,皮质数据在 cMCI 分类中表现良好。该团队是第一个将深度学习网络应用于 MRI 成像的大脑皮质图研究中的。
Yee 等[33]使用 ResNet 中残差结构设计的算法对 NC 和 AD 的分类准确率达到 93.5%。另外对 sMCI 在 3 年内转化为 AD 的预测准确率为 74.0%,准确率下降的原因主要是 NC 和 sMCI 的错误分类。Fulton 等[34]在改进的 50 层残差网络即 ResNet-50 中对 AD 及 MCI 进行分类,达到了 98.99% 的分类准确率。
2.6 DenseNet
随着网络结构的加深,为解决梯度与信息消失现象以及巨量的网络参数与网络结构利用率不高的问题,由康奈尔大学、清华大学、Facebook 的研究者[35]共同研究并提出了 DenseNet 网络结构,利用当前层与后面层的连接使得每一层的信息得到充分的利用,缓解梯度消失的同时极大地减少了参数,如图 5 所示为一个 4 层的 Dense Block 示意图。

DenseNet 尽管借鉴了 ResNet 及 Inception 网络的思想,但是呈现了全新的结构。它是一种具有密集连接的 CNN。该研究团队从特征图入手,让网络中的每一层都直接与其前面层相连,实现特征图(feature map)的重复利用。同时把网络的每一层设计得特别“窄”,即只学习非常少的特征图,实现降低冗余性的目的,最终使用更少的参数取得了更好的效果,而且减少了梯度消失的问题。
DenseNet[36]是比较新的 CNN 模型,它引入密集连接,解决了训练数据有限的问题,随着该模型深度的研究不断提出了不同的改进模型以提升分类性能[37-38]。Wang 等[39]以 3D-MRI 为基础采用 DenseNet 模型,进行了一系列超参数优化实验,选择多个优化的 3D-DenseNet 分类器,之后对各分类器结果进行集成最终证明了集成方法的优越性。
在文献[40]的研究中提出了一种结合 3D DenseNets 和双向门控递归单元(bi-directional gated recurrent unit,BGRU)的卷积递归混合神经网络,利用 sMRI 图像进行海马特征提取分析从而进行 AD 病程分类诊断。在 ADNI 数据集上 AD 与 NC、MCI 与 NC、pMCI 与 sMCI 的分类中,ROC 曲线下面积分别达到 91.0%、75.8% 和 74.6%,可见该方法在 AD 和 NC 分类中显示了良好的性能。
以上对不同 CNN 模型在 AD 诊断中的应用进行了简要概述,通过对近几年相关文献的阅读,对不同模型的分类诊断效果进行了对比,如表 1 所示。由于不同研究中所用数据、预处理以及算法改进优化方式不同,因此对于最后的分类准确率只是一个相对的比较。

3 CNN 在 AD 诊断中的应用分析
不同的经典 CNN 模型被广泛应用于 AD 的早期诊断中,各类模型的分类诊断效果各有所长。本节将从三个方面总结 CNN 在 AD 诊断中提升分类准确率的研究方向,如图 6 所示,首先是 CNN 算法结构优化,其次是与传统机器学习方法相结合,最后是多模态数据融合的方法。

3.1 算法结构优化
CNN 应用于 AD 脑影像识别的分类任务时,通常都会根据目标任务对模型进行优化。首先常采用迁移学习的方法使用在 ImageNet 数据集中预训练的 CNN 模型进行分类,这样可以减少训练时间。其次最初的研究中往往使用二维切片数据作为输入层,但为了更好地利用脑影像信息提出了 3D-CNN 结构及多任务学习的方法,同时针对整体网络对超参数进行调整,如学习率(Learning rate)、批处理大小(Batch size)的选择[41],以及采用归一化和 Dropout 技术进行优化以防止过拟合,提升 CNN 算法性能[42]。此外针对医学数据样本量小的问题提出数据增强的方法以扩充数据集[43]。最近的一项研究中提出了一种新的框架,该框架包含了 GoogleNet、ResNet 以及 DenseNet 三个先进的深度卷积神经网络,各模型输出层结果通过 Adaboost 集成分类器得出最后的判断,在 AD 与 NC 的分类中准确率达到 99.27%,灵敏度达到 95.89%,特异度达到 98.72%[44]。另一项研究提出一种孪生卷积神经网络(Siamese Convolution Neural Network),它借鉴孪生神经网络(Siamese Neural Network)的结构[45],用改进的 VGG-16 并行计算,更有效地获取到数据集的重要特征,总体分类准确率达到 99.05%[27],这项研究给 CNN 在 AD 病程分类应用的结构改进带来了新的启发。此外,Liu 等[46]使用深层孪生神经网络研究了 AD 和 MCI 中脑不对称预测的问题并取得了很好的预测精度。目前,很多研究表明与单一模型相比,不同 CNN 模型联合用于 AD 病程的分类可以获得更高的准确率[47-48]。
3.2 与传统机器学习方法相结合
CNN 与传统机器学习的方法结合,在 AD 分类中也有很好的表现。在几项研究中,CNN 仅被用作特征提取器,而分类时则使用随机森林[49]、线性或多项式核的 SVM 和逻辑回归[50]。Duc 等[51]开发了一种 3D CNN 结构用于 AD 和 CN 的 MRI 图像分类任务,同时结合线性最小二乘回归(linear least squares regression,LLSR)、支持向量回归及具有组独立成分分析(group independent component analysis,gICA)特征的树回归等方法预测 MMSE 分数以综合判断疾病状态。另有研究团队提出基于深度 CNN 和 SVM 的混合诊断方法,将每个目标的切片特征融合成一个特征向量,采用套索的特征选择方法,最后用 SVM 进行分类。实验结果表明,由于 CNN 和 SVM 的结合以及冗余特征的消除,该方法大大提高了分类性能。此外,迁移学习技术有效地缓解了小数据集带来的问题,减少了大量的训练时间[28]。
在国际 Kaggle 平台上提出了一项科学挑战,以评估预测 MCI 及 cMCI 不同方法的性能。第三名的参赛团队提出了一种基于随机森林特征选择和深度神经网络分类的分类策略,使用包含 NC、AD、MCI 和 cMCI 四种分类问题的混合队列来训练模型。此外该方法与一种新的基于模糊逻辑的分类策略进行了比较,发现模糊逻辑在 cMCI 分类中尤其准确,表明这些方法的结合可能会带来更优的分类效果[52]。CNN 与传统机器学习方法相结合,为 AD 病程的分类研究提供了新的思路和方向。
3.3 多模态数据融合
晚期 AD 患者在临床中很好鉴别,但是 MCI 的早期诊断较为困难,因此临床医生通常参考各类神经影像学检查以及神经心理学诊断结果,综合判断病程阶段。在基于 CNN 的 AD 病程分类中考虑多模态数据结合同样有助于提高该疾病的诊断准确率。研究中通常选取 MRI 与 PET 影像与临床简易智力状态检查量表(Mini-mental State Examination,MMSE)、临床痴呆评估量表(Clinical Dementia Rating Scale,CDR)或逻辑记忆测验(logical memory,LM)等临床信息进行融合分类。在一项研究中采用两个独立的 CNN 对 MRI 和 PET 医学图像进行训练,通过相关分析判断两个网络输出的一致性,最后将多模态神经影像诊断结果与临床神经心理诊断结果相结合,显著提高了辅助诊断的准确性,也使诊断过程更加接近临床医生的诊断流程。在 ADNI 数据集实验中,AD 与 MCI 分类灵敏度为 97.39%,特异度为 84.27%,准确度为 88.25%,AUC 值为 0.886 4。实验结果表明多模态辅助诊断方法能够达到很好的诊断效果[53]。此外,MRI 不同成像方式的融合也有利于提高分类精度,如结构 MRI 与弥散张量成像(diffusion tensor imaging,DTI)结合[54]。未来的研究中,更趋向将不同神经成像技术及临床文本信息充分结合以提高算法分类性能。
4 CNN 在 AD 诊断中的挑战
由于 AD 的不可治愈性,早期诊断变得尤为重要。近年来,深度学习方法中的 CNN 逐渐成为分析小数据集医学图像的热门工具,广泛应用于医学图像分割、识别等方面。本文通过系统地回顾近五年 CNN 在 AD 诊断方面的应用,了解到在该领域研究中 CNN 表现优异。在没有临床专家的情况下,自动分类疾病不同阶段的方法可以为 MCI 的早期诊断提供客观的依据。虽然目前在 AD、MCI、CN 甚至 MCI 早期的预测中已经取得了很好的分类效果,但仍然存在很多尚未解决的问题,而且研究成果还没有真正应用于临床以辅助医生诊断。CNN 分类诊断 AD 需要在各种条件下表现出一致的性能,才能为临床中的实际应用做好准备,但目前仍存在不足与挑战,主要分以下几点阐述。
4.1 可解释性
传统机器学习方法可能需要专家参与预处理步骤,以便从图像中提取和选择特征。然而,由于深度学习不需要人工干预,而是直接从输入图像中提取特征,相对于依赖预处理的传统机器学习可以实现更好的性能。但是深度学习这一特点带来了不确定性,即在每个时期会提取哪些特征,除非对特征有特殊的设计,否则很难显示哪些特定特征是在网络中提取的。同时因为深度学习算法的复杂性,具有多个隐含层,很难确定这些选择的特征是如何得出结论的,以及特定特征或特征子类的相对重要性。正因为 CNN 分类 AD 过程缺乏解释性,无法像临床专家在诊断中一样直接提供推理和解释,因此临床医生也很难完全信任此类系统。
如果 CNN 模型具备可解释性,算法研发者可根据其输出结果优劣的原因所在,对算法进行改良。但如果算法不具备解释性,则改良算法变得异常艰难。研究中提出利用反卷积可以重构每层的输入特征并实现可视化,分析每层对整体分类性能的贡献,解释 CNN 学习到的特征如何,并对不足之处进行改进,由此来分析如何建立更好的网络结构[55]。近年来研究者们不断对 CNN 可视化进行探索,在一项研究中从不同角度对 3D-CNN 在 AD 分类中的机制进行了可视化解释,提高了对 3D-CNN 在 AD 分类中的可解释性[56]。
4.2 泛化性
由于不同医院成像设备不同,扫描的参数也不尽相同,因此会影响 CNN 对疾病的分类效果,会出现模型在某个数据集上训练效果很好,但用于另一个数据集时效果突然下降的情况。针对这个问题,在目前研究中一方面通过扩大数据集的来源以缓解在实际应用中的泛化困难,另一方面通过技术上的手段加以克服,如迁移学习,即先在数量大的数据集预训练,再到数量小的数据集上微调,或者通过多任务学习(multi-task learning,MTL)的方法[57-59]。但目前该问题尚未得到有效的解决,仍在探索研究中。
4.3 准确率
医学影像分类不同于其他的分类问题,预测准确性不仅对提升临床医生诊断信心有价值,而且对患者更是意义重大,因此将该模型应用于临床实际诊断也需要更加慎重。任何一项关于 AD 分类模型最重要的目标就是提升准确率,有的算法表现很优异但是并不稳定,鲁棒性较差。在许多研究中已经证实使用两种或两种以上多模式神经成像数据比单一神经成像数据的分类准确性更高,即多模态数据融合,这是从输入数据的角度提高分类准确率。另外 CNN 各类模型在 AD 诊断中都有不错的表现,从算法结构优化、数据增强、迁移学习、数据预训练、CNN 与传统机器学习方法的结合以及注意力机制[60]的运用上,都在一定程度上提升了分类性能。该领域的研究者通过不断对 CNN 模型进行优化,致力于构建一个准确度高、性能稳定、可供临床应用的模型,为延缓 AD 的发展做出贡献。
5 总结与展望
随着全球 AD 数量的迅速增加,在发达国家它已是主要死亡原因之一,而且 AD 患者不仅自己痛苦,也给家庭也带来了沉重的负担,因此早期发现、早期干预对于延缓疾病发展十分关键。本文以 CNN 的发展为轴,系统地回顾了它在 AD 诊断中的应用现状,研究表明 AD 的早期诊断是完全可以实现的,但是仍存在一些待解决的问题,如模型泛化性、算法鲁棒性及可视化等。本文参阅的文献中,由于各个文献研究所用数据的来源、类型以及预处理方法等并不一致,所以对于各类模型最终分类结果的正确率只是作为大致的参考与对比,并没有详细比较各个研究中的分类结果。目前 CNN 在 AD 早期诊断方面的研究仍然在不断发展中,研究者们尝试探索不同生物标志物最佳的融合方式,以及算法结构的优化改进,如注意力机制与 CNN 的结合。同时,加强理论技术人员与临床工作者的交流对 AD 早期诊断的研究也大有益处。
利益冲突声明:本文全体作者均声明不存在利益冲突。