AI全视野组织学影像分析

发布时间:2020-10-29 18:03

导读

随着人工智能和深度学习算法、模型的发展,深度神经网络在图像处理中取得了一系列引人注目的成绩:比如,经典的ResNet在ImageNet的自然图像分类上可以达到95%以上的Top5准确率。一般而言,深度神经网络的输入图像尺寸在200 x 200至500 x 500像素范围内。除了利用神经网络处理自然图像,研究人员也利用神经网络对于小尺寸的医学图像,诸如X-Ray、CT、MRI等(通常在1000 x 1000像素以内)进行分析处理。

 

全视野组织学图像(histopathological whole-slide image,缩写WSI)是医学图像中的一类,被认为是确诊癌症的黄金标准,病理学家对于组织学图像的诊断是十分耗时的,所以研究人员尝试用神经网络识别组织图像中的肿瘤区域。但是因为WSI尺寸庞大,如一张扫描倍率为40x的WSI其大小可能高达80,000 x 80,000至200,000 x 200,000像素,占据约数GB的存储空间,所以当利用神经网络对于WSI进行分割、分类等分析时,首先需要将其切割成多块诸如200 x 200的小块子图像,再对每块子图像单独进行处理,如下图所示。

 

图1. 大尺寸WSI切割成小尺寸小块子图像

 

这样的切割策略和预测模型会造成单张WSI就有数万张的小块子图需要处理,每张WSI进行分类的平均时间因算法而异会达数分钟甚至数十分钟的预测。除此以外,上述的切割后预测的方法还会造成输入到神经网络的图像缺失空间相关性,并造成更多的假阳性和假阴性。

 

研究背景:医生通过浏览患者的WSI实现肿瘤的确诊。同时实现WSI中肿瘤区域识别也是其他进一步诊断的重要前继,诸如肿瘤阶段识别、基因型识别等。如果可以利用神经网络对于WSI中肿瘤区域进行分类和识别可以大大减轻医生或病理学家的工作量。先前已经有不少的研究工作实现了WSI中的肿瘤定位、分类和分割等量化分析任务,但是因为WSI的尺寸很大,单张WSI诊断时间长,高性能的处理和预测模型的研究迫在眉睫。

本次,我们将介绍4篇利用深度神经网络处理WSI的加速算法。其中3篇是通过采样减少神经网络处理的子块进而实现算法层面的加速;还有一篇是利用分布式处理实现的高性能计算。

 

模型概览1

蒙特卡洛采样(Monte Carlo Sampling)和肿瘤区域预估减少WSI诊断需要的采样比例实现加速

为了解决上述提出的预测阶段处理小块子图像数据量大和预测结果缺失空间相关性的难题,最近一篇由J. Ke和Y. Shen等撰写的Fast Tumor Detector in Whole-slide Image with Dynamic Programing based Monte Carlo Sampling [1] 发表在2020年的IEEE International Conference on Image Processing (ICIP) 会议上(https://2020.ieeeicip.org)。该文章提出了一种基于蒙特卡洛采样和预估的方法,在WSI的分类任务中实现了平均约2.3x的预测阶段的加速,并且利用空间相关性动态的修正小块子图像层面预测的假阳(阴)性,从而提高模型的预测准确率。据编者所知,这是首次提出的对于WSI层面分类任务加速的模型,并且也是首次提出一种动态修正预测结果的模型。该模型通过蒙特卡洛采样小块子图像用于神经网络预测,生成初始的肿瘤区域预估。随后,通过采样预估可能性为肿瘤较高的区域再次预测,并且更新预估。对于可能是错误预测的小块子图像的预测利用空间关联性进行动态修正。依次往复,更新预估分布和WSI层面诊断结果,直到模型的预测结果达到收敛。其模型的总体结构如下图所示:

 

图2. 基于蒙特卡洛采样的WSI肿瘤区域预测加速模型[1]

 

在预测的过程中动态的对于潜在的假阳(阴)性进行修正,判断的标准是与相应的小块子图的预测结果是否一致:

 

图3. 缺失空间相关性造成的假阳/阴性预测[1]

 

重复上述采样预估和动态修正的迭代过程,逐步对肿瘤区域的分布预估不断地更新:

 

图4. [1]中提出模型的采样和肿瘤区域预估图

 

实验团队在公开数据集TCGA(https://portal.gdc.cancer.gov)中的结直肠癌子数据集上进行了模型的验证,相比于传统的切割和预测所有子图像的算法利用上述模型可以取得2.3x的预测提速,并且肿瘤分类的AUC指标可以达到0.944(v.s. 常规预测算法的AUC约0.933)。

 

模型概览2

基于准蒙特卡洛和浸润性癌症分布的梯度情况实现快速分割 除了快速的实现全视野组织学图像中的分类任务,还有的研究工作提出了一种快速实现分割的策略。比如由A. Cruz-Roa和H. Gilmore等人在2018年发表在Plos One上的题目为“High-throughput adaptive sampling for whole-slide histopathology image analysis (HASHI) via convolutional neural networks: Application to invasive breast cancer detection [2]” 一文中设计了一种自适应的基于浸润性癌症的概率分布预估的梯度和准蒙特卡洛采样(quasi Monte Carlo sampling)的预测模型,目标为更快实现浸润型乳腺癌的分割。该篇研究采用了来自三个数据集的500个样例,其结果展示了相比于常规的密集的采样策略,该策略可以在一分钟内采样约2000次并且达到76%的Dice值。其模型的总体设计结构如下:

 

图5. [2]中分割模型加速模型总体示意图

 

每次迭代过程中以预估目标的概率分布的梯度最大处进行准蒙特卡洛采样。

 

图6. [2]中模型对于浸润性癌症区域分割的结果展示

 

模型概览3

基于概率梯度图和自适应采用的对于乳腺癌实现二分类加速的模型

类似于上述模型,C.Wu和J. Ruan 等人发表在ICACI上的题目为Identifying Tumor in Whole-Slide Images of Breast Cancer Using Transfer Learning and Adaptive Sampling [3] 也采用了概率分布梯度图和自适应采用的方法,实现了乳腺癌的二分类加速。其结构示意图如下:

 

图7. [3]中模型总体示意图

 

该算法相比于传统采样的算法,虽然Dice从0.9566下降到了0.9113,但是采样时间获得了17.9x的提速(1325.6 seconds / 74.3 seconds)。

 

模型概览4

基于并行处理的WSI分析模型

2017年BMC Bioinformatics 由Y. Xu, Y.Li等人发表的Parallel multiple instance learning for extremely large histopathology image analysis [4] 一文提出了一种并行实现组织学图像处理加速的方法。与前面提及的两篇基于Monte Carlo采样和预估的模型不同的是,该文侧重于并行处理,而不是算法层面的减少采样点实现加速。其总体结构示意图如下:

 

图8. [4]中模型总体示意图

 

其中采用了并行的multiple instance learning(MIL)的模型,对基于小块子图像进行聚类,实现组织学图像的分类、分割和聚类任务。从118个病人收集到的1318张WSI作为实验数据,该训练集达到了3.78TB的储存容量。单个节点难以储存如此大量的数据,而文中提出的模型将数据分布式的储存在多个节点,并且确保训练得到的模型在准确性和敏感度没有下降。

 

小结

 

上述的几种预测加速算法对于落实深度学习算法到实际医疗诊断中有着广泛的前景。因为医疗数据集,比如组织学切片,其尺寸通常十分巨大,利用神经网络进行处理和分析的时间花费很长。随着模型的准确度逐渐提高,接近甚至超过病理学家的诊断准确度的前提下,减少测试阶段模型采样的数据量以及设计轻量化的结构,逐渐成为了一个越来越重要的方向。
由于水平有限,文中存在不足的地方,请各位读者批评指正,也欢迎大家参与我们的讨论。

 

参考文献

 

[1] J. Ke, Y. Shen, Y. Guo and X. Liang, "Fast Tumor Detector in Whole-Slide Image With Dynamic Programing Based Monte Carlo Sampling," 2020 IEEE International Conference on Image Processing (ICIP), Abu Dhabi, United Arab Emirates, 2020, pp. 2471-2475, doi: 10.1109/ICIP40778.2020.9190987.

[2] Cruz-Roa, A., Gilmore, H., Basavanhally, A., Feldman, M., Ganesan, S., Shih, N., ... & González, F. (2018). High-throughput adaptive sampling for whole-slide histopathology image analysis (HASHI) via convolutional neural networks: Application to invasive breast cancer detection. PloS one, 13(5), e0196828.

[3] C. Wu et al., "Identifying Tumor in Whole-Slide Images of Breast Cancer Using Transfer Learning and Adaptive Sampling," 2019 Eleventh International Conference on Advanced Computational Intelligence (ICACI), Guilin, China, 2019, pp. 167-172, doi: 10.1109/ICACI.2019.8778616.

[4] Xu, Y., Li, Y., Shen, Z. et al. Parallel multiple instance learning for extremely large histopathology image analysis. BMC Bioinformatics 18, 360 (2017). https://doi.org/10.1186/s12859-017-1768-8

 

上一个: 图结构: 分析神经网络的新视角-1

下一个: 「专栏 | 大规模AI计算系统」概述

近期文章

AI 智能体:应用前景与对算力需求的影响

人工智能技术的迅猛发展,尤其是 AI 智能体这一核心部分。本文讨论了AI智能体的定义、应用前景和其对算力需求的影响。

2023-11-13

查看更多