概率图模型在深度学习的应用
发布时间:2020-11-28 11:35
摘要
随着深度学习在感知任务方面越来越出色的表现以及对深度模型可解释性的更加迫切需求,近年来涌现出了贝叶斯深度学习(Bayesian Deep Learning,BDL)方法,其核心思想是利用一个统一的概率框架将深度学习的出色感知能力与概率图模型(Probabilistic Graphical Model, PGM)的可解释性特性进行有机融合。今年九月,MIT的几位学者在国际顶级期刊ACM Computing Surveys上发表了一篇BDL综述论文[1]。按照BDL所涉及的主要技术,该论文对近几年出现的诸多BDL模型进行了系统性的归纳和总结。同时,论文也介绍了几个BDL在推荐系统、主题模型等方面的经典应用。该论文对了解和跟踪概率图模型在深度学习的应用有着较高的参考价值。
由于上述论文是一篇覆盖内容较多、涉及面较广的综述文章,在有限的篇幅内,不能一一详细阐述所有细节。因此,本文从论文中选择了贝叶斯深度学习模型的基本理论,侧重于介绍其相关概念和核心技术。首先,本文介绍了主流的概率图模型之一,隐狄利克雷分布(Latent Dirichlet Allocation,LDA)。其次,介绍了BDL框架的感知、特定任务两个核心组件以及其他相关概念。然后,以该论文中的推荐系统为例,介绍BDL模型在实际问题中的应用。最后,简略地对该综述论文进行总结。
1、概率图模型(PGM)
LDA模型是在文本分类中广为熟知、广泛应用的一种主题模型。同时,作为一种典型的PGM模型,LDA模型可以plate方式进行表示,如图1所示。其中,将重复的变量θ、Z、W、β放到长方形框内,脚本J、D、K代表这些变量的重复次数,因此plate是一种简洁、优雅的图形表示方式。更具体地来讲,J是文本数量,D是文本字数,K是主题个数,W是单词(也是唯一可观察变量,用阴影节点表示),α、β是学习参数,θ和Z是隐形变量。有关plate的更多信息,可参考文献[4]的章节10.4.1。
图1:LDA模型的PGM表示(原文Fig. 4)。
PGM模型的特征之一是可以用于生成模型中所有变量(包括隐形变量和可观察变量),可借助主流概率编程工具如Stan[2]、基于Python的PyMC3[3]进行进一步的抽样。为了更好地利用贝叶斯模型对不确定性的表达能力,可以结合Markov Chain Monte Carlo(MCMC)和变分推断(Variational Inference)等近似方法进行模型训练和推理。LDA的生成过程如图2所示。
图2:LDA的生成过程。
2、贝叶斯深度学习模型BDL
概率图模型PGM是描述由环境噪音等引起的不确定性的有力工具,PGM的贝叶斯特性有助于提升深度学习模型的灵活性和可解释性。贝叶斯深度学习模型BDL正是以一种统一的概率框架将两者进行无缝连接,也为深度学习中的过拟合(overfitting)和拟合不足(underfitting)等问题提供一种可行的解决方案。
该论文将BDL模型提炼为感知组件和特定任务组件两部分。
(1)感知组件(Perception Component):主要负责处理与感知任务相关的工作,如图像、视频的特征提取。在实现上,由某种类型的深层神经网络(如Multilayer Perceptron (MLP) 、Stacked Denoising Autoencoders (SDAE),Recurrent Neural Network (RNN)等)对输入进行线性和非线性的转换。在结构表示上,主要对深度神经网络的权重和神经元(包括输入层、隐含层和输出层)以图形方式表示,并按照深度神经网络中的层级顺序以类似马尔可夫链方式表示,如图3中左边红色框部分。其中,X0代表神经网络的输入层,X1、X2、X3代表隐含层及X4代表输出层,W1、W2、W3、W4分别是与X1-X4相对应的权重。
(2)特定任务组件(Task-specific Component): 主要负责描述复杂的概率分布以及变量之间的关系,如图3中右边蓝色框部分。可选择结构类型较多,如上述的LDA模型、深度贝叶斯网络(Deep Bayesian Networks)、随机过程(Stochastic Process)。需要特别指出的是,这里的贝叶斯网络主要功能不在于基于证据的推理,这也是与文献[5]中的贝叶斯网络的主要区别之一。
图3:BDL的概率图表示(原文Fig. 5)
在BDL模型框架中,随机变量分为感知变量(Perception Variables)、连接变量(Hinge Variables)、任务变量(Task Variables)三种类型。感知变量通常是深度学习模型中的神经元和权重,如图3中的X0-X4和W1-W4变量。连接变量主要负责感知组件与特定任务组件之间的信息交换,是连接感知组件和特定任务组件的唯一桥梁。在图形结构表示上,连接变量归入特定任务组件,即图中蓝色部分,图3中连接变量只有H。任务变量只能通过连接变量与感知变量交互,如图3中的A、B、C、D变量。
连接变量主要描述感知组件和特定任务组件之间交互的不确定信息,通常用高斯函数表示,可选择0方差、超方差(人为手动选择)、可学习方差(从机器中学习)。很明显,可学习方差的描述能力最强。同时,为了提高感知组件在训练过程中的并行计算效率,感知组件与连接变量的连接(如图3中的X4->H)通常独立于其他变量,但是,这个独立性要求不是必须的。
在图3的红色部分,W1-W4也可以看成是描述神经网络权重的随机变量,是对模型权重的不确定性描述。如果忽略蓝色部分,图3实际上就是贝叶斯神经网络(Bayesian Neural Networks,BNN)的概率图表示。因此,BNN是BDL模型的一个特例。
3、BDL应用的案例分析
该论文对BDL模型在推荐系统、主题模型、控制系统三个领域的实际应用进行了详细介绍,囊括了监督学习和非监督学习两种方式。由于篇幅有限,本文主要选取其中基于协同深度学习(Collaborative Deep Learning,CDL)的推荐系统作为示范案例,其概率图表示如图4所示。
图4:CDL的概率图表示(原文Fig. 7)
在CDL模型中,感知变量包括除X0之外的所有物品(如文章、电影)矩阵X、所有神经网络的权重和偏执变量(在图4中集体表示为W+),连接变量为V以及任务变量为评分矩阵R和隐形用户向量u。模型中所有的λ是引入的先验知识的超参数,由人工预先设定,不需要放入模型训练中。
CDL使用了栈式去噪自动编码器SDAE,为图4中红色框部分(右边为左边扩展后的结构,L=2,L表示神经网络层数)。其中,X0代表带噪音的数据,Xc是去噪后的干净数据。换言之,红色框部分代表了一个以带噪音数据为输入和以干净数据为输出的神经网络,箭头代表了关联关系。比如,X1由当前层的权重W1和偏差b1所决定,类似于图3,但在图形中以W+统一表示所有层的权重和偏差。
与LDA类似,CDL的生成过程描述如图5所示。
图5:协同深度模型的生成过程。
虽然CDL模型也可以用马尔可夫链蒙特卡洛算法(MCMC)进行训练和推理,但是计算成本非常高。另一种方法是采用EM(Expectation Maximization)算法,从而模型训练的任务转化为在给定所有超参数λ的前提下,计算连接变量、感知变量和任务变量的最大似然估计。从神经网络的角度来看,该模型的训练可以看成两个神经网络对同个损坏照片集进行训练,但网络输出结果不同,可形象化表示为图6。
图6:从神经网络角度看CDL的训练过程(原文Fig.8)
CDL模型的主要任务之一是在给定隐形用户向量u和神经网络权重W的情况下计算物品评分,可按照下面的公式进行计算。
除了CDL模型之外,论文还详细介绍了基于BDL的RSDAE(Relational Stacked Denoising Autoencoders)主题模型,其图形表示如图7所示。其使用方法与CDL类似,在此不再赘述。
图7:RSDAE主题模型的图形表示(原文Fig.9)
4、思考与总结
论文[1]较为全面地总结了如何将概率图模型与深度学习技术进行有机融合的最新相关研究,并以感知组件、特定任务组件对贝叶斯深度学习技术进行了相应的概括和进一步提炼。此外,该论文还详细介绍了BDL模型在推荐系统、主题模型、控制系统三个应用实例,并对在自然语言处理、计算机视觉、语音和时间序列等方面应用进行了归纳。在概率图模型方面,该论文将范围限于有向图,无向概率图与深度学习的结合以及在半监督学习方面尚未涉及。总体而言,这份详细综述对于了解BDL模型和其最新研究动态有很好的参考价值。
由于水平有限,文中存在不足的地方请各位读者批评指正,也欢迎大家一起参与我们的讨论。
参考文献
[1]Wang, Hao, and Dit-Yan Yeung. "A Survey on Bayesian Deep Learning." ACM Computing Surveys (CSUR) 53.5(2020): 1-37.
[2]https://mc-stan.org/
[3]https://docs.pymc.io/
[4]Murphy,Kevin P. Machine Learning: A Probabilistic Perspective. MIT press,2012.
[5]Pearl, Judea. "Bayesian Networks:A Model of Self-activated Memory for Evidential Reasoning." Proceedings of the 7th Conference of the Cognitive Science Society, University of California, Irvine, CA, USA.1985.
上一个: 加入图卷积的多智能体强化学习
近期文章
通用AI模型的未来:深度强化学习(deep reinforcement learning)
2023-05-08
2023-04-24