视觉神经场:NeRF研究的新视角

发布时间:2021-12-06 07:00

摘要

 

基于神经辐射场方法的场景表征与渲染无疑是近两年来视觉计算领域的热点工作之一,吸引了大量的相关研究。近期提出的视觉神经场概念,可以很好地概括目前相关领域的一些进展,并为我们提供了一个更加清晰的研究视角。本文将介绍神经场方法的基本概念,以神经辐射场作为一个具体的例子,介绍神经场的主要流程,并简单地展示一些相关的应用。

 

引言

 

合成具有真实感的影像是计算机图形学的核心话题,也是几十年来相关研究的焦点。近期流行的神经渲染方法结合了经典的图形学和机器学习的方法,使得产生具有真实感的影像变得更为便捷。其中基于神经辐射场方法的场景表征与渲染无疑是近两年来视觉计算领域的热点工作之一,吸引了大量的相关研究。我们的公众号曾有多篇文章介绍该领域的相关工作。由于目前该领域发展的非常快,在三维重建、新视角合成图像、三维形状生成、人体数字建模任务以及机器人姿态估计等任务上都涌现了很多新的工作,亟待对现有的进展进行总结。

 

近期陆续出现了一些综述性的文章以及一种新的视角,可以将相关方法归纳为视觉神经场(Neural Fields)方法。​在该视角下,我们能够更加清晰地看到一个更为广阔的视觉相关的研究进展。本文的主要目的是介绍神经场方法,并从该视角下考察近期的视觉计算领域的一些进展。本文将先介绍神经场方法的基本概念,并以神经辐射场作为一个具体的例子,介绍神经场方法的主要流程。之后,为了进一步激发读者的兴趣,将展示一些相关的应用。最后是我们对该方法的一个小结。感兴趣的读者可以进一步参考相关综述[1,2]。

 

图 1神经场方法相关的论文发表数量(引自文献[1])

 

神经场方法

 

首先从物理角度来看场的概念:可以认为场是弥散于时间和空间的一种物理量,例如温度场、密度场、辐射场、磁场、引力场等。从数学的角度上说,场可以定义为时间与空间上的连续函数。因此场随着空间以及时间的变化而得到不同的值。且当函数q的维度n等于1时为标量场,大于1时为矢量场,同理也可以定义张量场。如果问题不含时间,则函数可表示为。需要注意的是,场的概念可以拓宽,这里的x可以不仅仅指代具体的空间,若是抽象空间中的坐标量,也可以看成x的分量。

 

由于神经网络可以拟合任意连续函数,因此可以用神经网络来拟合上述的函数,得到,其中为神经网络的权重参数。注意这里函数的索引依赖的是连续的空间x以及时间,而不像常见的离散的图像索引(给出离散数字索引得到图像的某个像素)。另外,神经场常被称为基于坐标的神经网络(coordinate-based neural network)。神经场函数是连续自适应的,可以随着参数的数量来调整网络的复杂度。因此神经场函数将比传统离散方法具有更大的适应性,不再受制于离散采样上的诸多限制。注意这里的术语——神经场(Neural Fields)的使用,其概念限于上述的定义,有别于大脑相关的神经场研究[3]。

 

以上描述未免有些抽象,让我们重新回顾一个具体的例子——神经辐射场(NeRF: Neural Radiance Fields)。神经辐射场可以从不同视角拍摄的图片学习出一个三维的表征,并渲染出新视角下的二维图片。从函数拟合角度上来看,神经网络拟合的是如下函数:

 

 

其中即为神经网络的权重参数,x是空间坐标,为相机角度,c为RGB颜色,为不透明度。如果从数据流的角度上来看,输入的是不同视角下的多张图片,NeRF学习的是三维表征,并通过渲染得到新视角下的图片。感兴趣的读者可以进一步参考之前的公众号[神经渲染最新进展与算法(二):NeRF及其演化]

 

图 2神经场辐射场(NeRF)数据流(引自文献[4])

 

而关于神经场的训练过程,也可以先考察NeRF的训练过程。NeRF用神经网络得到隐式表征后,沿观察方向对隐式表征进行三维容积采样,投影到观测方向后产生渲染图像,损失函数由投影图像与实际数据的差得到,最后使用反向传播训练神经辐射场。如下图:

 

图 3神经场辐射场(NeRF)渲染与训练示意图(引自文献[4])

 

从NeRF的训练流程可以推广得到神经场方法的流程:

 

图 4神经场方法流程示意图(引自文献[1])

 

如上图,可以分为五个步骤,1)坐标采样过程(Coordinate Sampling):从坐标空间中采样数据点;2)神经网络(Neural network)过程:神经网络对采样点进行推理;3)域重建(Reconstruction Domain)过程:重建神经场的表征过程,4)前向可微映射(Differentiable Forward Map)过程,以及5)域感知过程:由观测数据与前向隐射数据构成监督训练过程。从数据流的角度来看,即从坐标空间中进行采样数据点,输入到神经网络中得到场的表征(例如辐射场),再通过前向映射将场的表征投影到可观测状态下,最后与实际观测数据做差构成损失函数。

   

神经场的应用

 

那么作为对神经辐射场的拓展,神经场方法与以往的方法相比,带来了哪些新的思路呢?我们将在这里简单介绍一些相关的应用。

 

首先是超分辨率任务。文献[5]提出了一种实现高分辨率的方法,与传统离散地存储、处理图片的方式不同,作者提出了利用神经场的方式学习出了图像的连续表示,从而可以使得图像达到以任意分辨率(可以在实际图像上实现30倍以上的高分辨率)。

 

图 5图像超分辨率展示(引自文献[5])

   

其次来看看人体数字化相关的任务。目前工业界动画、游戏中使用的静态三维数字人体主要通过3D网格模型进行构建,多数由美术师使用三维建模软件手工制作,因此费时费力。基于神经场方法为此带来了新的可能。文献[6]对基于NeRF方法提出了一种从单眼视频图像重建数字人体的新方法。

 

图 6人体的单眼视频图像的重建人体隐式表征(引自文献[6])

 

同样也可以学习出人体头部的神经场,从而可以对整个头部的几何、纹理、表情甚至是头发进行数字建模。

 

图 7隐式可形变、可编辑色彩和几何的头部模型(引自文献[7])

 

文献[8]提出了使用神经符号距离函数(可以看成一种神经场)来编码三维模型,从而实现可多层次细节捕捉的自适应。如下图:

 

图 8不同层次细节层次下的几何特征(引自文献[8])

 

同样可以将神经场应用于视频的编辑上,文献[9]提出了一种将输入视频分解为一组分层二维地图集的方法,对视频中的每个像素,估计其在每个地图集中对应的二维坐标,且设计的地图集具有语义性,从而有助于在保持时间一致性的情况下,对地图集进行简单直观的编辑,下图是作者的可编辑展示效果:

 

newlsj (3)

图 9视频编辑效果展示(引自文献[8])

 

另外神经场的应用并不局限于视觉任务中,可以看到其在机器人领域上应用。例如文献[10]提出了使用神经场来预测连杆最近距离从而完成避免机械臂自碰撞的任务,如下图:

 

图 10机械臂控制任务展示

 

最后,神经场方法也可以用来求解偏微分方程。例如之前公众号[物理导引神经网络方法分析]提到的物理导引神经网络,就可以看作一种神经场方法,从而将偏微分方程的求解转化为神经网络的优化过程。

 

小结

 

深度学习技术为计算机渲染提供了新的机遇。神经辐射场(NeRF)方法的场景表征与容积渲染方案为基于坐标的神经网络方法提供了良好的范例。作为NeRF的拓展,神经场的视角有助于我们看到在三维重建、新视角合成、三维形状生成、人体数字建模以及机器人姿态估计等任务上的共通点。

 

神经场的隐式表征函数是连续自适应的,可以通过控制参数的数量来调整网络的复杂度。因此神经场函数将比传统离散方法具有更大的适应性,不再受制于离散采样上的诸多限制。基于这样的视角,我们看到了在超分辨率、人体数字化、三维几何建模、时序一致的视频编辑、机械臂避障任务上的应用,并为后面的研究描绘了一个研究蓝图。对于神经场方法后续的拓展,需要着重关注的过程应该是如何构建前向可微的映射过程,从而将隐式表征转换到可感知的投影数据上。神经场方法可以看作深度学习和物理场方法结合的一种优良范式,相信在不久的将来,一批基于神经场方法的新型计算方案,将使深度学习发展的工具链生态更好地应用于各行各业。

                                                                                 

参考文献

 

1.Xie, Yiheng, et al. "Neural Fields in Visual Computing and Beyond." arXiv preprint arXiv:2111.11426 (2021).

2.Tewari, Ayush, et al. "Advances in neural rendering." arXiv preprint arXiv:2111.05849 (2021).

3.Coombes, Stephen, et al., eds. Neural fields: theory and applications. Springer, 2014.

4.Mildenhall, Ben, et al. "Nerf: Representing scenes as neural radiance fields for view synthesis." European conference on computer vision. Springer, Cham, 2020.

5.Chen, Yinbo, Sifei Liu, and Xiaolong Wang. "Learning continuous image representation with local implicit image function." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.

6.Peng, Sida, et al. "Neural body: Implicit neural representations with structured latent codes for novel view synthesis of dynamic humans." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.

7.Yenamandra, Tarun, et al. "i3DMM: Deep Implicit 3D Morphable Model of Human Heads." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.

8.Takikawa, Towaki, et al. "Neural geometric level of detail: Real-time rendering with implicit 3D shapes." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.

9.Kasten, Yoni, et al. "Layered Neural Atlases for Consistent Video Editing." arXiv preprint arXiv:2109.11418 (2021).

10.Bhardwaj, Mohak, et al. "STORM: An Integrated Framework for Fast Joint-Space Model-Predictive Control for Reactive Manipulation." 5th Annual Conference on Robot Learning. 2021.

 

上一个: Transformer霸榜,点积自注意力是否不可替代?

下一个: 比快更快:混合精度计算加速的实现

近期文章

通用AI模型的未来:深度强化学习(deep reinforcement learning)

近年来,AI模型开始涌现出超越人类的潜力,在传统的围棋游戏以及拥有复杂规则和系统的电竞游戏(星际争霸2,Dota 2等)中都有体现。随着ChatGPT的出现,人们开始意识到语言模型成为通用人工智能的可能性,而这些模型的核心都是深度强化学习。

2023-05-08

“为了全人类更好地交流”:通用语音识别

人机交互的第一步往往由人发起,从你说出第一句话开始,计算机如何可以应答并能进而和你自然畅谈?在之前文章里我们分享了当前利用AI进行语音识别的关键步骤和做法,这次我们将随着技术的进化发展,领略当前通用语音模型的进化高度。

2023-04-24

查看更多