3D高斯(3D Gaussian Splatting for Real-Time Radiance Field Rendering)
首先,我们来看一下3D高斯的特点是什么?3D模型组成表面的方法通常有两种,一种是由方块组成,另一种是由三角形组成,而3D高斯splatting是由椭圆组成的模型。
3D高斯splatting允许在1080p分辨率下实现高质量实时(大于30帧每秒)。在提出该方法时,在现有公开数据集,确保实时渲染,达到sota质量。mipner360在渲染阿相同质量下,需要长达48h的训练时间,无法在高分辨率下实时渲染。
总结一句话:速度快且质量好。使用Insrtant-ngp的速度实现了mipner的渲染质量。
1、文章贡献:
(1)引入了一种各向异性(anisotropic)的3D高斯作为高质量、非结构化的辐射场表达。
(2)实现了使用GPU进行快速可微的渲染,允许各向异性的抛雪球(Splatting)和快速反向传播。
(3)提出了针对3D高斯特性的优化方法,并同时进行自适应密度控制。
2、预备知识(3D高斯公式的推导和其他的相关研究)
(1)由一维高斯推广到三维高斯
经过最终的推导,会得到三维高斯的概率密度函数,由矩阵A和协方差矩阵Σ所决定和控制。
(2)相关NeRF的研究
第一个是PointNeRF,这项研究的贡献如下(绿色部分与3D高斯的思想比较接近):
- 为每一个点赋予特征向量
- 体渲染时采样点周边的一定领域内的点的特征做线形插值,解码获得颜色值和不透明度
- 自适应点云的生长和剔除
第二个是Plenoxels,最重要的是使用球谐函数来替代原来的体渲染的工作,体素格点存储球谐函数(spherical harmonic)系数,系数做插值得到采样位置的球谐函数。
3、3D高斯具体方法
有了上述的预备知识,到了这一步骤我们就可以开始3D高斯的学习了。
(1)可微的3D高斯Splatting
我们要清除的是3D高斯依旧是一个一个的点,每一个点都是一个3D高斯分布。一维的高斯是一个钟形曲线,二维的高斯是一个像小山包的形状,而三维高斯就像是一个椭球。而3D高斯只要做到一件事情,优化每一个点的参数。
每一个3D高斯的点都存储了以下信息:
- Position(位置信息):这是一个椭球的中心,也是高斯分布的均值
- Covariance(协方差矩阵):次变量可以控制椭球的大小,形状和方向
- Opacity(不透明度):用于控制不透明度,用于Splatting时的渲染
- Spherical harmonics(球谐函数):球谐函数,你和视角相关的外观
文章中使用的3D高斯函数如下,与上面推导的公式相比,这里缺少了均值μ,这是因为x-μ的作用是为了中心化,但是x已经是中心点了,故而可以省去中心化的步骤。原公式中的系数也被去掉了。
在优化的过程中,为了能够加速优化的过程,通常会将旋转矩阵R转换成四元数进行优化,由9个数转变为了4个数。另一个需要考虑的问题是,如果需要对协方差矩阵进行优化,那么就需要对其进行求导从而进行梯度更新。矩阵A如何对四元数和尺度求偏导?文章中有详细的推导公式。第三个问题为如何进行渲染?也就是说怎么将一个椭球投影成一个平面?文章中引用了在CG领域的其他研究的方法,文章中有写。
(2)优化 Optimization
上面的内容建立了3D高斯的数学模型了,那么优化的过程和优化策略可以说是3D高斯的核心。
- 随机梯度下降:利用梯度下降的方式进行参数的更新。
- CUDA核心:使用物理外挂给算法加速。
- 快速光栅化:使用光栅化开启多线程,并行的提高效率。
- sigmoid和exponential激活函数:使用sigmoid激活函数约束不透明度值域,使用指数激活函数。
- 损失函数:L1损失函数(渲染图像和GT突袭那个求光度误差),SSIM结构相似性误差(用户控制其在细节上的把控)。
(3)自适应高斯控制
我们初始化的点的数量并不是一成不变的,点的数量和分布也会进行变化,目的是为了更好的拟合细节信息。
- 每100次迭代移除不透明度小于阈值的点(透明的点没有必要再优化了)
- 重建不充分的区域往往会有较大的梯度(通过梯度来判断,如果方差大就克隆,如果方差小就分裂)
- Under-reconstruction:clone(欠重建:例如上图上一排就是一个点无法你和这个结构,于是需要克隆一个点出来)
- Over-reconstruction:split(过重建:例如图中的下一排,一个点无法完美的覆盖该区域,于是就将一个点分裂成两个点进行匹配)
- 周期性将不透明度重置为0用于去除floaters(漂浮物)
- 周期性移除较大的高斯用于避免重叠
(4)快速可光栅化 Tile-based Rasterizer(加速实时渲染的帧率)
- 把整个图像划分为16*16个tils,每个tiel视锥内挑选可视的3D Gaussian;
- 每个视锥内只取执行度大于99%的高斯,并按照深度排序;
- 并行地在每一个tile上splat;
- 有像素的不透明度达到饱和就停止对应线程;
- 反向传播误差时按tile对高斯进行索引;
4、总结
上面我们基本上就介绍完了3D高斯的关键技术了,那我们现在看一下全部的流程:
从初始的SfM点云出发,以每一个点为中心生成3D高斯。然后利用相机参数把投影点投影到图像平面上(也就是splatting)。接下来从splatting的痕迹中进行快速光栅化,得到渲染的图像。将渲染的图像和Ground Trueth图像求loss。最后沿着蓝色的箭头进行反向传播,还有自适应的密度控制模块,最终传到每一个点上的梯度,决定是否需要克隆或者分裂。梯度同时会传播到Projection中,更新其位置、协方差矩阵、球谐函数、不透明度等参数,完成一次迭代。
项目地址:https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/
论文地址:https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/3d_gaussian_splatting_low.pdf
参考博客:
【1】https://zhuanlan.zhihu.com/p/655325345
参考视频:
【1】https://www.bilibili.com/video/av872162410/?vd_source=0c5ad79582f906d810296380161a7988
【2】https://www.bilibili.com/video/BV11e411n79b/?spm_id_from=333.337.search-card.all.click
【3】https://www.bilibili.com/video/BV1te41167Gw/?spm_id_from=333.337.search-card.all.click
网友评论