3D渲染新思路 | PhysGaussian：牛顿动力学和3D高斯的无缝集成

时间：2024-09-12　来源：朝夕友人　点击：

作者：宁了个宁 | 来源：计算机视觉工坊

在公众号「计算机视觉工坊」后台，回复「原论文」可获取论文pdf链接

添加微信：dddvisiona，备注：Nerf，拉你入群。文末附行业细分群

图1所示。PhysGaussian是一个统一的模拟渲染管道，其中3D高斯可以无缝地模拟和渲染具有新颖的运动和视图。

0.笔者个人总结

尽管Nerf已经在3D图形和视觉方面取得了显著进步，但在生成新的动态场景方面仍存在差距。传统的基于物理的视觉内容生成管道通常包括多个阶段的过程，如构建几何、模拟和渲染，导致模拟和最终可视化之间的差异。本文提出了一种新颖的方法，通过引入高斯物理，将物理属性融入3D高斯核中，实现了模拟和渲染的统一表示。这种方法通过消除嵌入机制，确保了模拟和渲染之间的一致性和匹配。作者展示了高斯物理在多种材料上的成功应用，包括弹性物体、金属、非牛顿粘塑性物质和颗粒介质。总体而言，提出的方法在三维高斯运动学的连续介质力学、统一的模拟-渲染管道和各种材料上的实验中取得了显著的成就。

1.摘要

我们引入了 PhysGaussian，这是一种新方法，可将基于物理的牛顿动力学无缝集成到3D高斯中，以实现高质量的新颖运动合成。我们的方法采用定制的质点方法 (MPM)，通过具有物理意义的运动变形和机械应力属性丰富了 3D 高斯核，所有这些都符合连续介质力学原理。我们方法的一个决定性特征是物理模拟和视觉渲染之间的无缝集成：两个组件都使用相同的 3D 高斯内核作为其离散表示。这消除了三角形/四面体网格划分、行进立方体、“笼式网格”或任何其他几何嵌入的必要性，突出了“所见即所模拟 (WS2)”的原则。我们的方法在各种材料（包括弹性实体、金属、非牛顿流体和粒状材料）中展示了卓越的多功能性，展示了其通过新颖的观点和运动创建多样化视觉内容的强大能力。这里也推荐工坊推出的新课程《保姆级线结构光（单目&双目）三维重建系统教程》。

图2。方法概述。PhysGaussian是一个统一的模拟渲染管道，它结合了3D高斯飞溅表示和连续介质力学，可以同时无缝地生成基于物理的动态和照片逼真的渲染。

2.算法解析

PhysGaussian是一个统一的模拟渲染框架，它结合了连续介质力学和3D GS的生成动力学。该框架首先重建静态场景的GS表示，然后使用各向异性损失项来正则化过瘦核。这些高斯函数被视为待模拟场景的离散化。在新的运动学下，直接对变形的高斯函数进行飞溅，以获得逼真的渲染效果。此外，为了更符合物理特性，还选择性地填充了物体的内部区域。以下是本文采用的主要方法：

3D高斯溅射：三维高斯飞溅法是一种用于重新参数化NeRF的方法，它使用一组非结构化三维高斯核来表示场景。与传统的NeRF技术不同，GS将这些3D高斯分布投影到图像平面上作为2D高斯分布，以渲染视图。每个像素的颜色值计算为基于z深度有序有效不透明度和视角方向的乘积。该方法使用L1损耗和SSIM损耗进行逐视图优化，可以显著加快训练和渲染速度，并支持数据驱动的动态。连续介质力学：连续介质力学通过时间相关的连续变形映射来描述运动，其中变形梯度编码局部变换，包括拉伸、旋转和剪切。质量和动量守恒控制着变形的演变，其中动量守恒由一个柯西应力张量与超弹性能量密度相关联。总变形梯度可以分解为弹性部分和塑性部分，以支持塑性引起的永久休息形状变化。FB的演化遵循一些特定的塑性流动规律，因此总是被约束在一个预定义的弹性区域内。物质点法：物质点法（MPM）是一种求解控制方程的方法，它结合了拉格朗日粒子和欧拉网格的强度。连续体被离散化为一组粒子，每个粒子代表一个小的材料区域。这些粒子跟踪几个时变的拉格朗日量，如位置、速度和变形梯度。拉格朗日粒子的质量守恒保证了运动过程中总质量的恒定。动量守恒在欧拉表示中更自然，避免了网格构造。使用连续b样条核对表示进行积分，以实现双向传递。从时间步长到，动量守恒由前向欧拉格式离散化表示。物理-集成三维高斯：作者将高斯核视为离散粒子云，用于在空间上模拟连续体。当连续体发生变形时，高斯核也相应变形。为了满足溅射过程的要求，作者引入了一阶近似的局部仿射变换，以确保在世界空间中形成的核仍然是高斯的。这种变换提供了与时间相关的版本，形成了动态高斯分布。在描述动态高斯分布的过程中，作者考虑了球面谐波的不透明度和系数在时间上的不变性，但谐波会随时间旋转。物理量如粒子的体积和质量在模拟中得到初始化，并通过飞溅过程直接渲染，避免了传统动画渲染软件的需求。文章强调了物理与三维高斯分布的整合是无缝的，可以直接模拟从真实数据重构的场景，实现了WS2。球面谐波的演化方向：在渲染世界空间的三维高斯函数时，作者发现当物体旋转时，球面谐波基仍然在物质空间中表示，而不考虑视图方向的旋转。解决方案是通过在视图方向上应用逆旋转来等效地实现球面谐波方向的旋转。这种效果在插图中有说明。高斯函数的增量进化：提出了一种适合更新拉格朗日框架的高斯运动学替代方法，避免了对总变形梯度的依赖。该方法也为不依赖于应变测量的物理材料模型提供了可能。通过速率形式的运动学更新规则，得到世界空间协方差矩阵的增量更新公式，不需要总变形梯度。内部填充：为了解决重建的高斯函数在物体内部分布不准确的问题，引入了三维高斯函数中的三维不透明度场。通过将连续场离散到三维网格上，实现了对物体内部空洞的填充。定义了不透明度域中的“交集”概念，并使用自定义阈值来确定交点。通过这种方式，实现了鲁棒的内部填充，确保更高的准确性。内部填充的粒子继承了其隐蔽的高斯核的属性。

3.实验

在实验部分作者对本文提出的方法的多功能性和有效性进行了评估。主要内容包括：

生成动力学的评价：作者使用多个数据源，包括合成数据和真实世界数据，评估了提出的方法。基于MPM基础，手动选择模拟区域，进行内部粒子填充，通过三维密集网格进行离散化。实验在RTX3090上进行。结果模拟了多种基于物理的动力学，包括弹性、金属塑性、断裂、砂粒模拟和膏体模拟。在多个场景中展示了实时性能。

图3。多功能性材料。我们在各种各样的例子中展示了我们方法的卓越多功能性:狐狸(弹性实体)，平面(金属)，吐司(断裂)，废墟(颗粒材料)，果酱(粘塑性材料)和沙发套件(碰撞)。点阵变形基准：作者利用BlenderNeRF合成数据，包含多个场景，使用晶格变形工具进行弯曲和扭曲。将提出的方法与NeRF编辑、变形-NeRF、PAC-NeRF等最先进的NeRF框架进行比较。使用晶格变形作为输入，进行公平比较。提出的方法在渲染质量和内部变形方面均优于其他方法，显示了逼真编辑的潜力。

图4。比较。对于每个基准案例，我们选择一个测试视点并可视化所有比较。我们放大了一些区域，以突出我们的方法在变形后保持高保真渲染质量的能力。我们使用黑色背景来避免背景的干扰。

表1。我们合成了一个晶格变形基准数据集来与基线进行比较，并进行烧蚀研究来验证我们的设计选择。报告了PSNR分数(越高越好)。我们的方法在所有情况下都优于其他方法。

其他定性研究：内部填充：引入了内部填充方法，利用高斯核的不透明度场，允许对物体内部结构进行细致控制。展示了在不同物理参数下的模拟结果。这里也推荐工坊推出的新课程《保姆级线结构光（单目&双目）三维重建系统教程》。

体积守恒：提出的方法在变形过程中准确捕捉并保持物体的体积，与表面刚性变形相比，显示了更好的性能。

图7。体积守恒。与基于几何的编辑方法[48]相比，我们基于物理的方法能够捕捉到体积行为，从而产生更真实的动态。

各向异性正则化：引入了额外的正则化损失以减轻过度各向异性引起的视觉伪影，有效提高了渲染质量。

图8。各向异性规范。我们为高斯核引入了一个各向异性约束，有效增强了动态条件下基于高斯的表示的保真度。

4.总结和展望

本文介绍了PhysGaussian，这是一个统一的模拟渲染管道，可以同时无缝地生成基于物理的动态和逼真的渲染。在我们的框架中没有考虑阴影的演化。此外，我们使用一点正交用于积分体积积分，这可能不能充分代表单个高斯椭球的大小。可以采用具有高阶正交的MPM。此外，虽然基于pde的动力学提供了一个有用的近似，但结合从真实数据中学习的神经网络或数据驱动的动力学可以提供更真实的建模。未来的工作还将探索处理更通用的材料，如液体，并集成更直观的用户控制，可能会利用大型语言模型(llm)的进步。

下载1

在公众号「3D视觉工坊」后台，回复「3d001」,即可获取工业3D视觉（结构光、缺陷检测、三维点云）、SLAM（视觉/激光SLAM）、自动驾驶、三维重建、事件相机、无人机等近千余篇最新顶会论文。

下载2

在公众号「3D视觉工坊」后台，回复「3d002」,即可获取巴塞罗那自治大学3D视觉课件、慕尼黑工业大学3D视觉和视觉导航精品课件。

下载3

在公众号「3D视觉工坊」后台，回复「3d003」,即可获取相机标定、结构光、三维重建、激光-视觉-IMU-GPS多模态融合SLAM、LOAM、ORB-SLAM3，深度估计、模型部署、3D目标检测等学习课件。注：非完整版。

计算机视觉方向交流群成立啦

目前咱们计算机视觉工坊已经建立了多个社群，包括SLAM、工业3D视觉、自动驾驶、三维重建、无人机方向，细分群包括：

[工业3D视觉]相机标定、立体匹配、三维点云、结构光(面/线/散斑)、机械臂抓取（2D/3D）、2D缺陷检测、3D缺陷检测、6D位姿估计、相位偏折术、Halcon、光场重建、摄影测量、阵列相机、偏振三维测量、光度立体视觉、激光雷达、综合群等。

[SLAM]视觉SLAM、激光SLAM、ORB-SLAM、Vins-Fusion、LOAM/LeGo-LOAM、cartographer、VIO、语义SLAM、滤波算法、多传感器融合、多传感器标定、MSCKF、动态SLAM、MOT SLAM、NeRF SLAM、FAST-LIO、LVI-SAM、LIO-SAM、事件相机/GPS/RTK/UWB/IMU/码盘/TOF（iToF/dToF）/激光雷达/气压计/毫米波雷达/RGB-D相机/超声波等、机器人导航、综合群等。

[自动驾驶]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪、综合群等。

[三维重建]NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

[无人机]四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

大家可以添加小助理微信: dddvision，备注：加群+方向+学校|公司, 小助理会拉你入群。

添加小助理微信：dddvision，加群+方向+学校|公司，拉你入群

加入知识星球，与6000多位同行一起进步

「3D视觉从入门到精通」知识星球，依托于微信公众号「3D视觉工坊」、「计算机视觉工坊」、「3DCV」平台，星球内除了包含3D视觉独家秘制视频课程（近20门，包括三维重建、三维点云、手眼标定、相机标定、3D目标检测、深度估计、ORB-SLAM3、Vins-Fusion、激光-视觉-IMU-GPS融合、机械臂抓取等）、3D视觉项目对接、3D视觉学习路线、最新论文&代码分享、入门书籍推荐、源码汇总、最新行业模组分享、编程基础&作业、求职招聘&面经&面试题等，更有各类大厂的算法工程人员进行技术指导。目前星球铁杆粉丝已近6000+，让我们一起探索更其妙的3D视觉技术、为祖国的创新发展贡献自己的一份力。知识星球入口：3D视觉从入门到精通

上一篇：何谓3D渲染: 3D可视化指南下一篇：Unity基础原理 - 3D模型渲染