3d视频转换最好的软件利用GPU硬件运行必要的复杂计算-NVIDIA即时NeRF软件

译者:朱先忠

图1:封面

生成三维建模可能很耗时,或者必须长期参考图像。解决这个难题的一种方式是通过神经辐射场(neuralradiancefield,简称“NeRF”),这是一种生成图像的人工智能方法。NERF的主要观念是:先获得一小组您拍摄的对象或画面的2D图像,然后使用这种2D图像来有效地建立3D表示。这是借助学习在已有图像之间的转化来推动的。现在,这种跳跃(也叫做“插值”)科技无法帮助您建立物体新角度下的图像!

听上去不错,对吗?通过于一小组图像,你就可以制作一个3D模型!这比标准摄影测量效果要好,因为标准摄影测量必须一个很大的图像库来生成一些照片(你必须每个角度的镜头)。然而,NVIDIA公司一开始确实承诺说NeRFs速度迅速;虽然,直到今天情况还不是这么。以前,NeRFs往往会花费很长时间来学习怎么将一组图像集转换为3D模型。

但现在,情况不再这么。最近,NVIDIA公司研发出了一种实时NeRF软件,该工具无法运用GPU硬件运行必要的复杂计算。这种方式将建立模型所需的时间从几天缩短到几秒钟!NVIDIA对instant-ngp软件的只用性和速度提出了许多令人惊讶的主张。而且,他们提供的结果和例子也给人留下深刻的印象:

图2:NeRF图像展示——NVIDIA拥有一个酷炫的机器人实验室

我认为很难不被这个演示打动——它看上去太棒了!然而,我想看看把它转移到我自己的图像上并生成我自己的NeRF模型有如此容易。所以,我决定自己安装并使用一下这款软件。在本文中,我将介绍我的实验体验,并具体介绍我制作的建模!

主要任务划分

那我们该如何办?大概阶段性任务界定如下:

我不会深入探讨这一切是怎样运作的,但我会提供我看到有用的好多资源的链接。所以,接下去,我将专注于我制作的视频,以及我在旅途中恰巧看到的一些小知识。

起初我的试验

NVIDIA公司的实时NeRF软件并不容易安装。虽然硬件的表明很明白,但我认为当涉及到个人必须的特定硬件版本时,说明中规定的部份所提供的回旋余地并不大。对我来说,使用CUDA11.7或VS2022似乎是不可能的,但我觉得正是切换回CUDA11.6版本和VS2019才最后促使了安装顺利。其中,我见到这些错误,比如“CUDA_ARCHITECTURESisemptyfortarget”,等等。这是由于CUDA与VisualStudio配合并不友好所造成。因此,我真心地推荐有兴趣的观众参考视频或者Github上的仓库资源,以便进一步帮助你成功地做好一切设置工作!

除此此外,这一过程算是进展成功。官方还提供了Python脚本,用于帮助指导将录制的视频转化为图像,以及之后将其转化为模型和视频的方法。

试验1:乐高小汽车

原本,我强行在办公室里把一辆小乐高车辆NeRF化。我认为我的摄影方法远远不够,因为我根本难以创作出任何有含义的图像。只是一个奇怪的3D污点而已。算了,还是让我们看一看NVIDIA提供给我们的一个实例吧。请注意图中摄像机的位置:

图3:NVIDIA提供的挖掘机默认NeRF模型的“摄像头”位置

一个无法较好地进行练习的打算修改之一就是在画面中放置如上图所述的“摄像机”。这些摄像机是硬件认为你在拍摄视频时所应对的视角。它需要是一个可爱的圆圈。当然,我的第一辆乐高车根本不是这个样子的,而是一个被压扁的半圆。

试验2:稍大点的乐高小汽车

为了从第一次试验学校习,我找到了一张可以完全走动的椅子,并找到了一辆更大的乐高车。我试着确保我抓拍的时间也比以往长。最后,我从各个视角拍摄了1分钟流畅的视频。我练习模型的时间大约不到30秒。在720p下渲染4小时后,下图是我制作的视频:

图4:我的第二个NeRF模型——一部乐高技术车!

试验3:植物

结果证明里面的实验2更好一些了,至少在技术上可行。然而,还是存在一团奇怪的雾,当然这还不算是超级麻烦。在我的下一次实验中,我也试着从更远的正面拍摄(我设想雾是由人工智能对那里的东西感觉“困惑”引起的)。我企图更多地控制aabc_scale参数(该参数用于衡量场景有很大),然后对其进行几分钟的训练。渲染最后,得到如下所示的视频结果:

图5:我用房间桌子上的一棵植物变成的一个NeRF模型

好多了!令人印象深刻的是,它是怎样将钩针植物盆子、木头上的凹槽以及树枝的复杂性体现得那么准确的。看看摄像机在树叶上做的俯冲动作吧!

试验4:

目前,我们的试验效果越来越好了!于是,我想要一个室外的视频。我在公寓外拍摄了不到2分钟的视频3d视频转换最好的软件,并起初处理。这针对渲染/练习来说特别笨重。我在此处的猜想是,我的aabc_scale值非常高(8),因此渲染“光线”必须走得很远(即,我想要渲染的东西数量更多)。于是,我不得不切换到480p,并将渲染FPS从30降低到10。事实说明,设置参数的选取确实会妨碍渲染时间。经过8个小时的渲染,我完成了下面操作:

图6:一个我在公寓旁边使用的NeRF模型

只是,我觉得第三次试验一直是我最偏爱的。我想我可以把第四次试验做得更好一点。但是,当渲染时间显得很长时,很难遍历各个版本并试验不同的渲染和训练设置。现在反而修改渲染的摄像机视角都很困难了,这引起我的程序更加如此缓慢。

其实,这真正是一个非常惊人的输出,因为只是使用了一两分钟的视频数据。最后,我已经有了一个具体的逼真的三维建模!

利弊分析

我觉得最令人印象深刻的是,在1-2分钟的拍摄时间内,完全没有受过摄影测量训练的人(我)可以建立一个可行的3D模型。该过程的确应该一些技术诀窍,但如果你把所有设备都安装好了,也就很容易使用了。使用Python脚本将视频转化为图像效果较好。一旦这种都做了,输入到人工智能经常成功进行。

虽然,尽管很难因这一方面而批评英伟达,但我认为我还是需要强调来:这件事必须一个非常强大的GPU。我的笔记本电脑里有一个T500,这项任务实在把它推到了绝对极限。训练时间确实比宣传的5秒钟时间长得多,尝试在1080p情况下渲染时会造成程序崩溃(我是选取在135*74指标左右动态渲染的)。现在,这似乎算是一个很大的改进,因为当时的NeRF模型实验花费了好几天时间。

我不觉得每个人就会有一个3090p设备用于这种的项目,所以值得详细说明一下。低功耗配置的手机使程序无法使用,尤其是当我企图让摄像机“飞出来”以便更有促使设置渲染视频时。尽管这么,这一过程的成果还是让人印象深刻。

也有,我遭遇的另一个难题是能够寻求渲染文件render.py(如同您可能预测的这样,它针对渲染视频至关重要)。非常奇怪的是,它不在官网提供的开源代码仓库中,尽管在大多数广告文章和其它文件中都有长期提及。

最终,我也期望才能把里面的3D建模转换成.obj文件。也许那时,这早已变成可能的事了。

图7:一只兔子的gif动画——这不是我做的,是英伟达做的。效果不错,对不?

总结和下一步的想法

后面的实验过程让我一下联想到OpenAI公司开发的DALL-E,这只是一种无法形成图像的人工智能科技。现在,这种技术早已变得更加流行,部分因素在于它特别易于访问。此外,DALL-E展示给他们一个特别酷的举例,说明人工智能模型可以做哪些,以及他们的局限性。它目前或者即将变成了一种流行的文化现象(以及大约在我的推特上就表现了这些传统内容)——人们制作自己各自奇怪的DALL-E图片并互相分享。我可以想象此类技术也会出现类似那样的事情:一个可以让任何人上传视频并建立一个可以与同事分享的3D模型的网页3d视频转换最好的软件,其病毒传播的潜力是很大的。最终有人必定会做到这一点!

就我个人而言,我渴望着这方面更多的实验成果。我期望才能生成超逼真的建模,然后将他们转储到AR/VR中。基于这种技术,你或者可以主持网络会议——那不是很有趣吗?由于你仅应该通过电脑上的摄像头就能实现这一目标,而目前大个别用户手机中尚未拥有了这些硬件配置。

总地来说,我印象深刻。能够在手机上录制1分钟的视频,并将其转化为一个你可以大幅通过的模型,这真是太棒了。虽然渲染需要一段时间,而且安装有点困难,但疗效较好。经过几次试验,我终于受到了相当酷的输出!我渴望着更多的实验!

添加微信

转载原创文章请注明,转载自设计培训_平面设计_品牌设计_美工学习_视觉设计_小白UI设计师,原文地址:https://www.zfbbb.com/?id=4248

上一篇:全真教 原画资深互联网观察家观察家,长期致力于中国互联网产业和企业研究

下一篇:火星时代的原画火星时代影视学院发布两大“双核”班型构建完整影视课程体系