毕尔巴鄂对阵皇家社会:两支近邻球队将于西甲联赛 “巴斯克德比”中为捍卫荣耀而战贝壳第三季度营收226亿元 经调净利润17.8 亿元 同比下降17.46%AI营销,让科技巨头尝到了大模型商业化的甜头安恒信息范渊在乌镇峰会谈AI:以工具视之、以工具用之、以工具治理之诺基亚与微软再合作,为 Azure 数据中心供货延长五年天岳先进发布业界首款 300mm(12 英寸)N 型碳化硅衬底三星介绍内部安全团队 Project Infinity 攻防演练项目,高效修复 Galaxy 手机平板漏洞上海市将推进低空飞行服务管理能力建设,2027 年底前累计划设相应航线不少于 400 条岁末,海尔给您备好一套“小红花”为什么说Q10K Pro是今年最值得入手的电视?看完这几点就明白了!“小墨方·大不凡”!Brother“小墨方”系列彩喷一体机全新上市黄仁勋:AI智能需求强劲,“物理定律”限制英伟达芯片增长诺基亚与微软再合作,为Azure数据中心供货延长五年国家数据局:到2029年基本建成国家数据基础设施主体结构中国已发展成为全球最大的互联网市场,拥有全球最多的网民和移动互联网用户中国铁塔:计划按照10:1的比例合股美国FCC正式划定5.9GHz频段用于C-V2X技术在AI领域奋起直追!苹果要对Siri大革新 2026年正式发布日本机构公布量子专利榜单:本源量子、国盾量子位居全球第1中国联通:拟向华为、中兴展开5G网络设备竞争性谈判采购
  • 首页 > 企业IT频道 > ARVRMR

    基于3D视频重建虚实场景交互 Meta提出3D mask volume

    2021年11月04日 11:51:21   来源:映维网

      视图合成的最新进展显示了从图像创建沉浸式虚拟体验的出色结果。尽管如此,为了重建与虚拟场景的忠实交互,我们非常需要结合时间信息的能力。

      在名为《Deep 3D Mask Volume for View Synthesis of Dynamic Scenes》的论文中,已改名为Meta的Facebook和加利福尼亚大学研究了一种特定的设置,其中输入视频来自静态的双目摄像头,并且新视图大多是从输入视频中推断出来。团队相信,随着双摄像头和多摄像头智能手机越来越受欢迎,这种情况将非常有用,而且可能会对3D电话会议、监控或虚拟现实头显带来非常有趣的影响。另外,研究人员可以从静态摄像头装置中获取数据集。

      尽管可以在每个单独的视频帧应用最先进的图像视图合成算法,但结果缺乏时间一致性,并且经常显示闪烁伪影。问题主要来自于看不见的遮挡区域,因为算法在每帧基础上预测它们。由此产生的估计在整个时间维度上不一致,并且在视频中显示时会导致某些区域变得不稳定。

      在研究中,团队通过利用跨时间的静态背景信息来解决外推视图时的时间不一致性。为此,研究人员采用了一个3D mask volume,它允许在3D空间(而不是2D mask)中进行操作,以推断场景中的移动对象,并在整个视频中重复使用静态背景观察。

      团队首先通过MPI网络将瞬时和背景输入提升为两组多平面图像(MPI)。然后,扭曲同一组输入图像以创建时间平面扫描volume,从而提供有关场景三维结构的信息。mask网络将这个volume转换为3D mask volume,使得能够在两组MPI之间混合。最后,混合MPI volume可以渲染具有最小闪烁瑕疵的新视图。

      由于GPU内存的限制,团队选择了两步训练方案来训练网络。首先在RealEstate10K数据集上训练MPI网络,然后在自己的视频数据集上只训练mask网络。这种训练方案可以使内存使用保持在合理的范围内,并且速度足够快。MPI生成网络是通过预测一个新的视图并应用渲染损失L作为监控来训练。本阶段训练800K步。

      在前一个预训练阶段之后,团队冻结MPI网络的权重,并使用loss L仅训练mask网络。所述网络从10个视图中随机选取2个视图作为输入,然后在每一步从其余视图中随机选择一个目标camera位置。团队从96个场景中选择86个作为训练数据集,并将图像重新缩放到640×360。第二阶段为100K步的训练。训练管道在PyTorch中实施,在单个RTX 2080Ti GPU上训练大约需要5天。分辨率为640×360时,使用完整管道推断Mo大约需要1.75秒,而渲染需要另外0.28秒。请注意,渲染管道在PyTorch中实现,无需进一步优化。在实践中,使用OpenGL或其他光栅化器可以大大加快速度。

      为了训练这个网络,团队同时引入了一个新的多视图视频数据集来解决公共可用数据的不足。研究人员构建了一个由10个动作摄像头组成的定制摄像装置,并使用静态装置捕捉高质量的120FPS视频。所述数据集包含96个不同户外环境和人类交互的动态场景。实验证明,所述方法能够在仅使用两个输入视图的情况下生成时间稳定的结果。

      对于比较,团队从数据集中选择了7个看不见的视频,并将它们细分为14个片段,重点关注场景中的显式运动。结果显示,团队的渲染损失依然提供了时间上最稳定的结果,而其他两个损失则为了更好的解释性而牺牲了时间一致性。

      当然,团队提出的数据集和算法存在一定的局限性:首先,摄像头限制为拍摄时保持静止。这主要是由于同步和姿态估计的限制。尽管可以使用基于软件的方法实现良好的同步,但仍然会存在几毫秒的错误。当摄影装备处于运动状态时,错误可能会被放大,并导致对camera姿势的错误估计。摄像头在不同时间的姿态同时需要更多的计算,这可能会导致系统中累积错误。所述问题可以通过校准其中一个摄像头的camera轨迹并利用刚性假设推断其他camera轨迹来解决。

      另一个限制是,团队需要对静态背景进行估计。这很容易通过应用中值滤波器实现。尽管它适用于大多数场景,但这种方法有时并不可靠。不过,业内有更先进的方法可以在未来使用。

      总的来说,团队讨论了立体输入视频动态场景的视图合成。主要的挑战是,渲染结果容易出现时间伪影,如无序区域中的闪烁。为了解决这个问题,团队引入了一种新的3D mask volume扩展,用从时间帧获取的背景信息小心地替换无序区域。另外,团队还介绍了一个高质量的多视图视频数据集,其中包含96个以120FPS拍摄的各种人类交互场景和室外环境。在未来的研究中,研究人员希望扩大数据集以考虑动态摄像头运动,并在更大的基线操作。团队相信,动态场景的视频视图合成是沉浸式应用的下一个前沿领域,而本次研究在这方面迈出了关键的一步。

      研究贡献可以总结为:

      1.一个由96个动态场景组成的多视图视频数据集

      2.一种新颖的3D mask volume,其能够在3D中从静态背景分割动态对象,并产生更高质量和时间稳定的结果。

      相关论文:Deep 3D Mask Volume for View Synthesis of Dynamic Scenes

      高质量的视频数据集对于基于学习的新型视点视频合成算法至关重要。理想的数据集将包含多种场景,在多个同步视图中捕获。在这项研究中,团队介绍了一种新的多视图视频数据集,并讨论了现有数据集与所述数据集相比的局限性。

      团队的目标是在给定立体视频输入的情况下合成时间一致的新视图视频。所以,研究人员在多平面图像的前期研究基础上构建了算法,并提出了一种新的mask volume结构,以充分利用时间背景信息和分层表示。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。