毕尔巴鄂对阵皇家社会:两支近邻球队将于西甲联赛 “巴斯克德比”中为捍卫荣耀而战贝壳第三季度营收226亿元 经调净利润17.8 亿元 同比下降17.46%AI营销,让科技巨头尝到了大模型商业化的甜头安恒信息范渊在乌镇峰会谈AI:以工具视之、以工具用之、以工具治理之诺基亚与微软再合作,为 Azure 数据中心供货延长五年天岳先进发布业界首款 300mm(12 英寸)N 型碳化硅衬底三星介绍内部安全团队 Project Infinity 攻防演练项目,高效修复 Galaxy 手机平板漏洞上海市将推进低空飞行服务管理能力建设,2027 年底前累计划设相应航线不少于 400 条岁末,海尔给您备好一套“小红花”为什么说Q10K Pro是今年最值得入手的电视?看完这几点就明白了!“小墨方·大不凡”!Brother“小墨方”系列彩喷一体机全新上市黄仁勋:AI智能需求强劲,“物理定律”限制英伟达芯片增长诺基亚与微软再合作,为Azure数据中心供货延长五年国家数据局:到2029年基本建成国家数据基础设施主体结构中国已发展成为全球最大的互联网市场,拥有全球最多的网民和移动互联网用户中国铁塔:计划按照10:1的比例合股美国FCC正式划定5.9GHz频段用于C-V2X技术在AI领域奋起直追!苹果要对Siri大革新 2026年正式发布日本机构公布量子专利榜单:本源量子、国盾量子位居全球第1中国联通:拟向华为、中兴展开5G网络设备竞争性谈判采购
  • 首页 > 企业IT频道 > 软件即服务

    Meta MCC:通过3D感知编码器,改善2D图像到3D模型质量

    2023年02月06日 20:54:23   来源:青亭网

      作为现阶段最成功的VR内容生态之一,Quest商店吸引了越来越多开发者发布VR内容,但这对于Meta来讲似乎还不够,其也在探索某种UGC VR生态,比如在Horizon Worlds中提供可视化开发工具,让普通人也能创造VR应用。而近期,Meta公布的一项新研究表明,未来制作AR/VR内容可能就像拍短视频那么简单。

      据了解,Meta为了简化AR/VR内容开发方式,研发了一种RGB-D图像生成3D模型方案:MCC。MMC全称是多视图压缩编码,它是一种基于Transformer的编码器-解码器模型,可根据一帧RGB-D图像合成/重建3D模型,潜在应用场景包括AR/VR、3D视觉重建、机器人导航、数字孪生/虚拟仿真等等。与普通彩色2D图像不同,RGB-D是具有深度的彩色图像,相当于普通RGB三通道彩色图像加上深度图(Depth Map),二者是配准的,像素一一对应。

    微信图片_20230131142525

      实际上,Meta在2018年的F8大会上,就曾公布3D照片研究,可通过双摄手机拍摄出具有3D效果的照片,其中包含一定的深度信息。其甚至还研发了将2D图像转3D的CNN模型,特点是支持单摄手机。这意味着,它如果结合MCC方案,或许可以将单摄手机捕捉的2D图像合成为3D模型。

      而Transformer是一种采用自注意力机制的深度学习模型,谷歌曾使用它来增强搜索引擎,而近期比较火的ChatGPT模型也是基于Transformer。起初,Transformer更常用与自然语言处理领域,而随着它与大规模、通用类别的学习模型结合,便也开始被用于语言处理之外的领域,比如图像合成、图像分析。

      利用MCC方案,3D开发/合成将有望实现规模化。随着深度传感器、深度捕捉AI模型在手机上普及,具有深度信息的图像越来越容易获得,因此MCC可使用的数据规模足够大。研究背景

      Meta科研人员指出,视觉识别的一个核心目标根据单个图像来理解物体和场景。在大规模学习和通用表示推动下,2D图像识别技术得到大幅提升,但现阶段识别3D场景/物体还存在挑战,因为2D图像源中存在图形遮挡,所以很难从单张图像合成完整的3D模型。

      为了解决这一问题,一些3D合成模型依赖于多张不同角度的源图像。而如果用CAD模型来训练,市面可用的数据集规模不够多,因此限制了3D合成和理解技术的发展。

      而MCC只需要RGB-D图像就能训练,图像中不可见的部分也能在3D模型中完整预测/合成。监督所使用的数据则基于含有深度信息、相机姿态的视频帧。 方案原理

      MCC采用简单的解码器-编码器架构,将RGB-D图像输入到MCC中会产生输入编码,然后解码器将在输入编码中访问3D点数据,以预测该点的占用率和RGB色彩(将3D重建定义为二元分类问题)。简单来讲,MCC只需要处理3D点云数据,而3D点可以捕捉任何对象或场景,通用性比网格和立体像素更好,因此用大规模RGB-D图像数据就能训练模型。另外,RGB-D图像可通过手机的LiDAR传感器来捕捉,或是由深度模型来计算(比如MiDas、COLMAP)。

      科研人员利用来自不同数据集的深度图像/视频来训练MCC,这些数据部分未包含3D场景、3D对象的全部角度,而这将需要AI重新构建。此外,MCC也可以将AI合成的图像转化为3D模型。

      因此,MCC最大的特点是可预测RGB-D图像中看不见、被遮挡的3D几何形状。科研人员表示:MCC模型与基于图像的自监督学习、掩码自动编码器(MAE)的最新进展有直接关系,MAE也是通过预测图像中看不见的形状来学习图像表示。此外,MCC无需具有注释的3D数据,成本更低、数据更容易收集。

      科研人员表示:研究结果表明,将基于点云的3D合成模型与通用类别的大规模训练结合,是有效的。未来,希望将这种成果扩展为通用的3D分析视觉系统,让3D重建/合成效果更接近人脑的想象力。 对比其他方案

      谷歌、NVIDIA等科技公司也曾研发2D图转3D技术,分别依赖于NeRF、逆向渲染(3D MoMa),缺点是需要多张图像,而且NeRF很那从单个图像生成新的场景。其他一些方案需要使用3D CAD模型等规模有限的数据来训练,而MCC只需要通过RGB-D图像就能训练3D重建。

      此外,MCC普适性好,对于未曾见过的新对象类别,也能实现“开箱即用”(支持零样本学习),直接处理成3D模型。

      为了展示MCC与不同数据来源的兼容性,科研人员将其与多个图像源结合,比如: iPhone 14 Pro(LiDAR传感器) 图像生成AI DALL-E 2 Facebook的开源3D重建数据集CO3D(Common Objects in 3D) 大型视觉数据库ImageNet 3D仿真数据集Hypersim 室内场景数据集Taskonomy

      这些数据集包含了50多种常见对象类型,以及大规模场景,比如仓库、礼堂、阁楼、餐厅等等,利用它们重建的3D模型还不能一比一还原,而是看起来比原来更圆润、更卡通化,但应用在3D开发中质量足够好。未来,随着用更多数据、更多样化对象进行训练,MCC的性能还可以显著提升。

      参考:Meta

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。