• 首页 > 云计算频道 > 大模型

    Meta推出ViewDiff 模型:文本生成多视角3D图像

    2024年04月15日 09:07:40   来源:站长之家

      Meta 与德国慕尼黑工业大学研发出创新模型 ViewDiff,旨在帮助用户通过文本、图像或二者结合使用,快速生成高质量多视角3D 图像。

      该模型解决了传统文本生成多视角3D 图像领域的三大难点:无法生成真实背景环境、图像质量和多样性不理想、缺乏多视角和一致性。通过引入一种创新架构,ViewDiff 采用文生成图模型作为先验知识和图像流生成器,再通过显式的3D 建模为图像赋予一致性和多视角能力。

      为了有效捕获3D 几何和全局风格,研究人员对原有 U-Net 架构进行了创新,增强了跨帧注意力层和投影层。跨帧注意力层替换了标准自注意力层,实现跨图像风格匹配;而投影层将多视图2D 特征集成为显式的3D 体素特征,保证了输出图像的3D 几何一致性。在此基础上,ViewDiff 还开发了自回归生成模块,使其能在任意视角上生成更多的3D 一致性图像,进一步提升了模型的生成能力。

      该研究的推出填补了文本生成多视角3D 图像领域的技术空白,有望为游戏开发、元宇宙等行业提供更便捷、高效的模型构建方案。该模型的推出不仅在技术层面上具有重大意义,也将为未来的3D 图像生成领域带来更多创新可能。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时探行数字人注册免费试用

    华为Pura70 系列不怕丢!云空间实现楼层级设备查找

    华为 Pura70 系列突然先锋开售,你抢到了吗?对于这次的新机来说,除了一如既往的优雅设计和强悍的硬件配置外,我们更为关注的则是其全球首发的「楼层级设备查找」功能,软实力也可以很硬核!

    新闻探行AI智能外呼系统 节省80%人力成本

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT探行AI客服 24小时无休机器人接待

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    研究探行AI整体解决方案 全国招募代理

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。