11月9日晚8点京东11.11火热开启!潮流配件9.9元起京东11.11最后一波Apple大放价 iPhone 16 Pro系列持续加补1600元2024 ROG DAY狂欢启航,ROG电竞显示器助力三大战车燃爆郑州站!来京东11.11一次性搞定视频、音频等APP会员充值 省钱又省心欧莱雅中国"FUN YOUniverTH有意思青年"创变盛典耀动进博会先采后付、按需配送还能享受大幅折扣,京东企业计划购助力客户11.11超值囤货11月9日晚8来京东11.11换新国产打印机 政府补贴至高优惠20%买家电家居首选京东11.11 政府补贴加码优惠不止5折杭州一男子在京东领国补买电脑中榴莲套餐,因榴莲味道重被邻居吐槽至高再省1000元 3C数码5折券京东11.11每天整点可抢捷豹路虎等12个品牌将缺席广州车展:但自主品牌顶了上来微软Access邀测新Monaco SQL编辑器:自动补全、支持离线使用等《黑神话:悟空》PS5港版实体版明年1月16日发售:内含豪华版升级券苹果高管回应Mac mini电源键设计争议:几乎无需使用广汽集团已初步打通全固态电池全流程:两年后量产装车【鲲鹏展翅 鸿蒙启航】—华为云生态应用创新交流会成功举办2024数字经济与数字贸易高质量发展促进大会—华为云&博诚经纬深耕数字化领域,共绘数字时代新篇章来京东11.11办理自营手机号卡 享通信三包服务 无套路更放心亚马逊大力推进3D可视化、沉浸式电商应用,跨境电商卖家如何抓住这波流量红利?高通钱堃:以知识产权促进创新创造和绿色发展
  • 首页 > 云计算频道 > 大模型

    无限新衣服零元购 阿里Outfit Anyone实现真人百变换装

    2023年12月25日 11:09:14   来源:微信公众号 机器之心

      本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心。

      不实际试穿,就能尝试各种服饰,虚拟试衣技术让「QQ秀」升级成了真人版,为时尚行业打开了新世界的大门。

      然而,现有的虚拟试衣方法在逼真性和细节上的一致性方面还存在挑战。虽然扩散模型在创造高品质和真实感图像方面表现出众,但在虚拟试衣等特定场景中,它们在维持控制力和一致性方面还有待提高。

      Outfit Anyone 利用了一种创新的双流条件扩散模型,有效地解决了这些问题,能够精确地处理服装的变形效果,实现更加逼真的试穿体验。Outfit Anyone最大的特点是其极强的适应性和广泛的应用范围,不仅能调整以适应不同的姿势和体形,无论是动画形象还是真人,都可以一键换装。现已开放试玩。

      主要方法:条件扩散网络

      虚拟试衣任务本质是一个条件生成的任务,也就是基于给定一张服饰图片作为条件输入,控制生成服饰在人身上的试衣图片。当前的 diffusion model 在生成的可控性方面做了很多工作,比如基于 tuning-based 的方法,如 lora, dreambooth 等,可以实现通过针对某一个或几个概念的样本图片进行针对性训练,学习对应的某个 concept, 在生成的过程中可以实现对应 concept 或者物体的生成。然而这种方式以来 finetuning,计算和时间成本高,且难以扩展到多个物体的同时生成。

      另外一类控制生成的方法是以 controlnet 为代表,其主要原理是通过 zero-conv 训练一个插件的网络,可以实现利用 mask,canny edge, depth 等多种信号控制最终生成图片的 layout。这种方式的最大的弊端在于控制信号与目标图像在空间上是 align 的,但服饰与控制信号和目标图像在空间分布上有较大的差异,导致无法直接使用,从而限制了其应用的拓展范围。

      因此,作者提出了一种新的支持试衣功能的条件生成网络,实现服饰的形变,光照的变化,服饰新视角变化情况下的生成,同时能够保持服饰的纹理,版型,细节的一致性。

      相比 lora,dreambooth 等方法的好处是,不再需要针对每个物体进行 finetuning,具有很强的泛化性,从而可以实现 zero-shot 一键试衣。

      此外,为了提升试衣结果的真实性,作者提出了 refiner 网络,对服饰的细节进行提升,从而能够提升服饰的材质、色彩,使其更接近真实的试衣效果。Outfit Anyone也支持各种复杂的服饰,多样的姿势,以及适配多种体型,使其能够满足用户多样化的试衣需求。

      框架设计

      近些年,虽然模型仍层出不穷,但模型设计逐渐走向同质化。主要可以分为3个部分:

      (1)输入信号(图像 / 视频 / 文本 /timestep)转化为 embedding 参入到后续网络计算中;

      (2)基础计算单元:以 Convolution Block 和 Transformer Block 构成;

      (3)信息交互单元则根据 embedding 之间的不同,可以通过 spatially-aligned operation 和 non-spatially aligned operation 的多种方式实现融合。

      在框架设计上,研究团队遵循简洁有效的原则,按以上的基础思路,首先确定了需要何种输入信号,并根据信号的差异化采用不同的特征交互方式。

      在试衣场景中,需要3个控制信号:

      模特控制:模型提取模特 id,姿态等控制信号,实现模特的控制。

      服饰控制:服饰的平铺图、服饰的上身图、饰品(帽子、包、鞋子等)。

      图像全局控制:文本描述。

      Outfit Anyone采用了以下的控制信号植入形式:

      模特控制:利用 spatially aligned operation ,本身作为模特图抽取特征内容,与目标图像在空间对齐。

      服饰控制:本身与模特图空间不能对齐,需要进行形变操作,再通过非线性的操作进行特征融合。

      背景、质量等控制:利用 attention 机制实现语义层次特征与图像特征的融合。

      目前,基于 Diffusion Model 的生成模型强调生成内容在语义层面的对齐性,所以常采用以 CLIP 为代表的图像语义抽取模型进行特征提取,但这对于试衣模型需要保留所输入服饰的纹理细节矛盾。因此,现有基于 CLIP 特征的试衣模型难以准确完整的还原服饰本身的特性,采用对服饰纹理细节可还原 / 生成的网络为佳。

      而针对于模特相关的控制信号,在训练时,本身是输入模特图的一种抽象信号,可作为输入模特图的一个特征通道,在同一网络中,通过 Channel 维度进行信息整合,并不需要遵循 ControlNet 的设计,额外增加网络进行处理,从而一定程度简化模型结构。

      基于以上思考,作者设计了 Outfit Anyone 的模型框架,将多种不同的输入信号,输入进两个网络流中,通过融合的方式实现可控生成。

      数据

      作者扩充了现有的公开服饰数据集,构建了一个大规模的虚拟试衣服饰数据集。整个数据涵盖了各种类目,包含大量高质量图片。此外,为了实现高质量的服饰还原,作者充分地整理和提取了服饰相关的材质属性等信息。

    图片

      效果展示

      1. 仅需平铺图输入,且支持单件 + 上下装成套的试衣

      站在服饰商家的角度,需要以平铺图作为输入,避免需要上身图的额外要求。但这也在服饰上身后的自然度方面对算法提出了更高的要求。

      Outfit Anyone 支持平铺图的输入,并且可同时支持单件或者上下搭配。模型根据模特姿势身材的不同,相应生成褶皱、光照等细节不同的服饰上身效果,从而实现百变的换装体验。

      2. 非常规服饰试衣

      在时尚浪潮的前沿,除了常规版型的服饰,还有更多有创意的新奇服饰。Outfit Anyone对这类服饰也能提供很好的支持。

      3. 细节一致性提升,可以保证服饰细节的一致性

      为了使Outfit Anyone所生成的试衣图片达到摄影级别的质量,作者进一步基于试衣模型结构开发了 refiner。可以在保留服饰基本 ID 的基础上,显著提升服饰的材料质感,模特的皮肤真实度。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。