半导体跨界潮,谁在跟风,谁在下棋?Nikola,一个千亿造车独角兽破产了消息称谷歌将因违反反垄断规则而遭欧盟指控,恐被处以高额罚款透明美学再进化,Nothing Phone(3a)系列手机宣传物料曝光2025 年春运今日迎来最后一天,全国铁路已累计发送旅客 4.99 亿人次国内通信运营商首次:中国联通通过数字货币桥实现跨境支付微软 Outlook“保存邮件到 OneNote”功能 3 月谢幕,“发送到 OneNote”接棒全国首个:浙江率先布局低空经济“下乡”,目标到年底建成 200 个乡村无人机起降枢纽拨打客服电话强制等待 15 分钟,惠普欧洲试点遭强烈反对后取消OPPO一键问屏 / 全能搜基于阶跃星辰Step系列多模态模型打造京东&创维联合定制JD100 Mini电视发布 下单享免费送装一体服务我国成功发射中星 10R 卫星中科闻歌发布“智川”企业智能体平台1.0、“优雅”音视频大模型平台1.5,领先技术加速AI普惠落地这个周末,在最懂开发者的城市邂逅最懂开发者的算力平台DDN推出 Infinia 2.0对象存储 加速AI数据处理速度全部免费!百度文心智能体平台已全面接入DeepSeek模型灯塔云系统:开启劳务派遣管理4.0时代超2671万名消费者申请手机等数码产品购新补贴 用国补买手机上京东皇家马德里对阵赫罗纳:不乏进球与高水平竞技的足球现场OpenAI宣布面向多个国家推出AI代理 Operator
  • 首页 > 云计算频道 > 大模型

    苹果文生图大模型亮相:俄罗斯套娃式扩散,支持1024x1024分辨率

    2023年10月31日 16:05:58   来源:微信公众号机器之心

      本文来自微信公众号“机器之心”(ID:almosthuman2014),编辑:杜伟、小舟。

      习惯了 Stable Diffusion,如今终于又迎来一个俄罗斯套娃式(Matryoshka)Diffusion 模型,还是苹果做的。

      在生成式 AI 时代,扩散模型已经成为图像、视频、3D、音频和文本生成等生成式 AI 应用的流行工具。然而将扩散模型拓展到高分辨率领域仍然面临巨大挑战,这是因为模型必须在每个步骤重新编码所有的高分辨率输入。解决这些挑战需要使用带有注意力块的深层架构,这使得优化更困难,消耗的算力和内存也更多。

      怎么办呢?最近的一些工作专注于研究用于高分辨率图像的高效网络架构。但是现有方法都没有展示出超过512×512分辨率的效果,并且生成质量落后于主流的级联或 latent 方法。

      我们以 OpenAI DALL-E2、谷歌 IMAGEN 和英伟达 eDiffI 为例,它们通过学习一个低分辨率模型和多个超分辨率扩散模型来节省算力,其中每个组件都单独训练。另一方面,latent 扩散模型(LDM)仅学习低分辨率扩散模型,并依赖单独训练的高分辨率自编码器。对于这两种方案,多阶段式 pipeline 使训练与推理复杂化,从而往往需要精心调整或进行超参。

      本文中,研究者提出了俄罗斯套娃式扩散模型(Matryoshka Diffusion Models,MDM)它是用于端到端高分辨率图像生成的全新扩散模型。代码很快将释出。

      论文地址:https://arxiv.org/pdf/2310.15111.pdf

      该研究提出的主要观点是将低分辨率扩散过程作为高分辨率生成的一部分,通过使用嵌套 UNet 架构在多个分辨率上执行联合扩散过程。

      该研究发现:MDM 与嵌套 UNet 架构一起实现了1)多分辨率损失:大大提高了高分辨率输入去噪的收敛速度;2)高效的渐进式训练计划,从训练低分辨率扩散模型开始,按照计划逐步添加高分辨率输入和输出。实验结果表明,多分辨率损失与渐进式训练相结合可以让训练成本和模型质量获得更好的平衡。

      该研究在类条件图像生成以及文本条件图像和视频生成方面评估了 MDM。MDM 让训练高分辨率模型无需使用级联或潜在扩散(latent diffusion)。消融研究表明,多分辨率损失和渐进训练都极大地提高了训练效率和质量。

      方法概览

      研究者介绍称,MDM 扩散模型在高分辨率中进行端到端训练,同时利用层级结构的数据形成。MDM 首先在扩散空间中泛化了标准扩散模型,然后提出了专用的嵌套架构和训练流程。

      首先来看如何在扩展空间对标准扩散模型进行泛化。

      与级联或 latent 方法的不同之处在于,MDM 通过在一个扩展空间中引入多分辨率扩散过程,学得了具有层级结构的单个扩散过程。具体如下图2所示。

      具体来讲,给定一个数据点 x ∈ R^N,研究者定义了与时间相关的隐变量 z_t = z_t^1, . . . , z_t^R ∈ R^N_1+...NR。

      研究者表示,在扩展空间中进行扩散建模有以下两点优点。其一,我们在推理期间通常关心全分辨率输出 z_t^R,那么所有其他中等分辨率被看作是额外的隐变量 z_t^r,增加了建模分布的复杂度。其二,多分辨率依赖性为跨 z_t^r 共享权重和计算提供了机会,从而以更高效的方式重新分配计算,并实现高效训练和推理。

      接下来看嵌套架构(NestedUNet)如何工作。

      与典型的扩散模型类似,研究者使用 UNet 网络结构来实现 MDM,其中并行使用残差连接和计算块以保留细粒度的输入信息。这里的计算块包含多层卷积和自注意力层。NestedUNet 与标准 UNet 的代码分别如下。

      除了相较于其他层级方法的简单性,NestedUNet 允许以最高效的方式对计算进行分配。如下图3所示,研究者早期探索发现,当以最低分辨率分配大部分参数和计算时,MDM 实现了明显更好的扩展性。

      最后是学习。

      研究者使用常规去噪目标在多个分辨率下训练 MDM,如下公式 (3) 所示。

      这里用到了渐进式训练。研究者按照上述公式 (3) 直接对 MDM 进行端到端训练,并展示出了比原始基线方法更好的收敛性。他们发现,使用类似于 GAN 论文中提出的简单渐进式训练方法,极大地加速了高分辨率模型的训练。

      这一训练方法从一开始就避免了高成本的高分辨率训练,加速了整体收敛。不仅如此,他们还合并了混合分辨率训练,该训练方法在单个 batch 中同时训练具有不同最终分辨率的样本。

      实验及结果

      MDM 是一种通用技术,适用于可以逐步压缩输入维度的任何问题。MDM 与基线方法的比较如下图4所示。

      表1给出了在 ImageNet(FID-50K)和 COCO(FID-30K)上的比较结果。

      下图5、6、7展示了 MDM 在图像生成(图5)、文本到图像(图6)和文本到视频(图7)方面的结果。尽管是在相对较小的数据集上进行训练的,但 MDM 仍显示出生成高分辨率图像和视频的强大零样本(zero-shot)能力。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。