毕尔巴鄂对阵皇家社会:两支近邻球队将于西甲联赛 “巴斯克德比”中为捍卫荣耀而战贝壳第三季度营收226亿元 经调净利润17.8 亿元 同比下降17.46%AI营销,让科技巨头尝到了大模型商业化的甜头安恒信息范渊在乌镇峰会谈AI:以工具视之、以工具用之、以工具治理之诺基亚与微软再合作,为 Azure 数据中心供货延长五年天岳先进发布业界首款 300mm(12 英寸)N 型碳化硅衬底三星介绍内部安全团队 Project Infinity 攻防演练项目,高效修复 Galaxy 手机平板漏洞上海市将推进低空飞行服务管理能力建设,2027 年底前累计划设相应航线不少于 400 条岁末,海尔给您备好一套“小红花”为什么说Q10K Pro是今年最值得入手的电视?看完这几点就明白了!“小墨方·大不凡”!Brother“小墨方”系列彩喷一体机全新上市黄仁勋:AI智能需求强劲,“物理定律”限制英伟达芯片增长诺基亚与微软再合作,为Azure数据中心供货延长五年国家数据局:到2029年基本建成国家数据基础设施主体结构中国已发展成为全球最大的互联网市场,拥有全球最多的网民和移动互联网用户中国铁塔:计划按照10:1的比例合股美国FCC正式划定5.9GHz频段用于C-V2X技术在AI领域奋起直追!苹果要对Siri大革新 2026年正式发布日本机构公布量子专利榜单:本源量子、国盾量子位居全球第1中国联通:拟向华为、中兴展开5G网络设备竞争性谈判采购
  • 首页 > 云计算频道 > 大模型

    新文生图模型PIXART-δ:引入ControlNet,加速文本生成图像生成

    2024年01月17日 18:02:59   来源:站长之家

      1月17日 消息:近年来,文本到图像生成模型的需求不断增长,但高质量图像的生成往往面临资源密集型训练和慢推理的挑战,制约了其实时应用。本文介绍了PIXART-δ,这是PIXART-α框架的先进版本,无缝整合了Latent Consistency Models(LCM)和定制的ControlNet模块。

      PIXART-α以其高效的训练和优越的图像生成质量而闻名,为PIXART-δ提供了坚实的基础。LCM加速推理过程,仅需在预训练的Latent Diffusion Models(LDMs)上进行2∼4步操作即可生成高质量样本。这一改进使得PIXART-δ在A100GPU上实现了每秒0.5秒的惊人推理速度,相比PIXART-α提高了7倍。

      在将ControlNet引入PIXART-δ时,由于其原本是为UNet架构设计的,当应用于基于Transformer的模型时,提出了一种新颖的ControlNet-Transformer架构。该设计在Transformer的初始N个基本块上选择性地应用ControlNet结构,显著提高了可控性和性能。

      训练过程利用了Latent Consistency Distillation(LCD),这是原始Consistency Distillation(CD)算法的改进版本。通过算法1中的Classifier-Free Guidance(CFG)的PIXART-δ伪代码,Teacher、Student和EMA Model(图1中)充当ODE求解器的去噪器。创新的LCD算法通过FID和CLIP分数的评估展示了其有效性。

      PIXART-δ的训练效率是一个重要亮点,成功在32GB GPU内存限制下进行蒸馏过程,支持高达1024×1024的图像分辨率。这种效率使得PIXART-δ能够在普通消费级GPU上进行训练,扩大了其可访问性。

      在推理速度方面,PIXART-δ在不同硬件平台上都优于类似方法,如SDXL LCM-LoRA、PIXART-α和SDXL标准。仅需四个步骤,PIXART-δ在生成速度上保持领先地位,相比PIXART-α和SDXL标准所需的14和25步,展现了其高效性。

      引入ControlNet到PIXART-δ中涉及将原始零卷积替换为专为Transformer架构定制的零线性层。ControlNet-Transformer设计在图4(c)中展示,选择性地将ControlNet应用于初始N个基本块,实现了对可控性和整体性能的无缝整合。

      对ControlNet-Transformer进行的割除研究显示了其卓越性能,展示了在不同场景下更快的收敛速度和改善的性能。复制块的数量(N)发现对性能产生影响,对于大多数场景,N =1可以获得令人满意的结果,但在N增加的情况下在具有挑战性的边缘条件下性能得到改善。

      分析训练步骤对ControlNet-Transformer(N =13)的影响,团队观察到快速收敛,特别是在提高轮廓边缘质量方面,尤其在处理人脸和身体的情况下尤为明显。ControlNet-Transformer的效率和效果进一步强调了其在实时应用中的潜力。

      PIXART-δ代表了文本到图像生成领域的重大进展,将Latent Consistency Models的加速采样与ControlNet-Transformer的精确控制相结合。广泛的实验展示了PIXART-δ更快的采样速度和ControlNet-Transformer在高分辨率和受控图像生成方面的有效性。这一模型站在最前沿,为实时应用开辟了新的可能性。

      PIXART-α核心特色功能可以总结如下:

      1. **高级图像处理技术:** PIXART-α采用先进的图像处理算法,能够实现高质量、高清晰度的图像处理,提高图像的视觉效果。

      2. **实时性能:** 该技术具有快速的实时性能,能够在实时应用中处理图像,并在短时间内生成优质结果。

      3. **低功耗设计:** PIXART-α注重能效,采用低功耗设计,适用于需要长时间运行的设备,有助于延长电池寿命。

      4. **多场景适应性:** 这一技术具有广泛的适应性,可以在多种场景下应用,包括移动设备、摄像头、智能家居等领域。

      5. **智能识别功能:** PIXART-α内置智能识别功能,能够识别图像中的对象、场景等,提高图像分析的准确性和效率。

      6. **支持多种图像格式:** 该技术支持处理多种图像格式,使其更具灵活性,能够适应不同的图像输入源。

      7. **卓越的噪声抑制:** PIXART-α集成了卓越的噪声抑制技术,有效提高图像质量,减少由于噪声引起的视觉干扰。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。