中国联通开源元景文生图模型：业界首款支持长文本输入和国产化训推的中文原生文生图模型

2024年12月25日 17:03:22 来源：C114通信网

　　近日，联通数据智能有限公司重磅开源首个完全在国产昇腾AI基础软硬件平台上实现训练和推理的中文原生文生图模型，实现多项自主创新突破。

　　在架构上，通过在SDXL架构中融合复合语言编码模块，实现了对中文长文本、多属性对应和中文特色词汇的精确语义理解，对应图像的生成效果得到了极大提升。

　　在昇腾AI大规模算力集群上实现了中文原生文生图模型的训练和推理，并将模型和代码对业界开源，以推动文生图领域的国产化进程。

　　当前的文生图主流模型以英文输入为主，中文原生的文生图模型研发则相对比较缓慢，这导致了模型对中文语义的理解能力不足，中文特色图片生成能力有限。中国联通作为数字信息运营服务国家队、数字技术融合创新排头兵，长期关注中文原生大模型的发展，并走出了一条夯实基础、自主研发的技术创新突破之路。目前，元景文生图模型已在联通内外部多个项目中成功应用，成为助力企业降本增效、智能化升级的重要一环。

　　架构创新：引入复合语言编码模块，支持中文长文本输入

　　原始SDXL的语言编码器仅使用了英文CLIP模型，导致其一方面仅支持英文文本作为输入，另一方面在输入长度上也存在严重限制(最长77个token)。对此，元景文生图模型一方面将英文CLIP模型替换成中文CLIP，使得模型中文短文本输入具有更好的理解能力;同时，引入复合语言编码架构，将基于encoder-decoder架构的语言模型引入了语言编码器部分，这使得模型能支持超过CLIP长度限制的长文本，实现更准确的中文语义理解和判断。

　　元景中文文生图架构

　　中文原生模型：支持中文原生语义理解和中文特色图像生成

　　通过引入复合语言编码模块，元景文生图模型实现了原生中文语义理解，避免了传统的利用翻译插件等作为中介调用英文文生图模型的方法所带来的中文信息损失。同时通过引入海量中文图文对数据进行预训练，模型对中文专属名词，如鼠标-老鼠、仙鹤-吊车等英文模型易混淆的对象，以及中文菜谱等英文模型无法理解的名词，都能够准确理解并生成对应的高质量图片。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

[No. ]
分享到微信