毕尔巴鄂对阵皇家社会:两支近邻球队将于西甲联赛 “巴斯克德比”中为捍卫荣耀而战贝壳第三季度营收226亿元 经调净利润17.8 亿元 同比下降17.46%AI营销,让科技巨头尝到了大模型商业化的甜头安恒信息范渊在乌镇峰会谈AI:以工具视之、以工具用之、以工具治理之诺基亚与微软再合作,为 Azure 数据中心供货延长五年天岳先进发布业界首款 300mm(12 英寸)N 型碳化硅衬底三星介绍内部安全团队 Project Infinity 攻防演练项目,高效修复 Galaxy 手机平板漏洞上海市将推进低空飞行服务管理能力建设,2027 年底前累计划设相应航线不少于 400 条岁末,海尔给您备好一套“小红花”为什么说Q10K Pro是今年最值得入手的电视?看完这几点就明白了!“小墨方·大不凡”!Brother“小墨方”系列彩喷一体机全新上市黄仁勋:AI智能需求强劲,“物理定律”限制英伟达芯片增长诺基亚与微软再合作,为Azure数据中心供货延长五年国家数据局:到2029年基本建成国家数据基础设施主体结构中国已发展成为全球最大的互联网市场,拥有全球最多的网民和移动互联网用户中国铁塔:计划按照10:1的比例合股美国FCC正式划定5.9GHz频段用于C-V2X技术在AI领域奋起直追!苹果要对Siri大革新 2026年正式发布日本机构公布量子专利榜单:本源量子、国盾量子位居全球第1中国联通:拟向华为、中兴展开5G网络设备竞争性谈判采购
  • 首页 > 云计算频道 > 大模型

    Meta 推出基于 token 的全新 AI 图像生成模型 CM3leon:更高效先进

    2023年07月17日 11:55:18   来源:站长之家

      Meta 正在继续推进对新形式生成式人工智能模型的研究,并公布了最新成果,名为 CM3leon(发音类似于「chameleon(变色龙)」)

      CM3leon 是一个用于文本到图像创建和图像到文本创建的多模态基础模型,对于自动生成图像标题非常有用。

      人工智能生成的图像在当前已经不是新概念,广泛可用的工具如 Stable Diffusion、DALL-E 和 Midjourney 已经取得了很大成功。

      新鲜的是 Meta 正在使用构建 CM3leon 的技术以及 Meta 声称该基础模型能够实现的性能。

      当前文本到图像生成技术主要依赖 diffusion 模型(Stable Diffusion 的名称源自此)来创建图像。CM3leon 则采用了不同的方法:基于 token 的自回归模型。

      Meta 的研究人员在一篇名为《Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning》的研究论文中写道:「近年来,由于性能强大且相对计算成本较低,diffusion 模型在图像生成工作中占据主导地位。相比之下,众所周知基于 token 的自回归模型也能产生出色的结果,尤其在全局图像连贯性方面更好,但训练和推理的成本要高得多。」

      Meta 的研究人员已经能够通过 CM3leon 实际演示基于 token 的自回归模型实际上可以比基于 diffusion 模型的方法更高效。

      Meta 的研究人员在一篇博客文章中写道:「尽管使用的计算资源比之前基于Transformer 的方法少了五倍,CM3leon 在文本到图像生成方面实现了最先进的性能。

      CM3leon 的基本工作原理在某种程度上与现有的文本生成模型类似。

      Meta 的研究人员首先进行了一个检索增强的预训练阶段。与仅从互联网上收集公开可用的图像不同,这种方法已经给基于 diffusion 模型的模型带来了一些法律挑战,Meta 选择了一条不同的道路。

      Meta 的研究论文指出:「在文本到图像生成领域,图像数据来源的道德影响已经引发了广泛的讨论。在本研究中,我们只使用 Shutterstock 上的经过授权的图像。因此,我们可以避免与图像所有权和归属相关的担忧,同时不会牺牲性能。

      在预训练之后,CM3leon 模型经过一阶段有监督微调(SFT),Meta 的研究人员声称这种方法产生了高度优化的结果,无论是资源利用还是图像质量。SFT 是 OpenAI 用于训练 ChatGPT 的一种方法。Meta 在研究论文中指出,SFT 用于训练模型理解复杂提示,在生成任务中非常有用。

      论文中指出:「我们发现,指导调整显著提高了多模态模型在图像标题生成、视觉问答、基于文本的编辑和条件图像生成等各种任务中的性能。」

      通过查看 Meta 在关于 CM3leon 的博客文章中分享的生成图像样本集,结果令人印象深刻,清楚地显示了模型理解复杂的多阶段提示,从而生成了分辨率极高的图像。

      目前,CM3leon 仍然是一个研究项目,尚不清楚 Meta 是否会在其平台的一个服务中公开提供这项技术。鉴于它的强大性能和更高的生成效率,CM3leon 及其生成式人工智能方法有可能超越研究阶段最终得到应用。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。