• 首页 > 云计算频道 > 大模型

    Meta发布类GPT-4o多模态模型Chameleon

    2024年05月21日 14:36:36   来源:站长之家

      Meta最近发布了一个名为Chameleon的多模态模型,它在多模态模型发展中设立了新的标杆。Chameleon是一个早期融合的基于token的混合模态模型家族,能够理解并生成任意顺序的图像和文本。它通过一个统一的Transformer架构,使用文本、图像和代码混合模态完成训练,并且对图像进行分词化,生成交错的文本和图像序列。

      Chameleon模型的创新之处在于其早期融合方法,所有处理流程从一开始就映射到一个共同的表示空间,让模型能够无缝处理文本和图像。它在各种任务上展示了广泛的能力,包括视觉问答、图像标注、文本生成、图像生成和长形式混合模态生成。在图像标注任务上,Chameleon达到了最先进的性能,并且在文本任务上超越了Llama-2,与Mixtral8x7B和Gemini-Pro等模型竞争。

      Chameleon模型在技术上面临了重大挑战,Meta的研究团队引入了一系列架构创新和训练技术。例如,他们开发了新的图像分词器,基于8192大小的codebook,将512×512的图像编码为1024个离散的token。此外,Chameleon使用了sentencepiece开源库训练的BPE分词器。

      在预训练阶段,Chameleon使用了混合模态数据,包括纯文本、文本-图像对以及文本和图像交错的多模态文档。预训练分为两个阶段,第一阶段无监督学习,第二阶段混合更高质量的数据。

      Chameleon模型在基准评估中全面超越了Llama2,在常识推理、阅读理解、数学问题和世界知识领域都取得了显著的效果。在人工评估和安全测试中,Chameleon-34B的表现也远远超过了Gemini Pro和GPT-4V。

      尽管Chameleon缺少GPT-4o中的语音能力,但Meta的产品管理总监表示,他们非常自豪能够支持这个团队,并希望让GPT-4o更接近开源社区。这可能意味着不久的将来,我们可能会得到一个开源版的GPT-4o。

      Chameleon模型的发布,展示了Meta在多模态模型领域的重大进展,它不仅推动了多模态模型的发展,也为未来的研究和应用提供了新的可能性。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。