谷歌、CMU研究表明：语言模型通过使用良好的视觉tokenizer首次击败了扩散模型

2023年10月11日 15:48:42 来源：站长之家

　　10月11日消息:来自谷歌、CMU 的研究发现，语言模型在图像、视频生成领域的性能一直不如扩散模型，主要原因是缺乏有效的视觉表示。

　　然而，通过引入一种名为MAGVIT-v2的视频 tokenizer，采用无查找量化和增强功能的设计，研究者成功改进了图像和视频生成的质量，超越了现有技术。

　　实验证实，良好的视觉 tokenizer 在使语言模型生成高质量图像和视频方面具有关键作用。

　　这一研究的重要性在于它为语言模型的多模态应用提供了新的思路，通过将视觉和语言统一在相同的 token 空间中，可以提高多模态语言模型的性能，加快视频应用的处理速度，并提高视频压缩质量。

　　此外，新的 token 也提供了更好的视觉理解，增强了模型的鲁棒性和泛化性。通过这一研究，我们可以看到语言模型在视觉生成领域的潜力，以及如何通过创新的设计和改进来实现更好的性能。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

即时

第十四代英特尔® 酷睿™ 处理器(代号Raptor Lake S Refresh)采用了先进的Intel 7制程工艺。

奥维云网(AVC)推总数据显示，2024年1-9月明火炊具线上零售额94.2亿元，同比增加3.1%，其中抖音渠道表现优异，同比有14%的涨幅，传统电商略有下滑，同比降低2.3%。

“以前都要去窗口办，一套流程下来都要半个月了，现在方便多了!”打开“重庆公积金”微信小程序，按照提示流程提交相关材料，仅几秒钟，重庆市民曾某的账户就打进了21600元。

华硕ProArt创艺27 Pro PA279CRV显示器，凭借其优秀的性能配置和精准的色彩呈现能力，为您的创作工作带来实质性的帮助，双十一期间低至2799元，性价比很高，简直是创作者们的首选。

9月14日，2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。