多模态大模型，阿里通义千问能和GPT-4V掰手腕了

2024年01月26日 15:35:25 来源：机器之心公众号

　　2024 年，大模型领域要卷什么?

　　如果没有思路的话，不妨看看各家大厂都在押注什么方向。

　　最近一段时间，先是 OpenAI 推出 GPT-4V，让大模型拥有了前所未有的图像语义理解能力。

　　谷歌随后跟上，发布的 Gemini 成为了业界第一个原生的多模态大模型，它可以泛化并无缝地理解、操作和组合不同类型的信息，包括文本、代码、音频、图像和视频。

　　很明显，新的方向就是多模态。继 GPT-4 在语言方向的里程碑式突破之后，业界普遍认为「视觉」是下一个爆发的赛道。毕竟人类的五感之中有 80% 是视觉信息，未来的大模型也应该充分利用更多种类的感官，以此探索实现 AGI 的路径。

　　不只有 GPT-4V、Gemini，在这个充满潜力的方向上，国内的技术力量同样值得关注：最近的一个重要发布就来自阿里，他们新升级的通义千问视觉语言大模型 Qwen-VL-Max 在上周正式发布，在多个测评基准上取得了好成绩，并实现了强大的图像理解的能力。

　　我们还记得 Gemini 发布之后，谷歌马上被曝出给 Demo 加速。这让人们对新技术产生了一些质疑，并开始好奇：在当下的各路多模态大模型中，到底哪家比较强?

　　Demo 不作数，实际一测便知。有人拿着自己的名片给 GPT-4V 和 Qwen-VL-Plus 看，高下立见了：值得注意的是，去年底升级的 Plus 版还不是 Qwen-VL 的最强版本，最近发布的 Max 才是。

图源：https://x.com/altryne/status/1742597044781395982?s=20

　　在 Qwen-VL-Plus 发布后，国内也有人拿 Gemini 演示视频里的问题对它进行了测试，发现所有问题 Qwen-VL-Plus 完全都能回答上来。

　　一系列测评看下来，我们确实可以说，Qwen-VL 的整体能力已经达到了媲美 GPT-4V 和 Gemini 的水平，在多模态大模型领域实现了业内领先。

　　Qwen-VL 如何追平 GPT-4V、Gemini?

　　事实上，通义千问的视觉理解大模型已经经历了几轮迭代。

　　早在去年 8 月，阿里就放出了 Qwen-VL 模型的第一个版本，并很快对通义千问进行了升级。Qwen-VL 支持以图像、文本作为输入，并以文本、图像、检测框作为输出，让大模型真正具备了「看」世界的能力。

　　经历了几个月的改进，Qwen-VL 的整体能力又有了一个跃升，陆续推出 Plus 和 Max 两大升级版本，限时免费使用。用户可以在通义千问官网、通义千问 APP 直接体验 Max 版本模型的能力，也可以通过阿里云灵积平台(DashScope)调用模型 API。

　　相比于开源版本的 Qwen-VL，这两个模型在多项图文多模态标准测试中获得了堪比 Gemini Ultra 和 GPT-4V 的水准，并大幅超越此前开源模型的最佳水平。

　　在多模态大模型性能整体榜单 OpenCompass 中，Qwen-VL-Plus 紧随 Gemini Pro 和 GPT-4V，占据了前三名的位置。

图片来源：https://opencompass.org.cn/leaderboard-multimodal

　　Qwen-VL Plus 和 Max 支持百万像素以上的高清图，甚至各种极端长宽比的图片。

　　它们不仅有高水平的基准评测性能，在真实场景中展现出来的解决问题的能力也有显著提高，不仅可以轻松进行对话，识别名人、地标，生成文本内容，视觉推理能力也有明显改善。

　　开发者一手实测

　　Qwen-VL 发布以来，从开源社区到社交网络上，我们已经看到了一系列「花活」。

　　接下来，我们从普通用户的角度，再来考验一下升级版的 Qwen-VL。

　　给它一张《繁花》里面 90 年代初的上海滩照片：

　　通义千问识别出了这里是上海外滩，还能介绍一下黄浦江的景色，以及上海海关大楼等特定建筑物。

　　剧中提到的炒饭内含多少卡路里?

　　看起来大模型可以理解并联系一些知识。

　　除了基础的描述和识别能力外，Qwen-VL 模型还具备视觉定位能力和针对画面指定区域进行问答的能力。比如，根据指示进行目标检测。

　　新升级的 Qwen-VL 模型最显著的进步之一是基于视觉完成复杂推理的能力，比如理解流程图这种复杂的表示形式：

　　与此同时，升级后的 Qwen-VL 处理图像中文本的能力也有了显著提高，不管是识别中文还是英文文本。Qwen-VL-Plus/Max 可以有效地从表格和文档中提取信息，并将这些信息重新格式化，以满足自定义输出要求。

　　四个多月就有如此进步，这就让人们开始感叹，阿里通义千问大模型更新够快，能力够强。

　　阿里多模态大模型，正在爆炸式发展

　　能够达到如今的水准，Qwen-VL 的技术实力不是一朝一夕炼成的。

　　在多模态大模型方向上，阿里很早就开始布局。从 2021 年 M6 系列的预训练 - 微调模式，到 2022 年 OFA (One-For-All) 系列的统一模态表示和任务的模式，再到 OFASys 的系统化 AI 学习的尝试，通义千问团队的目标是做出和人一样能听、能看、能理解 & 沟通的通用 AI 模型(系统)。

　　2022 年，阿里开源了 OFA。OFA 能通过自然语言来描述一个图文多模态任务，比如输入「描述一下这张图片」，模型就会尝试去产生一个合适的图像描述，打破了大家对通用多模态任务模型效果不如专用多模态模型的传统观念。这篇被 ICML 2022 接收的论文思路启发了后续的许多研究，被谷歌、微软、Meta 等众多国际大厂所引用，是近年来多模态方向的高引论文之一。

　　2023 年以来，通义千问团队延续了 OFA 的研究路线，利用通义千问语言模型的能力，弥补了过去多模态模型在新任务泛化能力上的缺陷，相关成果就是 2023 年下半年我们看到的开源图文多模态模型 Qwen-VL 和音频多模态模型 Qwen-Audio。