突破叙事尺度 刻画极致人物 迷雾剧场《漂白》1月17日上线爱奇艺1月20日手机数码国补落地京东 超千万国补商品等你挑选超千万货品已备足 1月20日来京东购手机享国家补贴每件最高500元拥抱创新科技,探寻体育变革之路—— 第二届LALIGA EXTRATIME体育行业论坛在京成功举办斑马技术《2025全球消费者调查报告》:注重防损管理,增强顾客体验终端创企Nothing拟募资1亿美元 一加联合创始人创立恩智浦获欧洲投资银行 10 亿欧元贷款,用于在欧多国研发创新工作入手松下ZS99相机新品首选京东 售价2998元可先人一步入手1月20日打开京东搜索「1」 3C数码“疯狂星期一”爆款低至1元当代年轻人用上AI,从夸克开始消息称iPhone SE 4将有白色和黑色 预计3月份推出全球PC市场迎来温和复苏:2024年出货量增长1.3%,联想和苹果表现亮眼比亚迪已在韩国推出Atto 3 预计2月中旬开始交付发展新质生产力 赋能健康产品力 ——劲牌有限公司2024年度科技责任(成果)报告美光减产后 SK海力士也计划将上半年NAND闪存产量削减一成赵明离职信曝光:离开荣耀是人生中最艰难的决定消息称京东服饰换帅,阿里前高管担任负责人这年头,谁在互联网上学这么“硬核”的AI?开战2025,本地生活商家「另辟蹊径」年底Mini LED电视到底怎么选?认准这些新技术不踩雷!
  • 首页 > 云计算频道 > 大模型

    GPT-4o再暴露「弱智」缺陷,大模型无一幸免,港中文等发布「视觉听觉」基准AV-Odyssey:26个任务直指死角问题

    2024年12月11日 14:08:02   来源:新智元公众号

      多模态大模型在听觉上,居然也出现了「9.11>9.8」的现象,音量大小这种简单问题都识别不了!港中文、斯坦福等大学联合发布的AV-Odyssey基准测试,包含26个视听任务,覆盖了7种声音属性,跨越了10个不同领域,确保测试的深度和广度。

      在人工智能领域,我们一直以为顶尖的多模态大模型已经无所不能,GPT-4o在ASR(音频转文字)任务上已经达到了97%的正确率,更是凸显了强大的音频理解能力。

      然而,最近一项来自香港中文大学、斯坦福大学、伯克利大学和耶鲁大学的研究成果却彻底颠覆了这一认知——GPT-4o、Gemini1.5Pro、Reka Core等最先进的多模态大模型居然无法正确分辨明显不同的声音大小!

      下面是一个例子:

      音频1,新智元,3秒

      音频2,新智元,3秒

      结果让人难以置信:这些顶尖的AI模型都未能准确判断出音量的差异!对于人类来说,这种问题简直是「傻瓜级」任务,然而这些大模型却纷纷失手,暴露出其在基本听觉能力上的严重缺陷。

      这一发现激发了研究团队的思考:为什么如此先进的模型在听觉辨识方面如此薄弱?为了填补这一空白,研究团队首度提出了一个全新的测试工具——DeafTest,它专门用来测试多模态大模型的基础听觉能力。

      不仅如此,研究团队还提出了首个全面的多模态大模型视听能力评估基准——AV-Odyssey。这一基准旨在推动未来AI模型在听觉、视觉的理解整合能力上迈向新高度。

      DeafTest:多模态大模型的「听力盲点」

      为了测试多模态大模型最基础的听觉能力,研究团队首先提出DeafTest,该测试包括四项基础任务:数音频中的声音次数、比较两个音频的响度、比较两个音频的音高、比较两个音频的时长。

      这些任务都被设计为对人类来说极其简单的判断题,差异明显,例如:

      在响度比较任务中,一个音频的响度在70-100分贝之间,而另一个音频则在30-60分贝之间。

      然而,测试结果却令人震惊——这些顶尖的AI模型在大多数任务中的表现,几乎与随机猜测无异,准确率和随机选择的50%差不多,无疑暴露了多模态大模型在音频感知上的巨大短板。

      AV-Odyssey Bench:全面评估多模态大模型的视听能力

      为了更全面地评估AI在视听能力上的表现,研究团队还推出了一个全新的评估基准——AV-Odyssey。

      AV-Odyssey包含26个任务,覆盖了7种声音属性——音色、语调、旋律、空间感知、时序、幻觉、综合感知,并且跨越了10个不同领域,确保测试的深度和广度。

      为了确保评估的稳健性和公正性,所有任务均采用四选一的多项选择题形式,每个问题都融合了视觉、听觉等多模态信息,全面考察模型的综合处理能力。

      此外,为了避免因输入顺序或格式导致的偏差,所有输入(包括文本、图片/视频和音频片段)都会以交错的方式输入到多模态大模型中。问题的形式如下图所示:

      AV-Odyssey中包含了由人类专家全新标注的4555个问题,确保题目没有在其他任何数据集中出现过,任务分布以及统计信息如下面图表所示:

      同时,为了进一步控制质量,研究团队利用5个视觉语言模型和4个音频大语言模型,过滤出包含冗余图像或音频片段的问题。

      在这个过程中,2.54%的问题同时被所有视觉语言模型或所有音频大语言模型解决,研究团队去除了这些问题。

      AV-Odyssey 实验结果

      从实验结果中,可以发现:

      AV-Odyssey的挑战性:

      大多数现有的多模态大语言模型平均表现仅略高于25%,这与四选一问题的随机猜测准确率相当。值得注意的是,即使是AV-Odyssey中的表现最佳的模型——GPT-4o,也仅取得了34.5%的准确率。

      这一结果凸显了AV-Odyssey所带来的高挑战性,远远超出了当前模型训练数据的分布范围。

      通过设定严格的标准,AV-Odyssey基准测试为评估多模态大模型在音频视觉任务中的能力提供了一个重要工具,突显了现有模型的局限性,并为未来的改进指明了方向。

      开源多模态大模型训练的局限性:

      同时,即便OneLLM、Unified-IO-2、VideoLLaMA2和NExT-GPT 通过引入Audiocaps等音频-文本匹配数据集,尝试增强音频理解能力,并结合图像-文本配对数据训练视觉理解,这些模型在AV-Odyssey的测试中仍然表现不佳。

      这表明,目前的训练流程并不足以真正弥合音频与视觉模态之间的鸿沟,也未能有效地学习音视频信息的整合与深度理解。

      AV-Odyssey 错误分析:音频感知仍是瓶颈

      研究团队对Gemini1.5Pro在AV-Odyssey中的错误进行深入分析,对每个任务随机抽取了4个错误案例进行人工标注,最终得到104个错误案例,并对其进行统计。错误的分布如下图所示:

      这一分析结果揭示了一个重要趋势:63%的错误都集中在音频理解上!

      例如,在某些任务中,虽然模型正确理解了视觉信息,但是音频片段的内容识别错误,导致了错误答案的生成。一个例子如下图所示:

      这一发现再次印证了DeafTest的初步结论:当前多模态大模型在基础的听力能力上存在明显短板,音频感知依然是多模态任务中的最大瓶颈。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。