追觅科技进军大家电领域 将亮相AWE 2025中国铁塔2024年净利润107.29亿元继 iPhone 后第二个产品类别:消息称苹果计划四月起在印度生产 AirPods 耳机中手游《仙剑世界》工作室回应裁员消息:对部分研发工作职能和模块进行优化调整美国娱乐公司将推《西游记》动画电影三部曲:《八戒》《美猴王》《哪吒》郭明錤:英伟达 B300 发布为 GTC 2025 重点,预计第三季度量产国铁集团推出老年常旅客会员积分优惠措施,可换火车票世界互联网大会亚太峰会宣布 4 月 14 日至 15 日首度在香港召开病人带着DeepSeek来看病,AI+医疗路在何方智己汽车发布会开启智能座舱新时代英特尔Panther Lake处理器计划2026年大规模量产一文剖析固德威王牌产品的硬核『品智』尼康Z5Ⅱ或提前至4月发布:搭载Expeed 7处理器及双SD卡槽今日人才亮相广州招聘会 百万年薪招“数智员工”导师开启人机协同新篇章 —— 全国首个人才专用大模型发布 与百万英才齐聚南粤科锐国际:AI人才竞争白热化 高端与复合型技术人才成焦点一加 Ace 5 Pro 手机迎来 ColorOS 15.0.0.505 系统升级,新增多项实用功能居然智家联手优必选推动智能家居与机器人深度融合中国企业加速AI部署 昇腾大EP方案成首选,H20遇挑战腾讯加速大模型应用 巨额采购英伟达H20芯片应对DeepSeek需求极氪智驾OTA 6.3.3升级:新增环岛与ETC收费站通行功能
  • 提前免费!百度连发两款模型,我们实测:能听歌看电影,还会蛐蛐人

    2025年03月17日 09:46:27   来源:机器之心公众号

      AI 竞争进入白热化阶段。这次,轮到百度给自家大模型上强度。

      刚刚,百度一口气官宣了两款大模型,分别是文心大模型 X1和文心大模型4.5

      那么,这两款大模型有啥区别呢?

      这么说吧,文心 X1是一款深度思考模型,具备更强的理解、规划、反思、进化能力,并支持多模态,尤其是多工具调用,更是它的一大特色。

      而文心4.5号称新一代原生多模态基础大模型,最擅长的就是多模态理解,语言能力也更精进。

      相比于之前版本,文心4.5不仅在理解、生成、逻辑、记忆能力方面上了一个台阶,还在去幻觉、逻辑推理、代码能力上有了全面提升。

      目前,这两款模型已在文心一言官网、百度搜索、文小言 APP 等产品上线。(体验网址:https://yiyan.baidu.com/)

      最关键的是,它们全都免费!

      要知道,前段时间百度还对外宣布,文心一言将从2025年4月1日0时起开始全面免费。

      没想到,这次百度直接将这个时间点提前了整整半个月。

      同时,这两款模型的 API 价格也已出炉。

      开发者现可在百度智能云千帆大模型平台上直接调用文心大模型4.5API,输入价格低至0.004元 / 千 tokens,输出价格低至0.016元 / 千 tokens;文心大模型 X1也即将在千帆平台上线,输入价格低至0.002元 / 千 tokens,输出价格低至0.008元 / 千 tokens。

      百度之所以能把文心 X1模型的 API 价格打下来,是因为他们通过飞桨和文心联合优化,实现从压缩、推理、服务部署的全链路极致调优,大幅降低文心 X1推理成本。

      具体来说,模型压缩方面,通过分块 Hadamard 量化、面向长序列的注意力机制量化等实现深度压缩;推理引擎方面,通过低精度高性能算子优化、动态自适应投机解码、神经网络编译器实现推理加速。系统层面,通过框架和芯片协同优化、分离式部署架构、高效资源调度实现系统级优化。

      一手评测

      俗话说得好,是骡子是马,还得拉出来遛遛。

      接下来,我们将从多模态理解、文本创作、逻辑推理以及工具调用等多个维度,对这俩大模型来一波真刀真枪的实战。

      文心 X1:会脑筋急转弯,还能调动多个工具

      作为百度最新深度思考模型,文心 X1有三大绝活:嘴毒(敢锐评)、脑子好使(推理能力强),而且善用工具(多工具调用)。

      相较于之前版本,文心 X1显得叛逆得多。它不愿做「端水大师」,遇事总是直言不讳,有观点有态度。

      比如我们让它用贴吧的口吻,锐评一下小红书、知乎、微博和贴吧。

      它一上来就毫不客气,怒喷小红书是《人类高质量装 X 指南》,知乎整天标榜精英范儿,微博热搜天天吵得像菜市场,贴吧则是人均键盘侠。

      之所以说文心 X1脑子好使,是因为它的逻辑推理能力有了显著提升,甚至还「懂」脑筋急转弯的奇葩脑回路。

      比如「狐狸为什么容易摔跤」,它既能从科学的角度进行解释,还能识别出背后的谐音梗。

      要说文心 X1最大的特色,便是能调用多种工具。

      我们只需在聊天框开启「联网搜索」和「调用工具」两个按钮,就能一下子综合高级搜索、文档问答、图片理解、AI 绘图、代码解释器、百度学术检索、商业信息查询等工具。

      举个例子。

      我们上传一张甜品的照片,然后让它介绍制作工序,并生成一份 PDF 文件。

      文心 X1接连调用了图片理解、联网搜索和代码解释器三个工具。

      最终它真的生成了一份草莓蓝莓煎饼塔详细工序的 PDF 文档。

      文心 X1的完整回答

      文心 X1生成的 PDF 文件名及内容

      文心4.5:学会了听歌、看电影

      如果说文心 X1更聪明的话,那么文心4.5就是更全能。

      作为百度自主研发的新一代原生多模态基础大模型,文心4.5不仅能看懂梗图,还能识别音视频。

      前段时间 Grok3发布时,马斯克激动地在 X 上发了张梗图,对着谷歌、OpenAI 和 Meta 就是一顿贴脸开大。

      我们就将这张梗图丢给文心4.5,输入 Prompt:这张图片暗含着什么意思?

      它敏锐捕捉到了图片背后的幽默和讽刺含义:四只企鹅代表了大洋彼岸的四家科技巨头,其中三只企鹅向 Grok 企鹅敬礼,暗示了 Grok 在某一阶段处于领先优势。

      对于大模型来说,识别梗图早就不是什么新鲜事了,文心4.5最拿手的还得是音视频的理解分析。

      当我们听到一首喜欢的音乐,但就是死活想不起来歌名时,我们只需录一小段音频,投喂给文心4.5,它就能给出这首歌的一切。

      音乐,机器之心,3分钟

      同理,我们还可以上传一段不超过20M 的视频片段,让它挖出背后各种八卦。

      比如电影《闻香识女人》中这段经典的舞蹈,文心4.5不仅识别出影片名字、女主饰演者,甚至连背景音乐都扒出来了。

      弱智吧,江湖人称「青龙山皇家疗养院」,大模型智商高不高,就看能不能 hold 得住这些神题。

      比如:为什么只有电信诈骗,没有联通诈骗呢?

      文心4.5从术语的通用性聊到了历史渊源,又从法律定义聊到了社会认知,把这个略显无厘头的问题解释得清清楚楚、明明白白。

      此外,文心4.5在搜索方面也有了更大的进步。

      就拿最近大火的网络热梗「馕言文」来说,它找到了8条参考信源,除了百家号外,还包括新京报网、腾讯网等其他来源。

      而且,文心4.5经过分析总结给出回答后,还在末尾附上了相关视频以供参考。

      核心技术大揭秘

      经过实测,我们可以看出百度最新发布的两个模型已经出现了质的飞跃。

      多项技术加持的文心 X1

      最近一段时间,AI 圈焦点无疑是关于「Scaling Law 是否撞墙?」的讨论,这个曾经被视作大模型发展的第一性原理,如今却遭遇了巨大挑战。

      面对大模型性能提升的边际效益递减问题,测试时计算(Test-Time Compute)、强化学习等策略成为一种有效的应对方式。

      百度在强化学习方面也下足了功夫,发布的推理模型文心 X1创新性地应用了递进式强化学习训练方法。采用这种方法可以全面提升模型在创作、搜索、工具调用、推理等场景的综合应用能力。

      比如上文我们体验的「输入一张图片,要求文心 X1根据提示输出 PDF 格式的文件」,就离不开这种训练方式。

      现阶段,推理模型几乎都采用了一种称为思维链(Chain of Thought,CoT)的技术,与传统的直接从输入到输出的映射不同,思维链通过显式展示中间推理过程,帮助模型更好地理解和解决复杂问题。

      更进一步的,文心 X1具备 “长思维链”,采用了思维链和行动链耦合的端到端训练方式。思维链使得模型在解决问题时,一步一步写下思考过程,就像我们做数学题时,需要写下解题步骤一样。而行动链是模型在思考过程中决定采取的行动,比如搜索信息、调用工具等。

      在端到端训练中,文心 X1不是只学习思考或者只学习行动,而是把思考和行动结合起来,通过这种方式,模型可以根据每次行动的结果反馈,调整自己的思考和行动策略,最终显著提升在复杂任务中的表现。

      最后,文心 X1还采用了多元统一的奖励系统,这个系统就像一个「超级裁判」,用来评价模型做得好不好。这个「裁判」在评估过程中结合了多种不同的奖励机制,能够从多个角度给模型反馈。这样的话,模型在训练过程中就能得到更准确、更可靠的指导,为模型训练提供更加鲁棒的反馈。

      文心4.5用到的「法宝」

      至于文心4.5,背后的技术也不容小觑。

      首先是FlashMask 动态注意力掩码。FlashMask 是由百度飞桨团队在论文《FlashMask: Efficient and Rich Mask Extension of FlashAttention》中提出的一种创新的注意力掩码优化技术,旨在解决 Transformer 类大模型中注意力掩码计算的冗余和存储开销问题。FlashMask 通过列式稀疏掩码表示方法,将传统的二维稠密掩码矩阵转换为一维的行索引区间表示,从而显著降低了存储复杂度,从 O (N^2) 降低到 O (N)。极致的加速了大模型训练效率,尤其是长序列场景下的训练效率。

      相关论文已入选顶会 ICLR2025。

      其次就是多模态异构专家扩展技术。该技术是一种结合多模态数据处理与混合专家模型(MoE)的创新架构,旨在通过针对不同模态特点构建的异构专家模块,解决多模态融合中的梯度不均衡问题,提升模型的多模态融合能力。多模态异构专家扩展技术在多个应用场景中展现了显著优势,例如多模态问答任务,这种技术能够更高效地处理复杂的多模态数据。

      文心4.5还采用了时空维度表征压缩技术,这是一种把图片和视频里的关键信息进行浓缩的方法。在不丢失重要细节的情况下,在时空维度对图片和视频的语义表征进行高效压缩,让这些数据变得更小、更高效。这样一来,训练多模态模型(也就是同时处理文字、图片、视频等多种数据的模型)时就能更快、更省资源。

      前文我们已经提到,文心4.5幻觉问题得到了极大的提升,而这离不开百度采用的基于知识点的大规模数据构建技术。知识分级采样优先把重要的、核心的知识挑出来,接着把挑出来的知识点进行压缩,去掉多余的部分,把相关的知识融合在一起。对于那些比较少见、不太好找的知识点,专门合成一些相关内容,确保这些重要的小众知识也不会被遗漏。这样一来,模型幻觉大大降低。

      此外,文心4.5还用到了基于自反馈的 Post-training 技术。这是一种通过多种评估方式不断优化模型的后训练方法。简单来说,它让模型在训练过程中不断反思自己的表现,根据不同的评价标准调整自己,从而让模型变得更稳定、更可靠。这种技术还能显著提升预训练模型理解人类意图的能力,让模型的回答更符合人类的期望。

      那么文心4.5与其他模型对比结果如何呢?

      下图展示了文心4.5与 GPT-4o 在多模态性能上的对比。可以看出,文心4.5在大多数测试基准上的表现优于 GPT-4o,尤其是在 OCRBench、MathVista、DocVQA 和 MVBench 上,两者差距较为明显。GPT-4o 仅在 MMMU 上的表现相对较好,但在其他基准上的表现不如文心4.5。在平均值上,文心4.5的得分略高于 GPT-4o,显示出文心4.5在整体性能上的优势。

      下图比较了四个不同模型(文心4.5、DeepSeek-V3-Chat、GPT-4o 和 GPT-4.5)在文本测试基准上的性能对比。结果显示文心4.5在大多数测试基准上的表现优于其他模型,尤其是在 C-Eval、CMMLU、CMath 和 CLUEWSC 等基准上。

      RAG 相关技术

      RAG 检索增强生成(Retrieval Augmented Generation),已经成为当前最火热的 LLM 应用方案, 是衡量大模型优劣的重要维度。

      现在大模型在各种任务上虽然很强大,但也有缺点,比如:幻觉现象导致 LLM 有时会「瞎编」一些不存在的信息;还有大模型掌握的信息并不是最新知识,知识系统更新很慢;此外,生成的内容缺乏透明度等一系列问题,导致大模型在实际应用中并不是很理想。

      RAG 通过检索最新的、相关的知识,解决了上述问题,让生成的内容更可靠、更准确。

      百度研发的「理解 - 检索 - 生成」协同优化检索增强技术,提升了大模型技术及应用的效果,能够生成准确率更高、时效性更好的答案。而且,百度在 RAG 技术上具备中文深度理解、多模态检索、垂直领域定制化以及实时数据整合能力等优势,在中文互联网、企业服务、政务医疗等场景中更具实用性和竞争力。

      此外,在国内外主流大模型的 RAG 能力实测中,百度文心一言综合表现最佳。

      虽然传统的 RAG 已经基本解决了大模型在文本生成层面的幻觉问题,但在多模态领域,尤其是图片生成领域,传统 RAG 已经远远不够用了。

      比如,我们经常看到生成的图片出现明显的逻辑错误等问题。即使结果符合要求,但看上去也是一股 AI 味,这些问题严重影响了 AI 生成图像的实用性和可信度。

      正如百度创始人、董事长兼首席执行官李彦宏在百度世界2024大会上所提出的:「文字层面的 RAG 已经做得很好,基本让大模型消除了幻觉;但在图像等多模态方面,和 RAG 的结合还不够,这也是百度希望重点突破的方向。」

      在这种情况下,百度自研了一种检索增强的文生图技术 iRAG(image based RAG),旨在解决传统文生图系统中常见的幻觉问题,提升生成图像的准确性和实用性。

      在拥有亿级的图片资源和强大的基础模型能力,百度 iRAG 将这些优势相结合,避免了传统文生图系统中一眼假的问题,生成的图像不仅超真实,还具备极高的准确性和可靠性。

      结语

      这次,百度一口气上线了两款大模型,总算扬眉吐气了一回。

      近十年来,百度一向舍得在研发上砸钱。截至目前,百度已累计投入超过1800亿元。

      如今来看,真金白银没有白花。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。