毕尔巴鄂对阵皇家社会:两支近邻球队将于西甲联赛 “巴斯克德比”中为捍卫荣耀而战贝壳第三季度营收226亿元 经调净利润17.8 亿元 同比下降17.46%AI营销,让科技巨头尝到了大模型商业化的甜头安恒信息范渊在乌镇峰会谈AI:以工具视之、以工具用之、以工具治理之诺基亚与微软再合作,为 Azure 数据中心供货延长五年天岳先进发布业界首款 300mm(12 英寸)N 型碳化硅衬底三星介绍内部安全团队 Project Infinity 攻防演练项目,高效修复 Galaxy 手机平板漏洞上海市将推进低空飞行服务管理能力建设,2027 年底前累计划设相应航线不少于 400 条岁末,海尔给您备好一套“小红花”为什么说Q10K Pro是今年最值得入手的电视?看完这几点就明白了!“小墨方·大不凡”!Brother“小墨方”系列彩喷一体机全新上市黄仁勋:AI智能需求强劲,“物理定律”限制英伟达芯片增长诺基亚与微软再合作,为Azure数据中心供货延长五年国家数据局:到2029年基本建成国家数据基础设施主体结构中国已发展成为全球最大的互联网市场,拥有全球最多的网民和移动互联网用户中国铁塔:计划按照10:1的比例合股美国FCC正式划定5.9GHz频段用于C-V2X技术在AI领域奋起直追!苹果要对Siri大革新 2026年正式发布日本机构公布量子专利榜单:本源量子、国盾量子位居全球第1中国联通:拟向华为、中兴展开5G网络设备竞争性谈判采购
  • 首页 > 云计算频道 > 大模型

    “越长”就越强?为何通义千问卷不动Kimi

    2024年04月02日 17:11:39   来源:微信公众号:AI新智能

       跟风与内卷,救不了国产大模型。

      最近,受到Kimi大火的刺激,国内大模型们又开始了新一轮“我有多长”的比赛了。

      在Kimi 目前200万文本长度打底的情况下,其他各家没个四五百万打底,都不好意思见人了。

      比如360那个“智脑”,号称能处理500万字长文本,而百度稍微低调些,打算下个月开放200万-400万的长文本能力。

      最狂的是通义千问,直接升级到了1000万文本长度,成了全球文档处理容量第 一的AI。

      但是,“越长”就真的“越强”吗?

      在长文本方面,想成为真正的“大家伙”,可不仅仅只是把所有知识都灌进肚子里就行了。光是囫囵吞不算啥,得能穿针引线,理解和应用其中的内容、知识,才能帮用户解决真正的问题。

      所以,今天我们不妨先拿通义千问这个“出头鸟”来开开刀,用几个最为常见的长文本任务,好好拿捏一下这上千万的文本能力,究竟有多少含金量。

      1

      三大考验

      1、新闻摘要

      今天咱们要干的第 一个长文本活儿,就是最常见的新闻摘要归纳。

      因为那些媒体搞的大新闻啊、深度调查啊,为了把事情说透彻,堆砌了一大堆事实、数据、例子,文章就贼拉长。

      现在呢,咱们得把这些长文章浓缩一下,简单直白地说说重点。

      在这里,我们选择的文章,是36氪的文章《卷进前1%,谁能拿下新药出海下一个百亿美元交易?》

      首先来看看通义千问的表现。

      从这个总结的结果来看,通义千问基本覆盖了文章的主要信息点,并简要地对每个要点进行了摘要,行文还算流畅。

      但是,仔细看下来,这样的总结长度较长,缺乏清晰的层次结构,用户需要投入更多时间和精力去梳理归纳要点。

      此外,其在总结时,很多地方是直接摘录了原文的风格,没有对内容进行高度压缩概括,效率相对较低。

      接下来再看看kimi的表现。

      相较之下,Kimi的总结结构层次分明,将要点分为多个方面进行陈述,使得用户可以快速掌握文章的框架和重点内容。

      同时,从覆盖面来看,Kimi总结的要点一共有9个,涉及了出海形式、创新要求、BD对比IPO、长期发展等核心内容,反映了对文章信息的更全面梳理。

      而通义千问的总结虽然内容也算完整,但遗漏了一些重点,比如没有涉及创新和专利、国际化能力等等等。

      2、研报分析

      如果说,对长篇新闻的总结,体现的是大模型在长文本方面的主旨概括能力,那么接下来的研报分析,考验的则是在长文本下,大模型推理能力的表现。

      在这里,我们上传了一份长达60页的企业研报,来分别测试通义千问和Kimi的表现。

      这份研报这份研报主要包括了一家名为元隆雅图的企业的业务战略、财务表现、以及市场前景。

      在测试中,我们要求通义千问对该企业在AI时代可能具有的潜在优势进行分析。

      从结果来看,虽然其生成了一段“看似”详细和具体的答案,但如果仔细观察,就会发现这样的回答,在很多要点上,都是比较重复的。

      例如“IP资源智能化运营” 与“IP资产数字化转型”,以及“新媒体营销智能化”与“一体化营销服务升级”,这些实际上都可以合并成一个点。

      那相较之下,Kimi的表现怎样呢?

      可以看到,Kimi所分析出的要点,明显比通义千问范围更广,维度更多,并且每个点都直击主题。这点在进行长文本分析时,就显得尤为重要。

      对短文本来说,集中精力、深入挖掘一两个重点就可以搞定。但长文本就不一样了,首先,长文本内容丰富、层次繁多,单一视角显然是捕捉不了全貌的。

      再者,从概率上说,切入的角度越多,区别度越大,碰撞出新思路和想法的可能性也就越大。这也很符合某种智能的“涌现”规律。

      3、小说阅读

      最后,咱们再来个有点挑战的。

      这不像之前某些简单的测试,光让模型复述下小说情节就完事了。还得在通读全文的基础上,按咱说的特殊文风,把情节重新讲出来。这考验的就是一个指令遵循能力。

      这里,我们选择的是科幻小说《沙丘》

      我们的要求是:《史记》的风格,概述《沙丘》的主要情节。

      虽然通义千问在刚开始时,勉强保持了相应的文风,但从第三段开始,整个文风又变成了现代文,没能一以贯之地保持。

      可以看出,在这一回合,Kimi几乎完胜,不仅情节叙述得更为完整、详细,而且几乎从始至终地保持了接近《史记》的叙述风格。

      这显示了Kimi在阅读长文本时,强大的信息提取能力指令遵循能

      跟风与内卷,救不了国产大模型

      可以看出,在长文本方面,Kimi无论是总结能力、分析能力,还是理解执行指令的能力,目前都把通义千问给压下去了。

      以通义千问为代表的这类国产大模型,一上来就号称数百万,乃至上千万的文本长度,结果在实测中搞出了“长文本室温超导”的感觉,这说明了,长文本这事儿,还真不是“越长越强。”

      之前,对于文本窗口的长度,月之暗面的CEO杨植麟就表示:“不能只提升窗口,不能只看数字,今天是几百万还是多少亿的窗口没有意义。你要看它在这个窗口下能实现的推理能力、the faithfulness的能力(对原始信息的忠实度)、the instruction following的能力(遵循指令的能力)。”

      换言之,只有在这些核心能力方面展现出了真本事,你的长文本能力才真算数。

      倘若不好好修炼“内功”,对“片段级递归”、“相对位置编码”等一系列重要的模型机制不够谙熟,只是打激素式地增加文本长度,最终的结果,除了跟风式地蹭蹭热度,徒增些内卷的负担外,对中国大模型的发展实无裨益。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。