首页 > 云计算频道 > 大模型

“越长”就越强？为何通义千问卷不动Kimi

2024年04月02日 17:11:39 V 来源：微信公众号：AI新智能

　　跟风与内卷，救不了国产大模型。

　　最近，受到Kimi大火的刺激，国内大模型们又开始了新一轮“我有多长”的比赛了。

　　在Kimi 目前200万文本长度打底的情况下，其他各家没个四五百万打底，都不好意思见人了。

　　比如360那个“智脑”，号称能处理500万字长文本，而百度稍微低调些，打算下个月开放200万-400万的长文本能力。

　　最狂的是通义千问，直接升级到了1000万文本长度，成了全球文档处理容量第一的AI。

　　但是，“越长”就真的“越强”吗?

　　在长文本方面，想成为真正的“大家伙”，可不仅仅只是把所有知识都灌进肚子里就行了。光是囫囵吞不算啥，得能穿针引线，理解和应用其中的内容、知识，才能帮用户解决真正的问题。

　　所以，今天我们不妨先拿通义千问这个“出头鸟”来开开刀，用几个最为常见的长文本任务，好好拿捏一下这上千万的文本能力，究竟有多少含金量。

　　三大考验

　　1、新闻摘要

　　今天咱们要干的第一个长文本活儿，就是最常见的新闻摘要归纳。

　　因为那些媒体搞的大新闻啊、深度调查啊，为了把事情说透彻，堆砌了一大堆事实、数据、例子，文章就贼拉长。

　　现在呢，咱们得把这些长文章浓缩一下，简单直白地说说重点。

　　在这里，我们选择的文章，是36氪的文章《卷进前1%，谁能拿下新药出海下一个百亿美元交易?》

　　首先来看看通义千问的表现。

　　从这个总结的结果来看，通义千问基本覆盖了文章的主要信息点，并简要地对每个要点进行了摘要，行文还算流畅。

　　但是，仔细看下来，这样的总结长度较长，缺乏清晰的层次结构，用户需要投入更多时间和精力去梳理归纳要点。

　　此外，其在总结时，很多地方是直接摘录了原文的风格，没有对内容进行高度压缩概括，效率相对较低。

　　接下来再看看kimi的表现。

　　相较之下，Kimi的总结结构层次分明，将要点分为多个方面进行陈述，使得用户可以快速掌握文章的框架和重点内容。

　　同时，从覆盖面来看，Kimi总结的要点一共有9个，涉及了出海形式、创新要求、BD对比IPO、长期发展等核心内容，反映了对文章信息的更全面梳理。

　　而通义千问的总结虽然内容也算完整，但遗漏了一些重点，比如没有涉及创新和专利、国际化能力等等等。

　　2、研报分析

　　如果说，对长篇新闻的总结，体现的是大模型在长文本方面的主旨概括能力，那么接下来的研报分析，考验的则是在长文本下，大模型推理能力的表现。

　　在这里，我们上传了一份长达60页的企业研报，来分别测试通义千问和Kimi的表现。

　　这份研报这份研报主要包括了一家名为元隆雅图的企业的业务战略、财务表现、以及市场前景。

　　在测试中，我们要求通义千问对该企业在AI时代可能具有的潜在优势进行分析。

　　从结果来看，虽然其生成了一段“看似”详细和具体的答案，但如果仔细观察，就会发现这样的回答，在很多要点上，都是比较重复的。

　　例如“IP资源智能化运营” 与“IP资产数字化转型”，以及“新媒体营销智能化”与“一体化营销服务升级”，这些实际上都可以合并成一个点。

　　那相较之下，Kimi的表现怎样呢?

　　可以看到，Kimi所分析出的要点，明显比通义千问范围更广，维度更多，并且每个点都直击主题。这点在进行长文本分析时，就显得尤为重要。

　　对短文本来说，集中精力、深入挖掘一两个重点就可以搞定。但长文本就不一样了，首先,长文本内容丰富、层次繁多，单一视角显然是捕捉不了全貌的。

　　再者，从概率上说，切入的角度越多，区别度越大，碰撞出新思路和想法的可能性也就越大。这也很符合某种智能的“涌现”规律。

　　3、小说阅读

　　最后，咱们再来个有点挑战的。

　　这不像之前某些简单的测试，光让模型复述下小说情节就完事了。还得在通读全文的基础上，按咱说的特殊文风，把情节重新讲出来。这考验的就是一个指令遵循能力。

　　这里，我们选择的是科幻小说《沙丘》

　　我们的要求是：《史记》的风格，概述《沙丘》的主要情节。

　　虽然通义千问在刚开始时，勉强保持了相应的文风，但从第三段开始，整个文风又变成了现代文，没能一以贯之地保持。

　　可以看出，在这一回合，Kimi几乎完胜，不仅情节叙述得更为完整、详细，而且几乎从始至终地保持了接近《史记》的叙述风格。

　　这显示了Kimi在阅读长文本时，强大的信息提取能力和指令遵循能

　　跟风与内卷，救不了国产大模型

　　可以看出，在长文本方面，Kimi无论是总结能力、分析能力，还是理解执行指令的能力，目前都把通义千问给压下去了。

　　以通义千问为代表的这类国产大模型，一上来就号称数百万，乃至上千万的文本长度，结果在实测中搞出了“长文本室温超导”的感觉，这说明了，长文本这事儿，还真不是“越长越强。”

　　之前，对于文本窗口的长度，月之暗面的CEO杨植麟就表示：“不能只提升窗口，不能只看数字，今天是几百万还是多少亿的窗口没有意义。你要看它在这个窗口下能实现的推理能力、the faithfulness的能力(对原始信息的忠实度)、the instruction following的能力(遵循指令的能力)。”