毕尔巴鄂对阵皇家社会:两支近邻球队将于西甲联赛 “巴斯克德比”中为捍卫荣耀而战贝壳第三季度营收226亿元 经调净利润17.8 亿元 同比下降17.46%AI营销,让科技巨头尝到了大模型商业化的甜头安恒信息范渊在乌镇峰会谈AI:以工具视之、以工具用之、以工具治理之诺基亚与微软再合作,为 Azure 数据中心供货延长五年天岳先进发布业界首款 300mm(12 英寸)N 型碳化硅衬底三星介绍内部安全团队 Project Infinity 攻防演练项目,高效修复 Galaxy 手机平板漏洞上海市将推进低空飞行服务管理能力建设,2027 年底前累计划设相应航线不少于 400 条岁末,海尔给您备好一套“小红花”为什么说Q10K Pro是今年最值得入手的电视?看完这几点就明白了!“小墨方·大不凡”!Brother“小墨方”系列彩喷一体机全新上市黄仁勋:AI智能需求强劲,“物理定律”限制英伟达芯片增长诺基亚与微软再合作,为Azure数据中心供货延长五年国家数据局:到2029年基本建成国家数据基础设施主体结构中国已发展成为全球最大的互联网市场,拥有全球最多的网民和移动互联网用户中国铁塔:计划按照10:1的比例合股美国FCC正式划定5.9GHz频段用于C-V2X技术在AI领域奋起直追!苹果要对Siri大革新 2026年正式发布日本机构公布量子专利榜单:本源量子、国盾量子位居全球第1中国联通:拟向华为、中兴展开5G网络设备竞争性谈判采购
  • 首页 > 企业IT频道 > 人工智能

    云知声:通往AGI的路不只有一条

    2023年04月03日 14:56:04   来源:数智前线

      ChatGPT提供了通往AGI的新范式,但它背后的算法和模型并不是新的发明创造,就像爱因斯坦在1905年从理论上证明了E=MC2,而各国造原子弹的路径并不相同,中国的“596计划”就不需要完全把“曼哈顿计划”follow一遍。

      同样如此的是,通往GPT大模型的路径是通的,而到达对岸的方法并不只有一条。

      文|赵艳秋 徐鑫

      云知声董事长梁家恩最近开始推动新一轮技术升级,并频繁接待客户和投资人。ChatGPT走红之后,外界惊叹ChatGPT的表现,但对于人工智能业界而言,这意味着技术范式的转变,更意味着通向AGI的大门可能正在开启。

      入行25年的AI老兵和资深团队创立公司11年后发现,自己正置身当下最火热的跑道上,而这群AI老兵要投身新一轮变革浪潮的热情依然澎湃。

      梁家恩给这场大模型的角力划定了时间表,“今年之内肯定要有一个行业内认可的千亿级大模型成果出来”。

      从2012年开始做深度学习,到后来搭建AI全栈能力,再到大模型角力,这已是云知声的第三次重大技术体系升级。而过去十一年对人工智能的理解和布局,在此刻都变成了现成的武器和财富。如果把这波热潮里的参与者视作一个集合,梁家恩认为,他们有底气成为走到下一轮的“分子”之一。而业界认为,这样的团队目前两只手能数得过来。

      01

      “这是令人兴奋的技术”

      “这是让我入行25年来感到最exciting的技术突破。”梁家恩告诉数智前线,ChatGPT推出之后,人工智能的范式正在转变。实际上,此前10年,深度学习带来了一波人工智能的增长,但并未改变AI的范式。

      云知声创立的2012年,赶上了深度学习的崭露头角,在那一年9月的ImageNet视觉识别挑战赛上,AlexNet异军突起,碾压了所有对手。它的创造者之一Hinton教授, 2006年在Science发起“深度学习”革命后,在重大技术评测上首次获得突破性进展,展示了深度学习的威力。云知声团队虽然在那一年6月刚成立,也迅速入局深度学习,成为国内最早将该技术应用到产业服务的团队之一。

      深度学习虽然比传统的统计学习展现出了更大威力,但并未跳出旧的AI范式——预先定义任务目标,采集该任务的大量数据并进行人工标注,通过模型训练达到最优效果,切换不同任务目标时,往往需要重新采集数据和训练,无法实现不同任务间的高效迁移——被称为“窄AI”或“弱AI”,本质上是某种“高级自动化”。一个例子是,针对银行开发的模型,不能用于保险公司的类似任务,甚至同一家银行的业务流程变了,模型也要重新训练。这导致很多踌躇满志的人工智能企业变成了项目型公司,制约了人工智能的潜力。

      业界称之为AI1.0时代。智源研究院总工林咏华称,由于这样的局限性,过去几年人工智能又开始走向一个低谷。

      2017年,谷歌提出了Transformer模型。“我们当时判断这个模型具备一统江山的能力,因为对序列建模问题而言,从数据驱动的数学优化意义上它太完美了。”梁家恩回忆。谷歌、OpenAI等开始尝试它的各种实现(包括GPT、BERT、T5等),通过大规模无监督预训练基础模型,实现多种任务的快速迁移,都取得了相当优异的成果,将语言理解问题真正纳入深度学习框架之中。

      真正推动AI进入2.0时代的,还是2022年11月,ChatGPT的推出。它作为一个人工智能语言大模型,拥有自然语言理解、上下文学习、常识推理和高质量应答等特点,效果惊艳四座。

      “ChatGPT将人工智能研究的核心带回到语言本身,而语言其实是人类智能的一个核心载体。”梁家恩分析说,“语言理解也被誉为人工智能皇冠上的明珠,语言跟知识和智能本身是紧密结合的。”ChatGPT开放公测后,清华大学刘嘉教授感叹,ChatGPT不仅有功能性,同时还是人格化,它终于让人们看到了“通用人工智能的一线曙光”。

      “这是一个非常大的突破,我们认为这是一个从专用AI转向通用AI(AGI)的突破口。”梁家恩称。这也直接带动了云知声的第三次技术升级。这将是一次大的跳变。“一些人认为ChatGPT只是一个聊天的人工智能,但对于我们团队而言,把它放在了向通用AI演进这样的级别来看待的,虽然通用AI还有很长的路要走。”

      梁家恩称,云知声要在人工智能决赛圈有所作为,就必须跑通从专用AI向通用AI的通路。而此前,他们对技术的紧密跟踪、储备和守住的盘面,让其有信心抓住这一波浪潮。

      在2012年入局深度学习之后,云知声曾在2016年开展了第二次技术升级。那一年阿尔法狗击败人类围棋冠军李世石时,云知声早将深度学习在物联市场应用起来了。“我们的关注点是深度学习要有一个强大的算力支撑。实际上,我们关注到阿尔法狗的研发团队Deepmind,正是借助谷歌超强的并发计算能力,同时调度上千个GPU来完成的,这代表了未来深度增强学习的大规模计算趋势。”

      于是,在阿尔法狗击败李世石的当月,梁家恩就赶到了硅谷,与硅谷专家探讨如何面向深度学习构建大规模超算平台。最终,他们花了将近一年时间,将Atlas大规模机器学习超算平台构建了起来,并逐步布局知识图谱和多模态等全栈AI技术,从一家语音识别公司向更深层延伸,开始从“声(感知)”到“知(认知)”的技术体系升级。

      现在,云知声将面临第三次跳变。

      02

      先质后量,打通大模型新范式

      在ChatGPT推出后,云知声已开始训练模型,但数智前线获悉,在云知声看来,本轮技术升级并非只是简单的 “大力出奇迹”,而是开启了新的“数据动力学范式”,需要从数据规模、质量和模型调教下手,才能真正解决问题,“大力”只是“必要不充分条件”。按照公司的规划,技术升级将分两步推进:先在六七百亿参数提升优质数据规模,再扩大到千亿级参数提升大模型效果。

      为什么要分两步走?这与技术实现和商业落地相关。

      按照业内的实践,在优质数据规模足够大情况下,模型越大效果越好,但训练成本也越高。从六七百亿参数起步,是因为从业内成果分析看,只有参数规模达到五六百亿以上,模型才可能出现“智能涌现”。这是一种神奇的现象,如同一个小孩子,到了某个年龄突然“开窍”了,发生了从量变到质变的“跳跃”。“我们判断六七百亿参数的模型,是比较有把握出现涌现效果的,先以这个参数规模,提升优质数据规模和大模型效果,再做千亿以上参数来提高大模型性能。Deepmind和Meta等最近都放出这种规模的模型,效果都还不错。”梁家恩称。

      但今年不只是要做好大模型,还要考虑产业实际应用的成本和部署等因素。云知声认为,大模型训练成功后,以目前的算力成本,可能需要把大模型参数量通过蒸馏技术压缩10倍才能满足实时性和规模化应用要求,这要视具体应用场景而定。云知声在做BERT模型时,就积累了丰富的经验,通过模型蒸馏提速近百倍,而实际性能损失很小。“就像打击索马里海盗,不能每次都开着航母过去。”梁家恩称,“我认为OpenAI最终可能也会走这个路径,只不过它现在不那么着急,它现阶段要先砸资源摸到大模型的潜力和边界,不需要太关注成本。”

      GPT是一个端到端打通的框架,同时结合了很多学习能力,比如小样本学习,让它有更强的适应能力。同时,OpenAI的CEO Sam Altman透露,他们使用的数据远比外界想象的要多得多,大量工作也围绕在数据方面,为此还引入了新的数学模型。

      “我们首先把它的端到端打通,再针对性地去解决问题,有些可能是从算法角度去优化,有些可能要通过数据层面去优化,包括并入医疗数据后,哪些跟现有的知识不能很好的融合,都要针对性做研究。”

      云知声以前基于BERT模型,现在需要切换到以GPT为模式的框架。两者本质上都基于Transformer模型,有不同的优缺点和特性。云知声这次并不需要从底层开始干,而是进行模型架构的切换,“会比从头做的变量要少很多,而且有行业应用场景、客户和数据的积累”。

      按照计划,云知声将在今年第二季度开启针对性优化,并与第一批客户衔接,在实战场景中解决问题。

      在落地行业上,物联和医疗是两个优先的行业,此前他们在这两个领域投入和积累最多。但两个行业的侧重点并不一样。物联行业本质上是提升交互能力,当大模型技术升级以后,人机对话就不会“聊死了”,不过,这些是通用场景,拓展应用场景“广度”。

      在医疗行业,问题的侧重点则是精准度和可控性。这需要结合知识图谱和行业问题进行强化学习。“很多大模型的可解释性、可控性,要通过后端这个手段来解决掉,否则无法有效应用到严肃场景中”。

      大模型也将给之前的应用带来改变。云知声2016年进入医疗行业,主要利用人工智能技术,解决病历的语音录入、缺陷检查、医保控费等问题。“如果有了比较好的生成式AI能力,我们可以根据已收集的数据,协助医生生成高质量的病历和诊疗方案。”

      在美国休斯顿的MD安德森癌症中心,已有医生向ChatGPT询问病人现在的情况以及治疗方案,得到的结果和中心诊断的结果几乎一模一样。梁家恩称,大模型在医疗行业的终极目标,肯定是成为一个辅助诊疗工具,但还有相当长的路要走,精准度和可靠性是必须解决的问题。

      03

      从全栈能力到MaaS模式升级

      新的浪潮来临时,创业距今已有十一年的云知声站到了一个新的风口。就像一场球赛进行到中场,一个站在球门附近的人,“突然”接到了球。

      这是一支深度思考行业趋势,密切关注行业前沿技术发展的团队,同时也在行业里有了多年积累,已形成全栈能力,给新一轮技术升级奠定了扎实的基础,也为打造以大模型为基础的MaaS(Model as a Service,模型即服务)平台做好准备。

      在最底层的算力层面,受AlphaGO的启发,2016年开始云知声团队开始建立大规模超算平台Atlas。Atlas在希腊神话里是泰坦族擎天神,用双肩支撑苍天。当时,他们看到能同时调度上千块GPU去完成一个任务的能力,会是一家人工智能公司的重要壁垒。当他们部署超算平台时,硅谷的专家甚至惊讶,一家成立四年的创业公司考虑这个问题还太早。

      但今天来看,底层算力平台对于上层支撑的价值已经凸显。

      在算力平台之上是数据中心模型优化(DCML)层。云知声在2016年开始进入医疗行业后,发现根据不同应用场景数据,需要对模型进行高效的针对性优化,本质上是如何根据应用数据对模型进行快速调优,GPT模型的强化学习也是在这层完成的。这一层的构建目标就在于此,其作用是能够提高产品的标准化程度,通过模型而非代码来解决应用场景差异,大幅提升人效比。

      再之上是模型层。这也是目前正在改变的地方。在此前的AI范式下,无论是人机交互,还是各种行业应用,实际上要先做好各单元模型,再把各种单元模型整合起来实现业务目标,现在则要转变为以GPT为核心的大模型来做。而过去各种部件级模型,像语音降噪、语音识别、语音合成等标准模块仍会持续优化,但也会借鉴大模型的思路,比如加大无监督预训练数据规模,实现多语种联合建模、轻量级定制和个性化等,可以显著降低成本,同时提升效果和效率。

      除了这些能力,这些年在智慧物联和智能医疗等行业场景积累的行业know-how和数据,也是云知声在全栈能力中的一个关键。以医疗行业为例,像教材、临床指南、病历知识等一系列行业数据,都需要时间的沉淀才能获得,这也是未来训练行业大模型不可或缺的原料。

      而有了数据之后,能否解决行业的真实问题,还需要对行业本质问题的理解和认知。“行业大模型并不是一个万能黑盒子,有了它就能马上打败所有的医生。”梁家恩称。这就像从高校毕业的医学博士,要解决临床问题,需要很多实战经验一样,医疗大模型出来也要跨越这一步。ChatGPT也是在GPT3.5之上,完成SFT和RLHF优化才能真正接近实用,而医疗行业应用,对准确度和可靠性的要求要高很多。

      本轮 GPT技术升级,不是简单的算法升级或模型做大,而是AGI新范式的重构:从标准AI零部件根据业务需求组装优化,到以大模型为基础的MaaS模式的转变,即业务逻辑由多语言多模态智能交互(MM-CAI)大模型来对接,实现真正自然语言为主的人机交互模式,通过大模型的情景学习(ICL:In Context Learning)能力来快速对接任务,极大提升业务迁移效率,涉及专业领域问题,则通过调用行业大模型或API来精准可靠解决,做好交互自然度和行业专业度的有效结合。

      04

      行业问题导向,从专用到通用

      在过去十年里,AI浪潮起起伏伏,不少人工智能企业头顶光环,生存却举步维艰,甚至还有玩家悄无声息倒在了这波AI热潮的前夜。技术落地和产品化是他们遭遇的共性问题。

      一位资深人士称,不同于机器能轻松超过人类的单点可计算类问题,人工智能企业的产品落地面对的是真实和综合的场景。过去十年里,云知声在工程化和产品落地层面也做了不少尝试,经验可以沉淀为“广度”和“深度”两个层面。

      在物联网场景里,关键在于连接的“广度”。任何一个玩家都需要让自己的产品在尽可能多的场景,尽可能多的用户以及尽可能多设备上,以足够低的成本跑起来。

      深度学习技术开始介入行业时,行业里普遍认为,要靠GPU才能跑起来,但云知声将它优化到能在CPU甚至手机芯片上跑起来。

      2016年时,他们甚至把模型做进了主频只有200MHz、计算内存只有200k的WiFi芯片中。“要把模型压缩100倍,装进芯片端,还要能运转起来。”梁家恩向数智前线说。这个产品在格力等家电企业落地应用,也令大企业中搞深度学习的资深人士感到不可思议。

      在产品落地中,他们又发现没有特别好的物联网芯片,于是在2016年组建团队做了面向物联网的智能交互芯片。“等行业里的人意识到要做AI芯片时,我们的芯片在已经点亮了。”梁家恩说。到今天为止,芯片和模组已出货超过2000万片。

      而在医疗的场景里,人工智能技术要落地打通,则不能停留在外围应用中,要真正解决行业应用的“深度”问题。“语音输入能够提升效率,但不能提升业务质量”,团队意识到了感知的局限。从感知向认知升级,他们的做法是走向行业深处,建设行业知识图谱,才能进入核心场景,真正有效解决行业关键问题。这也是近年来人工智能业界强调的落地重要路径,去年百度李彦宏就在公司内部提出深入核心场景的要求。

      球已经到了脚下,接下来要做的事情变得确定。数智前线获悉,云知声一季度就扩充了30%算力,去做大模型的转轨,年底算力预计将翻几倍,“升级下一代以GPT为核心的架构”。在以大模型实现智慧物联(广度)和智慧医疗(深度)两个行业技术升级后,MaaS模式也将完成验证,再结合各行业应用需求,逐步扩充行业大模型,最终将MaaS平台做到万亿级以上参数,实现从专用走向通用。

      之所以选择从专用到通用的发展路径,云知声主要出于三个方面考量:1)无论AI还是AGI,有效、可靠解决实际问题是第一位的,靠创造价值而非概念立足;2)依托物联和医疗行业有多年的深耕积累,而非在通用领域直接对抗巨头,更能发挥自身优势;3)“MM-CAI+行业大模型”的MaaS模式,具有更好的可控性、扩展性和灵活性,随着行业大模型的积累,能构建更可靠的通用智能。

      这是一场巨变的开始,但梁家恩喜欢借用盖茨的观点,“我们经常高估了今后一两年内将发生的变革,但又常常低估了今后10年内将要发生的变化”。虽然ChatGPT引发了热潮,但仍面临不小的挑战。保持谨慎的乐观,十年后回望,这或许是人工智能走入更大规模、更多场景,走向AGI的起点。

      以下为数智前线与梁家恩的对话节选:

      Q:中国企业能否实现类ChatGPT?

      A:首先像ChatGPT,其实里面没有任何一个算法是新的,甚至很多都不是OpenAI发明的。过去10年积累的机器学习方法,已经足够它做出这个事,但主要是这些方法要如何有效的组合,以及如何去选择数据来调整模型,OpenAI下了很大的决心,也投入了很多资源,才走通了这个技术范式,这是它对AI行业最重要的贡献。

      我经常把这个比喻为“曼哈顿计划”。爱因斯坦在1905年就从理论上证明了E=MC2,“曼哈顿计划”是第一个去探索和实践出来的。但每个国家造原子弹的路径并不相同,像中国的“596工程”就不需要完全去把“曼哈顿计划”follow一遍。这个路径是通的,我们在根本的原理上去研究这个问题,再看怎么做。

      Q:现在互联网巨头也在推出大模型,并进入行业,你们与他们如何竞争?

      A:在巨头积累深厚的通用行业,我们是很难单靠技术颠覆的,OpenAI也要跟微软的Bing和Office结合,才能在商业上叫板搜索巨头。在我们所聚焦的行业里,我们不惧怕任何巨头的团队。因为这是我们的全部,但对巨头来说,先守住自己主业是当务之急,主业之外的应用创新,本身积累也有限,而且东方不亮西方亮,哪个行业做不起来其实没所谓。

      而且医疗绝对是一个坑挺大的行业,巨头的创新团队能不能在被裁掉之前搞定,有很多变数。实际上,我们在医疗行业的很多头部客户,也是跟巨头竞争中获得的。所以,从绝对的资源角度,我们比不上大厂,但在我们真正深耕多年的这些行业,比资源投入、决心和实战经验,我们绝对不怕任何大厂的团队。

      Q:互联网巨头有一个提法,大模型领域不要重复造轮子。您怎么看这个观点?行业里为什么大家还会坚持自己来做一遍基础大模型?

      A:这是巨头的期待,但造轮子的比喻在这里并不恰当。轮子是一个标准化产品,而在大模型要复杂得多,同样方法在不同行业解决的问题和用到的数据是很不一样的,我们相信“行业大模型”,相比包罗万象的“万能超大模型”是要更精准、高效和经济的。

      我们提到的“通用”的概念更多是方法论意义上的。它不再像过去的AI方法论,要预先定义很多确定性目标,然后再分别针对目标优化对应模型。现在的通用模型指的是,方法论上可以支持非特定任务的大规模无监督学习,然后基于大模型可以通过快速学习来完成各类任务的能力。这种能力怎么来的呢?因为我们有一个大规模的预训练基础模型,已经有非常丰富的关于语言、知识的基础信息在里面,是一个很好的基础模型。

      有了这个基础,针对行业性问题,找到行业性数据和真正的任务去跟它做一个应用调优和反馈强化,它的可靠性解决会更好。

      通用,是说“无监督预训练+行业应用调优+反馈强化学习”技术框架是通用的。专用,是通用大模型框架优先在特定行业应用,训练行业专用的大模型,解决各种专业问题,让它的可用性和可靠性达到实际应用的要求。这两个概念不应该被对立起来。

      Q:前几天ChatGPT已经接受插件,对行业的知识可以直接调用了。这对你们现在做的事情是不是一种威胁?

      A:这是目前解决ChatGPT可靠性最直接的方法,现在这个行业调用,其实还是传统API能力通过自然语言的整合。我们认为比较理想的手段,可能是前面有一个什么都能聊的多模态对话式模型,它能进行丰富的自然语言交互,涉及专业度很高的问题,转到后面的行业大模型来精准高效解决。

      为什么后面的行业问题也需要用大模型来重新刷一遍?就在于现在用的API都是写死的,我定义几个功能,你就只能用这几种能力。未来可能要用大模型把更多专业能力解锁出来,这样更灵活,也更完善。现在ChatGPT出来后,直接调用是一个比较取巧也有效的方案,但这可能不是最终状态。

      我们过去很多需求实际上是受限于技术能力被锁死的,像人机交互,最早是专业的工程师用打孔机才能搞定的,后面变成键盘、鼠标,再变成触屏,未来可能就彻底变成自然语言交互了。演进趋势是很明确的,它至少已经很准确的理解你的意图,可能回应还有一些胡说八道的东西,但我觉得用自然语言跟机器做交互,未来会成为一个标配。现在你还要有“提示词”的技巧,未来这个要求也会降低下来。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。