毕尔巴鄂对阵皇家社会:两支近邻球队将于西甲联赛 “巴斯克德比”中为捍卫荣耀而战贝壳第三季度营收226亿元 经调净利润17.8 亿元 同比下降17.46%AI营销,让科技巨头尝到了大模型商业化的甜头安恒信息范渊在乌镇峰会谈AI:以工具视之、以工具用之、以工具治理之诺基亚与微软再合作,为 Azure 数据中心供货延长五年天岳先进发布业界首款 300mm(12 英寸)N 型碳化硅衬底三星介绍内部安全团队 Project Infinity 攻防演练项目,高效修复 Galaxy 手机平板漏洞上海市将推进低空飞行服务管理能力建设,2027 年底前累计划设相应航线不少于 400 条岁末,海尔给您备好一套“小红花”为什么说Q10K Pro是今年最值得入手的电视?看完这几点就明白了!“小墨方·大不凡”!Brother“小墨方”系列彩喷一体机全新上市黄仁勋:AI智能需求强劲,“物理定律”限制英伟达芯片增长诺基亚与微软再合作,为Azure数据中心供货延长五年国家数据局:到2029年基本建成国家数据基础设施主体结构中国已发展成为全球最大的互联网市场,拥有全球最多的网民和移动互联网用户中国铁塔:计划按照10:1的比例合股美国FCC正式划定5.9GHz频段用于C-V2X技术在AI领域奋起直追!苹果要对Siri大革新 2026年正式发布日本机构公布量子专利榜单:本源量子、国盾量子位居全球第1中国联通:拟向华为、中兴展开5G网络设备竞争性谈判采购
  • 首页 > 云计算频道 > 大模型

    Sora不靠蛮力,大厂忙拆盲盒

    2024年02月23日 12:41:52   来源:数智前线

      Sora的突破,再次证明AI是一个大型系统工程。OpenAI靠的不是蛮力,国内人工智能圈还需要方方面面的补足。

      文|赵艳秋

      在春节开工后这一周,国内人工智能圈以及与Sora技术相关的大厂,对OpenAI公布Sora后的反应,与媒体上的热烈程度形成鲜明反差。

      OpenAI越来越闭源,几乎没有任何具体信息,国内还处于拆盲盒阶段。不得不承认,Sora是算法组合、数据选择、训练策略、算力优化等多种能力的结合,虽然这些技术可能不是OpenAI的原创,但OpenAI对它们的深刻洞察,以及精巧的系统构思设计能力,才做出“颠覆性”突破,而非简单的蛮力。

      在这样的大系统工程面前,国内人工智能圈还需要方方面面的补足。

      01

      大厂的反应

      这一周,字节、百度、阿里、腾讯、华为、浪潮等企业未对外发声。一些相关大厂的研发团队则在“拆盲盒”,信息也绝对保密,“Sora将影响今年公司产品的研发计划。”

      值得关注的是,对Sora的积极关注度和洞察程度,在大厂的中高层,总体不像去年ChatGPT推出后那么紧迫和深入。

      在各大厂内网上,核心研发团队之外的“吃瓜群众”,在零星发帖讨论,“谈不上讨论热度”,甚至有国内人工智能大厂内网是“零贴”。这种状况与媒体上的热搜新闻,甚至对中美AI差距加大的哀嚎,大相径庭。

      不过,一些较快的动作,也能窥见业界的一些紧迫感。Sora发布第二天,2月17日,阿里摩搭社区推出对Sora技术路径的分析,文章很热;2月18日,百度的度学堂推出Sora系列解读课程;春节后刚开工,浪潮相关业务已对Sora给出分析报告。不少大厂相关业务线纷纷布置调研汇报作业,其中有些企业将在本周做出Sora分析调研。

      由于OpenAI透露的信息很少,与ChatGPT推出后,对技术的一些具体分析不同,对Sora的分析猜测成分更多,具体依据更少。

      从各大厂内部的员工讨论看,大家集中在几个方向:Sora的技术机理,包括Sora能不能成为真实世界的模拟器;算力;商用方向和时间。目前,技术机理还有不少”谜团“;对算力消耗的推测也较混乱;在Sora商用时间上,预测从一个月到半年不等,普遍认为速度会很快。

      有大厂员工发文分析,从OpenAI的动作,包括发布Sora、ChatGPT、DALLE以及一直强调的agent看,今年下半年OpenAI可能发布的GPT5,将是第一版真正意义的Agent。有了这个Agent,比如未来要做一个App,GPT5可自动生成代码、图片、视频、打包部署,包括申请、配置域名,最终生成可访问的App。这些推测也预示着,每位员工未来的工作方式正在被重塑。

      虽然大厂论坛鲜有对技术差距的哀嚎,但员工在交流中都有抱怨和无奈。不过,也有人士认为,Sora反而对国内AI超级有利,原因是在全球短视频市场上,字节、腾讯、快手占前三,而Sora原理基础大家也都知道,以国内现有的GPU算力,推测“快的话一年”,国内将有类似产品推出。

      02

      OpenAI不靠蛮力

      业界都关注到,Sora 的惊艳效果得益于新的算法组合和训练策略。然而,类似ChatGPT,单纯从具体算法来说,都不是 OpenAI的原创。

      “Sora 在算法组织和数据训练策略上下了很大功夫,充分挖掘了算法和数据的潜力,学到更深层知识。”云知声董事长梁家恩说,通过架构设计和训练策略,而非单纯算法改进,OpenAI 继续刷新了业界的认知。这体现了OpenAI对算法和数据潜力的深刻洞察,以及精巧的系统构思设计能力,而非简单使用“蛮力”,才能做出这种“颠覆性”的突破。

      在Sora官宣后,纽约大学谢赛宁对其进行了技术推测。由于谢赛宁与Sora团队关系较近,他的推测影响很广,尤其是他猜测“Sora参数可能是30亿”。

      一些人士认为30亿参数有一定道理。一位资深人士分析,Sora生成的视频效果惊艳,但细节问题较多,应该是OpenAI拿出来先秀肌肉的,OpenAI会进一步扩展模型;另一位资深人士则从算力角度直观分析,视频是三维的,单位处理需要的算力非常大,如果Sora参数太大,算力会不够。

      不过,也有一些行业人士认为“不止30亿”。

      “30亿参数,我认为是有误导性的。”一位短视频人工智能资深人士告诉数智前线,“Sora背后依赖了OpenAI最强大的语言模型来生成Caption(字幕、说明文字)。”而在Sora提供的技术报告中,简要描述了,他们针对视频如何设计自动化技术,生成文本描述,或将简短的用户提示转换为更长的详细描述,用来提高视频的整体质量。

      而从OpenAI一直在摸索人工智能边界的风格来看,一些人士也认为,30亿太小了。“这不符合它一贯的做法,他们都是‘大力出奇迹’。”中科深智CTO宋健对数智前线说,实际上,理论上已指明了道路,有不少企业也去尝试了,目前来看,真正意义上能执行下去的只有Sora。

      一位浪潮人士称,Sora的突破再次证明了AI是一个系统工程,单纯静态的推测参数可能没有意义。

      在视频生成上,过去大家的困难在于,很难保持视频的连贯性或一致性,因为中间有很多反常识的东西,如光影不对、空间变形,所以业界搞不定长视频。

      “OpenAI 最终是否采用了更大规模的参数,根据目前公开信息还无法判断,但我估计以他们风格肯定会尝试的。”梁家恩说,此前,OpenAI 从 GPT2 做到 GPT3 时,就是坚信只要算法架构合理,通过超大规模的无监督学习,是可以通过小样本甚至零样本学习,击败有监督学习,这是 OpenAI 对规模效应的坚定信念。“这次Sora通过算法组合和数据设计,学到更多符合物理规律的‘知识’,符合 OpenAI 这些年来的一贯风格。”

      不过,Sora尚不能称为一个合格的物理世界的模拟器。在它生成的视频中,存在大量错误。OpenAI自己也在技术报告中提出,这是一个有希望的方向。

      人们对Sora的需求不同。“如果你现在做数字孪生,还不如直接用物理引擎作为底层来构建,就像英伟达的Omniverse,虽然不完全是物理的,但已经很精确了。”宋健说,“但对于视觉艺术来讲,讲的是视觉感受力,反物理也没关系,只要视觉上给大家足够好的冲击力就可以。”

      03

      算力猜想

      “现在大家对算力的推测非常混乱。”一位英伟达人士告诉数智前线。由于OpenAI这次公布的信息非常少,业界很难评估。

      “视觉模型或多模态模型跟大语言模型算力的评估方式不太一样。”一位人工智能算力资深人士告诉数智前线,即便Sora可能只有几十亿参数,其算力与几百亿或上千亿的大语言模型估计差不多。

      他进一步分析,可以参考文生图模型Stable Diffusion,参数大概只有10亿,但训练算力用了几十台服务器,花了将近一个月时间。他估计Sora的训练算力可能比前者至少大一个数量级,也就是数百台服务器,而后面OpenAI肯定会进一步去做scaling,把Sora模型做的更大。

      另一方面,这种模型的推理算力也比大语言要大很多,有数据曾显示,Stable Diffusion的推理算力消耗,与Llama 70b(700亿)参数模型差不多。也就是说,推理算力上,一个10亿的文生图模型,与千亿量级的大语言模型差不多。而Sora这种视频生成模型的推理算力,肯定比图片生成模型还要大很多。

      “文本是一维的,视频是三维的,视频的单位计算量大很多。”一位人工智能专家告诉数智前线,他认为需要大几千卡才有机会。

      由于Sora推动的文生视频方向的发展,今年国内算力总体仍会非常紧张。有算力基础设施企业人士称,在人工智能算力上,北美几家巨头的算力,现在已是国内总算力的十几倍,甚至还要更多。

      但在某些局部上,国内算力已经出现了闲置。这包含了几种情况,比如一些去年上半年开始训练大模型的企业,放弃开发大模型或改为使用开源模型;去年大语言模型的落地应用遭遇挑战,还没有大量的推理应用落地,这些会导致一些企业出现几十台或几百台的空闲。

      宋健也发现了局部算力闲置的问题。他观察,尤其是2023年11月份左右开始,算力的租赁变得容易,而且价格可能是原来的2/3甚至1/2。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。