Sora不靠蛮力，大厂忙拆盲盒

2024年02月23日 12:41:52 赵艳秋 来源：数智前线

　　Sora的突破，再次证明AI是一个大型系统工程。OpenAI靠的不是蛮力，国内人工智能圈还需要方方面面的补足。

　　文|赵艳秋

　　在春节开工后这一周，国内人工智能圈以及与Sora技术相关的大厂，对OpenAI公布Sora后的反应，与媒体上的热烈程度形成鲜明反差。

　　OpenAI越来越闭源，几乎没有任何具体信息，国内还处于拆盲盒阶段。不得不承认，Sora是算法组合、数据选择、训练策略、算力优化等多种能力的结合，虽然这些技术可能不是OpenAI的原创，但OpenAI对它们的深刻洞察，以及精巧的系统构思设计能力，才做出“颠覆性”突破，而非简单的蛮力。

　　在这样的大系统工程面前，国内人工智能圈还需要方方面面的补足。

　　大厂的反应

　　这一周，字节、百度、阿里、腾讯、华为、浪潮等企业未对外发声。一些相关大厂的研发团队则在“拆盲盒”，信息也绝对保密，“Sora将影响今年公司产品的研发计划。”

　　值得关注的是，对Sora的积极关注度和洞察程度，在大厂的中高层，总体不像去年ChatGPT推出后那么紧迫和深入。

　　在各大厂内网上，核心研发团队之外的“吃瓜群众”，在零星发帖讨论，“谈不上讨论热度”，甚至有国内人工智能大厂内网是“零贴”。这种状况与媒体上的热搜新闻，甚至对中美AI差距加大的哀嚎，大相径庭。

　　不过，一些较快的动作，也能窥见业界的一些紧迫感。Sora发布第二天，2月17日，阿里摩搭社区推出对Sora技术路径的分析，文章很热;2月18日，百度的度学堂推出Sora系列解读课程;春节后刚开工，浪潮相关业务已对Sora给出分析报告。不少大厂相关业务线纷纷布置调研汇报作业，其中有些企业将在本周做出Sora分析调研。

　　由于OpenAI透露的信息很少，与ChatGPT推出后，对技术的一些具体分析不同，对Sora的分析猜测成分更多，具体依据更少。

　　从各大厂内部的员工讨论看，大家集中在几个方向：Sora的技术机理，包括Sora能不能成为真实世界的模拟器;算力;商用方向和时间。目前，技术机理还有不少”谜团“;对算力消耗的推测也较混乱;在Sora商用时间上，预测从一个月到半年不等，普遍认为速度会很快。

　　有大厂员工发文分析，从OpenAI的动作，包括发布Sora、ChatGPT、DALLE以及一直强调的agent看，今年下半年OpenAI可能发布的GPT5，将是第一版真正意义的Agent。有了这个Agent，比如未来要做一个App，GPT5可自动生成代码、图片、视频、打包部署，包括申请、配置域名，最终生成可访问的App。这些推测也预示着，每位员工未来的工作方式正在被重塑。

　　虽然大厂论坛鲜有对技术差距的哀嚎，但员工在交流中都有抱怨和无奈。不过，也有人士认为，Sora反而对国内AI超级有利，原因是在全球短视频市场上，字节、腾讯、快手占前三，而Sora原理基础大家也都知道，以国内现有的GPU算力，推测“快的话一年”，国内将有类似产品推出。

　　OpenAI不靠蛮力

　　业界都关注到，Sora 的惊艳效果得益于新的算法组合和训练策略。然而，类似ChatGPT，单纯从具体算法来说，都不是 OpenAI的原创。

　　“Sora 在算法组织和数据训练策略上下了很大功夫，充分挖掘了算法和数据的潜力，学到更深层知识。”云知声董事长梁家恩说，通过架构设计和训练策略，而非单纯算法改进，OpenAI 继续刷新了业界的认知。这体现了OpenAI对算法和数据潜力的深刻洞察，以及精巧的系统构思设计能力，而非简单使用“蛮力”，才能做出这种“颠覆性”的突破。

　　在Sora官宣后，纽约大学谢赛宁对其进行了技术推测。由于谢赛宁与Sora团队关系较近，他的推测影响很广，尤其是他猜测“Sora参数可能是30亿”。

　　一些人士认为30亿参数有一定道理。一位资深人士分析，Sora生成的视频效果惊艳，但细节问题较多，应该是OpenAI拿出来先秀肌肉的，OpenAI会进一步扩展模型;另一位资深人士则从算力角度直观分析，视频是三维的，单位处理需要的算力非常大，如果Sora参数太大，算力会不够。

　　不过，也有一些行业人士认为“不止30亿”。

　　“30亿参数，我认为是有误导性的。”一位短视频人工智能资深人士告诉数智前线，“Sora背后依赖了OpenAI最强大的语言模型来生成Caption(字幕、说明文字)。”而在Sora提供的技术报告中，简要描述了，他们针对视频如何设计自动化技术，生成文本描述，或将简短的用户提示转换为更长的详细描述，用来提高视频的整体质量。

　　而从OpenAI一直在摸索人工智能边界的风格来看，一些人士也认为，30亿太小了。“这不符合它一贯的做法，他们都是‘大力出奇迹’。”中科深智CTO宋健对数智前线说，实际上，理论上已指明了道路，有不少企业也去尝试了，目前来看，真正意义上能执行下去的只有Sora。

　　一位浪潮人士称，Sora的突破再次证明了AI是一个系统工程，单纯静态的推测参数可能没有意义。

　　在视频生成上，过去大家的困难在于，很难保持视频的连贯性或一致性，因为中间有很多反常识的东西，如光影不对、空间变形，所以业界搞不定长视频。

　　“OpenAI 最终是否采用了更大规模的参数，根据目前公开信息还无法判断，但我估计以他们风格肯定会尝试的。”梁家恩说，此前，OpenAI 从 GPT2 做到 GPT3 时，就是坚信只要算法架构合理，通过超大规模的无监督学习，是可以通过小样本甚至零样本学习，击败有监督学习，这是 OpenAI 对规模效应的坚定信念。“这次Sora通过算法组合和数据设计，学到更多符合物理规律的‘知识’，符合 OpenAI 这些年来的一贯风格。”

　　不过，Sora尚不能称为一个合格的物理世界的模拟器。在它生成的视频中，存在大量错误。OpenAI自己也在技术报告中提出，这是一个有希望的方向。

　　人们对Sora的需求不同。“如果你现在做数字孪生，还不如直接用物理引擎作为底层来构建，就像英伟达的Omniverse，虽然不完全是物理的，但已经很精确了。”宋健说，“但对于视觉艺术来讲，讲的是视觉感受力，反物理也没关系，只要视觉上给大家足够好的冲击力就可以。”

　　算力猜想

　　“现在大家对算力的推测非常混乱。”一位英伟达人士告诉数智前线。由于OpenAI这次公布的信息非常少，业界很难评估。

　　“视觉模型或多模态模型跟大语言模型算力的评估方式不太一样。”一位人工智能算力资深人士告诉数智前线，即便Sora可能只有几十亿参数，其算力与几百亿或上千亿的大语言模型估计差不多。

　　他进一步分析，可以参考文生图模型Stable Diffusion，参数大概只有10亿，但训练算力用了几十台服务器，花了将近一个月时间。他估计Sora的训练算力可能比前者至少大一个数量级，也就是数百台服务器，而后面OpenAI肯定会进一步去做scaling，把Sora模型做的更大。

　　另一方面，这种模型的推理算力也比大语言要大很多，有数据曾显示，Stable Diffusion的推理算力消耗，与Llama 70b(700亿)参数模型差不多。也就是说，推理算力上，一个10亿的文生图模型，与千亿量级的大语言模型差不多。而Sora这种视频生成模型的推理算力，肯定比图片生成模型还要大很多。

　　“文本是一维的，视频是三维的，视频的单位计算量大很多。”一位人工智能专家告诉数智前线，他认为需要大几千卡才有机会。

　　由于Sora推动的文生视频方向的发展，今年国内算力总体仍会非常紧张。有算力基础设施企业人士称，在人工智能算力上，北美几家巨头的算力，现在已是国内总算力的十几倍，甚至还要更多。

　　但在某些局部上，国内算力已经出现了闲置。这包含了几种情况，比如一些去年上半年开始训练大模型的企业，放弃开发大模型或改为使用开源模型;去年大语言模型的落地应用遭遇挑战，还没有大量的推理应用落地，这些会导致一些企业出现几十台或几百台的空闲。

　　宋健也发现了局部算力闲置的问题。他观察，尤其是2023年11月份左右开始，算力的租赁变得容易，而且价格可能是原来的2/3甚至1/2。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

[No. ]
分享到微信