毕尔巴鄂对阵皇家社会:两支近邻球队将于西甲联赛 “巴斯克德比”中为捍卫荣耀而战贝壳第三季度营收226亿元 经调净利润17.8 亿元 同比下降17.46%AI营销,让科技巨头尝到了大模型商业化的甜头安恒信息范渊在乌镇峰会谈AI:以工具视之、以工具用之、以工具治理之诺基亚与微软再合作,为 Azure 数据中心供货延长五年天岳先进发布业界首款 300mm(12 英寸)N 型碳化硅衬底三星介绍内部安全团队 Project Infinity 攻防演练项目,高效修复 Galaxy 手机平板漏洞上海市将推进低空飞行服务管理能力建设,2027 年底前累计划设相应航线不少于 400 条岁末,海尔给您备好一套“小红花”为什么说Q10K Pro是今年最值得入手的电视?看完这几点就明白了!“小墨方·大不凡”!Brother“小墨方”系列彩喷一体机全新上市黄仁勋:AI智能需求强劲,“物理定律”限制英伟达芯片增长诺基亚与微软再合作,为Azure数据中心供货延长五年国家数据局:到2029年基本建成国家数据基础设施主体结构中国已发展成为全球最大的互联网市场,拥有全球最多的网民和移动互联网用户中国铁塔:计划按照10:1的比例合股美国FCC正式划定5.9GHz频段用于C-V2X技术在AI领域奋起直追!苹果要对Siri大革新 2026年正式发布日本机构公布量子专利榜单:本源量子、国盾量子位居全球第1中国联通:拟向华为、中兴展开5G网络设备竞争性谈判采购
  • 首页 > 云计算频道 > 大模型

    Sora对国内大厂是机会还是挑战?

    2024年02月26日 13:17:30   来源:陆玖财经公众号

      龙年的第一个月,正如去年的ChatGPT,OpenAI开年再出一王炸——文生视频领域的Sora。

      面对这样的AI生成能力,包括几乎所有类型的从业者都感受到了不小的震动。一位IT出身的电影制片人告诉陆玖商业评论,Sora的的惊艳表现,让他周围的从业者都有了不小的危机感。电影制作成本的急剧下降,和新锐电影人的出头,将会比以往更加容易。

      不过,在面对陆玖商业评论提出的“Sora是否已具备商业化条件”“文生视频对于算力的要求是否更高,以及如何解决”等问题时,这位制片人则用“发展问题,发展解决”的说法给出回复。

      这显然过于乐观。毕竟更多从业者认为,从概念到成熟的工业化商用阶段,即便是Sora也有很多不成熟的地方。

      也因此,抛开技术路线不谈,单就实现效果而言,国内在文生文等通用模型有相关布局的大模型厂商,是否有着同样的“飞升机会”?文生视频,到底相比过去文生文,有哪些实质性的飞跃?这是一个很有意思的话题。

      01

      Sora,革命还是泡沫?

      必须承认,Sora的出现,让通用人工智能(AGI)的实现,又近了一步。原因在于,它已经做到了模拟真实物理世界的运动,譬如物体的移动与相互作用。

      不过,仅仅是这种程度的改进,也算不得“惊艳”。根据OpenAI的官方报告,Sora的“革命性”主要体现在下面几点。

      首先是时长。作为通用的文生视频大模型,它能根据用户提供的文本描述生成长达60秒的视频,不仅品质上乘,且能更完整准确地还原用户输入的prompt,即提示词。

      其次,是在场景的复杂度和角色生成水平的突破。到目前为止,Sora已经能够生成包括多个角色、特定运动类型以及主题精确、背景细节复杂的场景。且镜头语言也开始复杂,这使得视频本身开始具有一定的叙事功能,而这正是目前短视频领域所需要的东西。

      再次,除了文本生视频,Sora还能做到从静态图像开始动画化图像,抑或是从已有视频生成新视频,实现填补缺失帧或者延展视频内容的效果。

      一位资深科技媒体人对陆玖商业评论表示,Sora这类AI产品的出现,是一种“思维平权”的机会,因为一些长期跟踪行业的科技记者,经常会有一些“脑洞大开”的设想,但没有合适的工具让想法落地。但有了GPT和Sora这类AI工具之后,记者们一旦看到了机会和想法,AI就可能会帮助他实现产品,剩下的就是验证这个产品的可行性。

      但陆玖商业评论在与多个行业人士交流以后发现,即便是眼下风光无限的Sora,同样有被高估的可能性。

      行行AI董事长李明顺对此较为理性,在他看来,Sora的出现,很大程度上是文生文的通用模型,延展到视频领域的阶段性技术迭代。Sora能有如今的质变,很大程度上也是算力和资金不设上限投入,再加以海量训集的不断重复训练,这是“大力出奇迹”的结果。

      相比技术实现上的优越,Sora在“资源禀赋”上的优越,显然跟国内一众“算力荒”厂商拉开了更大的距离。这是国内大模型相关厂商,在相当长时间里难以逾越的鸿沟。

      而从投资角度而言,Sora这类垂直领域的“通用模型”也算不得热门标的。

      一位一级市场从业者告诉陆玖商业评论,纯一级市场投资,通常只会投资大概念和高估值标的。原因主要在于一级市场的基金存续期是7年,投资期2年,5年退出是大概率事件。但文生视频的垂直模型在5年内能否实现工业化商用,谁都无法下定论。

      此外,目前的Sora,所有已知信息只有2月15日发布的技术报告,但在3天后就传出了融资新闻。在没有开放使用、外界不知其实际水平的情况下,在风投公司Thrive Capital牵头融资中,OpenAI的估值已经逼近800亿美元。这位一级市场从业者向陆玖商业评论坦言,这次技术发布很可能是OpenAI“估值管理”的一部分。

      昆仑万维的董事长周亚辉在朋友圈表示,“(硅谷)这边的Scientist和工程师根本不认除了Open Al以外的创业公司股票价值,觉得都是纸面财富。宁可要OpenAI.谷歌、FB、微软100万Package(一半股票)的Offer,也不要创业公司300万(80%股票)的Offer。”

      可见,Sora之后,OpenAI进一步拉大了与其他AI大厂的差距。

      02

      国产大模型,厂商们的危与机

      尽管Meta、Google以及微软都在蠢蠢欲动,但相较于资本市场对Sora的疯狂,国内大模型厂商则显得冷静得多。国内大厂大多数选择的,仍是立足于自身应用的大模型开发,并非去追求所谓的原生态AI大模型升级。

      字节即是其中之一,其对于生成式AI的保守态度,早在文生文阶段就已经体现。而从入局时间看,字节并不晚。据晚点报道,2020年6月OpenAI发布GPT-3后,字节曾训练了一个数十亿参数的生成式语言大模型。

      如果按部就班开发,到2023年时,字节与OpenAI的GPT,距离不会很远。只是在ROI挂帅的业务体系下,字节这笔投资显然没有算过账来。因此,其在生成式AI的探索上,始终相较竞品慢了一些。

      从发布时间来看,百度文心一言于2023年3月份发布,同年10月便迭代至4.0版,紧随其后的是阿里的通义千问、腾讯混元助手,而字节发布云雀大模型的发布时间是2023年8月。

      后发导致的结果之一,是用户量不足——文心一言的月活去年就已经破亿,字节的豆包仍然在千万以下。不过,字节在选派张楠执掌剪映之后,有望在生成式AI的进度上更快一点。

      如果说字节在文生视频领域暂时没有看到可立即使用的产品,那么百度和阿里则不然。早在去年的百度世界大会上,百度已经演示过文心一言的文生视频能力,主要集成在“一镜流影”插件当中。

      当然,出现在世界大会现场的生成视频,只是一镜流影无数次抽卡中的成功案例。陆玖商业评论经过测试发现,一镜流影仍然存在一些局限。

      其一是素材库。目前一镜流影使用的是无版权素材库,这导致无法用于特定品牌的工业化商用环节。

      其二是出于可能的肖像权考虑,目前无法生成带人像的视频,但可用于生成不带商标的商品视频。

      其三则是,目前生成的视频,都是30秒左右的,如果想要达到与Sora类似的效果,还需要做到两段视频素材的拼接。如果要保持内容和风格的一致,显然变成了难事。

      通义千问目前用的最多,热度最大的相关技术,则是以全民舞王为代表的图生视频技术。只需一张全身照,就可以让其做出各种热门的舞蹈动作。在B站,以慈禧等历史人物跳科目三的二创视频,加起来的视频播放量,大约在千万级别。

      虽然还没有做到工业化的水准,也没有与国外的Sora拉平差距,但国外的Sora同样也没有做到工业化,这也就意味着,起码在商业化进程上,二者仍然没有太大的距离。剩下的只需不断追赶就好。

      行行AI董事长李明顺也持类似的观点。他告诉陆玖商业评论,目前OpenAI仍然占据行业头部的位置,但很大程度上是建立在此前的算力储备和技术积累之上。国内诸如BAT、字节等通用大模型厂商,也会不断去追赶。原因很简单,在某种程度上,通用大模型已经变成了互联网公司基础能力的一种象征。

      竞赛似乎才刚刚开始。

      03

      文生视频,真正的胜负手在哪?

      当然,无论是OpenAI的Sora,还是国内一众大模型厂商,其最终目的,仍然是工业化、流水线化生产高质量的视频内容。

      但就目前来看,即便强如Sora,也是有诸多不成熟的因素,导致其无法应用到工业化领域。AI动态视频解决方案产品知行元(www.creatlyai.cn)的产品架构师告诉陆玖商业评论,虽然目前Sora看起来很方便,通过文字能直接生成高质量的视频,且只需要通过几个提示词来控制,对用户的心智与操作负担看起来很小。

      但由于目前的sora对真实物理世界的理解还有限,在某些场景仍然会出现问题。诸如烛光方向错乱、精准数量失序,空间物体进出畸变等细节,这些细节到后期剪辑都是很难去改动的。

      这并非没有解决方案。因为Sora目前已经有视频延展和视频拼接功能,用户完全可以生成数个几秒钟的视频进行后期裁剪。如果对于提示词工程的知识储备不足的人来说,多次生成+人工后期是难以避免的。

      此外,在工业化的商品宣传片中,通常客户会发布一些新款商品,譬如新款羽绒服、新车、新手机等等。但用户的素材并不存在于视频模型的训练集中,导致只能生成类似商品后再二次加工,也就是影视后期。

      这里同样有专业用户与非专业用户的需求差别。譬如对于一般的轻度用户,如果没有商业化需求,那么模型就是一个试玩产品,任何新生成的作品对他而言都是惊喜。但对于专业用户(譬如导演),如果一次生成的不够满意,那么还涉及到多次生成和多次后期,对于算力与人工都是不小的负担。

      前述电影制片人告诉陆玖商业评论,在影视制作流程中,后期最大的成本,就是负责剪辑与特效,也就是二次加工的人工成本。如果工作流不够先进,那么很可能会在后期制作过程中拉高成本,进而影响项目的ROI。

      如果目前的文生视频仍然需要大量人工去调校,且镜头和对物理世界的还原也无法做到1:1,那么用AI生成视频素材的性价比,其实是不高的。

      有基于此,一位影视后期从业者告诉陆玖商业评论,在他看来,AI能直接替代的,其实是搭建和拍摄等中期工作。因为AI对物理世界的模拟还原,可以通过不断训练来接近真实水平。

      以上仅仅是Sora对影视产业的部分改变推演。至于对于游戏、广告、短视频创作等细分领域,变革肯定远大于问题。AI的应用,其革命性的变化,肯定波澜壮阔。而国内大厂,在AI应用的商业化探索上,显然更愿意发力和尝试。

      同样,根据周亚辉的朋友圈剧透,“Open AI很快会发布GPT4.5,而且估计会故意选择Anthropic发布Claude3的时候发布。”最新迭代版本的Open AI除了Sora生成式视频外,还有什么令人惊艳的创新,应该是国内大厂从事大模型战略和业务部门,最关心的事情。

      最后,对于文生视频而言,是立足于+AI做大模型应用,还是立足于AI+去训练升级自己的原生态大模型。显然,美国大公司与中国大公司已经分别做出了自己的选择。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。