• 字节快手迎来关键对决

    2025年04月24日 10:20:01   来源:全天候科技公众号

      AI竞赛焦点已经开始转向多模态,字节和快手在AI视频赛道的竞争也日趋激烈。

      近日,快手正式发布可灵2.0视频生成模型及可图2.0图像生成模型,将视频及图像创作的精准度带上一个新高度。同期,字节Seed团队正式发布Seedream3.0技术报告,据第三方榜单Artificial Analysis,Seedream3.0综合性能已追平文生图SOTA模型GPT-4o,进入全球第一梯队。

      作为短视频平台,字节和快手被认为是AI多模态领域的有力竞争者。经过一年多的技术追赶,双方在AI视频生成领域都取得了不错的进展。

      根据AI产品榜3月数据,在全球AI产品增速榜(仅APP)上,即梦AI 以173.57%的月活增速位居第5,是增速最快的AI视频应用,其月活规模约2037万,而可灵AI的增速仅为36.44%,排名第14。根据快手公布的数据,截至目前,可灵AI全球用户规模突破2200万。

      不过,AI视频生成领域尚未涌现类似DeepSeek在大型语言模型(LLM)领域的标杆性产品。一位业内人士对华尔街见闻表示,当前,AI视频生成赛道仍处于“技术突破期”,这也意味着,字节和快手的竞争仍处于早期阶段。

      过去十年,快手和抖音相继崛起,共同开创了中国的短视频时代。如今,AI时代加速到来,这一次,快手和字节谁的胜算更大一点?

      追赶

      AI视频生成领域还处于产品应用爆发前的阶段,业内玩家都在试图通过持续的技术迭代,来实现产品的不断破圈。

      进入2025年,快手和字节都开始推出重大技术迭代成果。

      4月15日,快手正式发布可灵AI2.0视频生成模型及可图2.0图像生成模型。可灵AI2.0的最大亮点在于以技术革新重新定义AI视频生成标准:从“能生成”到“精准生成”,从“工具辅助”到“创意伙伴”。

      发布会上,快手发布了AI视频生成的全新交互理念Multi-modal Visual Language(MVL),MVL由TXT(Pure Text,语义骨架)和MMW(Multi-modal-document as a Word,多模态描述子)组成,能从视频生成设定的基础方向以及精细控制这两个层面,精准实现AI创作者们的创意表达。

      基于MVL,快手发布了全新的可灵AI2.0大师版,它全面升级视频及图像创作可控生成与编辑能力,上线全新的多模态视频编辑功能,支持二次编辑和处理。

      当前,图生视频约占到可灵AI视频创作量的85%,快手发布的可图2.0拥有多项核心优势,比如,强大的复杂语义理解能力、电影级的画面质感等。快手副总裁、可灵AI负责人张迪介绍,可图2.0文生图能力迎来全面升级,模型出图创意和想象力实现大幅跃升。

      在快手召开发布会的次日,字节旋即披露了其文生图模型Seedream3.0的技术白皮书。

      4月16日,字节发布 Seedream3.0技术报告,距离字节公布Seedream2.0技术报告仅过去一个月有余。Seedream3.0的最大亮点包括原生2K直出,而且时间仅用3秒,大幅提升创作效率。Seedream3.0目前已在即梦AI等平台全量开放。

      华尔街见闻获悉,Seedream3.0的研发始于2024年末,通过调研设计师等群体的实际需求,Seedream 团队将图文匹配、美感等行业共识性指标纳入攻坚方向,同时,也将挑战2K 高清直出、快速图片生成等业界难题作为核心目标。

      无论是可灵AI的二次编辑功能,还是即梦AI的原生2K画质,都是通往产业级应用的必经之路。事实上,也只有达到产业级应用状态,AI视频生成的价值也才有望体现。

      如此紧追不舍的竞争态势背后,快手和字节过去一年持续对AI视频生成赛道进行布局。

      2024年初,Open AI通过Sora正式入局视频生成领域,引发全世界关注。彼时,快手在攻克文生视频的关键技术,4个月后,快手就发布了视频生成大模型可灵,成为国内首个对标Sora的产品。

      字节2023年才开始在内部会议上讨论GPT,但追赶速度较快,去年底,字节的视频生成模型和产品正式推向了市场。

      去年9月,字节一举发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型,正式宣告进军AI视频生成。11月,原抖音集团CEO张楠转战剪映近一年后正式亮相,即梦AI推出了“一句话P图”等能力,大幅提升了图片中文字生成的准确率。

      即梦AI在字节内部的重要性显著提升。华尔街见闻获悉,即梦AI所代表的视觉化产品被看好,字节试图将即梦打造成AI时代的“抖音”。2月,原零一万物 PopAI 产品负责人曹大鹏加入即梦AI,负责移动端产品。他此前用一年时间将PopAI做到了千万用户,且投资回报率(ROI)接近收支平衡点,是一名得力干将。

      如今,快手和字节再次交战,他们都在试图将模型技术带入生产级赛道。

      押注

      对于AI视频生成赛道,字节和快手无疑是国内反应最快速的科技公司。

      原因也很容易理解,他们都依靠短视频起家,天然更懂视频创作。更重要的是,字节和快手都有FOMO(Fear of Missing Out)心理。当年,快手和字节因为降低了普通人制作视频的门槛,从而构建了视频生态,如今,AI会进一步降低视频生成门槛,更具颠覆性。

      本质上,字节和快手想要在AI时代复制出一个新的“抖音”和“快手”,从而成功跨过新一轮AI技术周期。

      就当下而言,字节和快手对AI视频赛道的策略各有侧重。

      对快手来说,AI是破解公司增长曲线难题的最大抓手。除了C端订阅用户,可灵AI也面向B端商家提供API接入等服务,可灵AI已与包括小米、亚马逊云科技等企业建立了合作关系。盖坤披露,来自世界各地的超1.5万开发者,已将可灵AI的API应用于不同的行业场景中。

      3月25日,快手科技创始人兼首席执行官程一笑在电话会上透露,自商业化以来截至2025年2月底,可灵AI的累计营业收入超1亿元人民币。他表示,快手将会在ROI可控的前提下,不断扩大可灵AI的用户宣传和品牌影响力。“我们有信心在2025年实现可灵AI营收规模的跨越式增长。”

      对字节来说,即梦AI是整个AI战略的核心版图,也是公司通往AGI所必须攻克的难题。

      年初,字节豆包大模型团队已在内部组建AGI长期研究团队,代号“Seed Edge”,鼓励项目成员探索更长周期、不确定的和大胆的AGI研究课题,Seed Edge的目标是探索AGI的新方法,鼓励跨模态、跨团队合作。

      去年底,张楠曾表示,抖音,是一个“真实世界”的相机,借助GenAI技术,即梦希望成为想象力世界的相机,记录每个人的奇思妙想,帮助每个有想法的人轻松表达、自由创作。

      随着快手发布全新2.0模型,业内都在期待字节的下一步动作,尤其是豆包视频生成模型1.5版何时会推出,双方之间的技术追赶还是持续进行。

      不过,对于AI视频生成赛道的前景,目前仍处于探索阶段。

      百亿私募和谐汇TMT软件组凌晨对华尔街见闻表示,产业界对Sora为代表的AI视频生成产品分歧点主要在于,如果把Sora当成AIGC的视频生产工具,它的价值量不会特别大,可能就颠覆一下创意软件这些工具,如果Sora是一个通用的视频武器的话,它的想象力很大,比如,跟机器人进行结合。

      近日,生数科技产品副总裁、Vidu产品负责人廖谦表示,当多模态可以做到实时可控、可交互的时候,它可以是完全个性化的,届时一定会诞生出带来新体验的内容平台,这个技术将应用在社交、游戏、VR、AR等多个领域,会对所有的行业带来非常深远的影响。

      整体来看,相较于大语言模型,AI视频生成赛道面临的挑战会更大,无论是Scaling law还是算力需求消耗,乃至商业模式的探索,复杂程度都在上升。

      这注定是一个难度更高的赛道,字节和快手虽然具备视频平台基因,但要想跑到最后,还需要持续创新,才有可能在Veo2、Runway、Pika等一众全球竞争对手中占有一席之地。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。