字节快手迎来关键对决

2025年04月24日 10:20:01 刘宝丹编辑 | 周智宇 来源：全天候科技公众号

　　AI竞赛焦点已经开始转向多模态，字节和快手在AI视频赛道的竞争也日趋激烈。

　　近日，快手正式发布可灵2.0视频生成模型及可图2.0图像生成模型，将视频及图像创作的精准度带上一个新高度。同期，字节Seed团队正式发布Seedream3.0技术报告，据第三方榜单Artificial Analysis，Seedream3.0综合性能已追平文生图SOTA模型GPT-4o，进入全球第一梯队。

　　作为短视频平台，字节和快手被认为是AI多模态领域的有力竞争者。经过一年多的技术追赶，双方在AI视频生成领域都取得了不错的进展。

　　根据AI产品榜3月数据，在全球AI产品增速榜(仅APP)上，即梦AI 以173.57%的月活增速位居第5，是增速最快的AI视频应用，其月活规模约2037万，而可灵AI的增速仅为36.44%，排名第14。根据快手公布的数据，截至目前，可灵AI全球用户规模突破2200万。

　　不过，AI视频生成领域尚未涌现类似DeepSeek在大型语言模型(LLM)领域的标杆性产品。一位业内人士对华尔街见闻表示，当前，AI视频生成赛道仍处于“技术突破期”，这也意味着，字节和快手的竞争仍处于早期阶段。

　　过去十年，快手和抖音相继崛起，共同开创了中国的短视频时代。如今，AI时代加速到来，这一次，快手和字节谁的胜算更大一点?

　　追赶

　　AI视频生成领域还处于产品应用爆发前的阶段，业内玩家都在试图通过持续的技术迭代，来实现产品的不断破圈。

　　进入2025年，快手和字节都开始推出重大技术迭代成果。

　　4月15日，快手正式发布可灵AI2.0视频生成模型及可图2.0图像生成模型。可灵AI2.0的最大亮点在于以技术革新重新定义AI视频生成标准:从“能生成”到“精准生成”，从“工具辅助”到“创意伙伴”。

　　发布会上，快手发布了AI视频生成的全新交互理念Multi-modal Visual Language(MVL)，MVL由TXT(Pure Text，语义骨架)和MMW(Multi-modal-document as a Word，多模态描述子)组成，能从视频生成设定的基础方向以及精细控制这两个层面，精准实现AI创作者们的创意表达。

　　基于MVL，快手发布了全新的可灵AI2.0大师版，它全面升级视频及图像创作可控生成与编辑能力，上线全新的多模态视频编辑功能，支持二次编辑和处理。

　　当前，图生视频约占到可灵AI视频创作量的85%，快手发布的可图2.0拥有多项核心优势，比如，强大的复杂语义理解能力、电影级的画面质感等。快手副总裁、可灵AI负责人张迪介绍，可图2.0文生图能力迎来全面升级，模型出图创意和想象力实现大幅跃升。

　　在快手召开发布会的次日，字节旋即披露了其文生图模型Seedream3.0的技术白皮书。

　　4月16日，字节发布 Seedream3.0技术报告，距离字节公布Seedream2.0技术报告仅过去一个月有余。Seedream3.0的最大亮点包括原生2K直出，而且时间仅用3秒，大幅提升创作效率。Seedream3.0目前已在即梦AI等平台全量开放。

　　华尔街见闻获悉，Seedream3.0的研发始于2024年末，通过调研设计师等群体的实际需求，Seedream 团队将图文匹配、美感等行业共识性指标纳入攻坚方向，同时，也将挑战2K 高清直出、快速图片生成等业界难题作为核心目标。

　　无论是可灵AI的二次编辑功能，还是即梦AI的原生2K画质，都是通往产业级应用的必经之路。事实上，也只有达到产业级应用状态，AI视频生成的价值也才有望体现。

　　如此紧追不舍的竞争态势背后，快手和字节过去一年持续对AI视频生成赛道进行布局。

　　2024年初，Open AI通过Sora正式入局视频生成领域，引发全世界关注。彼时，快手在攻克文生视频的关键技术，4个月后，快手就发布了视频生成大模型可灵，成为国内首个对标Sora的产品。

　　字节2023年才开始在内部会议上讨论GPT，但追赶速度较快，去年底，字节的视频生成模型和产品正式推向了市场。

　　去年9月，字节一举发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型，正式宣告进军AI视频生成。11月，原抖音集团CEO张楠转战剪映近一年后正式亮相，即梦AI推出了“一句话P图”等能力，大幅提升了图片中文字生成的准确率。

　　即梦AI在字节内部的重要性显著提升。华尔街见闻获悉，即梦AI所代表的视觉化产品被看好，字节试图将即梦打造成AI时代的“抖音”。2月，原零一万物 PopAI 产品负责人曹大鹏加入即梦AI，负责移动端产品。他此前用一年时间将PopAI做到了千万用户，且投资回报率(ROI)接近收支平衡点，是一名得力干将。

　　如今，快手和字节再次交战，他们都在试图将模型技术带入生产级赛道。

　　押注

　　对于AI视频生成赛道，字节和快手无疑是国内反应最快速的科技公司。

　　原因也很容易理解，他们都依靠短视频起家，天然更懂视频创作。更重要的是，字节和快手都有FOMO(Fear of Missing Out)心理。当年，快手和字节因为降低了普通人制作视频的门槛，从而构建了视频生态，如今，AI会进一步降低视频生成门槛，更具颠覆性。

　　本质上，字节和快手想要在AI时代复制出一个新的“抖音”和“快手”，从而成功跨过新一轮AI技术周期。

　　就当下而言，字节和快手对AI视频赛道的策略各有侧重。

　　对快手来说，AI是破解公司增长曲线难题的最大抓手。除了C端订阅用户，可灵AI也面向B端商家提供API接入等服务，可灵AI已与包括小米、亚马逊云科技等企业建立了合作关系。盖坤披露，来自世界各地的超1.5万开发者，已将可灵AI的API应用于不同的行业场景中。

　　3月25日，快手科技创始人兼首席执行官程一笑在电话会上透露，自商业化以来截至2025年2月底，可灵AI的累计营业收入超1亿元人民币。他表示，快手将会在ROI可控的前提下，不断扩大可灵AI的用户宣传和品牌影响力。“我们有信心在2025年实现可灵AI营收规模的跨越式增长。”

　　对字节来说，即梦AI是整个AI战略的核心版图，也是公司通往AGI所必须攻克的难题。

　　年初，字节豆包大模型团队已在内部组建AGI长期研究团队，代号“Seed Edge”，鼓励项目成员探索更长周期、不确定的和大胆的AGI研究课题，Seed Edge的目标是探索AGI的新方法，鼓励跨模态、跨团队合作。

　　去年底，张楠曾表示，抖音，是一个“真实世界”的相机，借助GenAI技术，即梦希望成为想象力世界的相机，记录每个人的奇思妙想，帮助每个有想法的人轻松表达、自由创作。

　　随着快手发布全新2.0模型，业内都在期待字节的下一步动作，尤其是豆包视频生成模型1.5版何时会推出，双方之间的技术追赶还是持续进行。

　　不过，对于AI视频生成赛道的前景，目前仍处于探索阶段。

　　百亿私募和谐汇TMT软件组凌晨对华尔街见闻表示，产业界对Sora为代表的AI视频生成产品分歧点主要在于，如果把Sora当成AIGC的视频生产工具，它的价值量不会特别大，可能就颠覆一下创意软件这些工具，如果Sora是一个通用的视频武器的话，它的想象力很大，比如，跟机器人进行结合。

　　近日，生数科技产品副总裁、Vidu产品负责人廖谦表示，当多模态可以做到实时可控、可交互的时候，它可以是完全个性化的，届时一定会诞生出带来新体验的内容平台，这个技术将应用在社交、游戏、VR、AR等多个领域，会对所有的行业带来非常深远的影响。

　　整体来看，相较于大语言模型，AI视频生成赛道面临的挑战会更大，无论是Scaling law还是算力需求消耗，乃至商业模式的探索，复杂程度都在上升。

　　这注定是一个难度更高的赛道，字节和快手虽然具备视频平台基因，但要想跑到最后，还需要持续创新，才有可能在Veo2、Runway、Pika等一众全球竞争对手中占有一席之地。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

[No. ]
分享到微信

即时

vivo携手首届商学院戈壁友谊赛，以专业影像见证无畏征途

2025年5月4日，首届商学院戈壁友谊赛于甘肃省酒泉市圆满举办。在这场4天121公里的戈壁征途中，vivo作为战略合作伙伴，为赛事提供手机、智能穿戴设备及定制影像服务，以技术赋能助力参赛选手与观众记录戈壁之上的热血奔赴，共同探索科技进步、商业文明与自然共生的未来路径。

一加Ace 5至尊版定档：将于5月27日发布

华为MateBook Fold非凡大师鸿蒙折叠电脑发布

字节快手迎来关键对决

即时

vivo携手首届商学院戈壁友谊赛，以专业影像见证无畏征途

新闻

明火炊具市场：三季度健康属性贯穿全类目

企业IT

重庆创新公积金应用，“区块链+政务服务”显成效

3C消费

华硕ProArt创艺27 Pro PA279CRV显示器，高能实力，创

研究

中国信通院罗松：深度解读《工业互联网标识解析体系

专题

字节快手迎来关键对决

扩展阅读