70万人争先体验！视频生成新王者「可灵AI」又双叒升级了

2024年07月10日 09:20:26 来源：新智元公众号

　　难不成，AI 生成短剧时代真的要来了?

　　最近，各路视频生成 AI 放出的 Demo 让人眼花缭乱。从玩梗图、拼长度再到讲究真实物理逻辑，层出不穷的人工智能创意难分高下，个个都要跟 Sora 试比高。这时候，突然有人偷偷先行一步，搞出了「电影级」的表现:

　　从真实风格的光影效果:

　　到丰富的想象力，要素齐全，都能搞定:

　　没想到在 AI 眼里，其实是蝙蝠侠能让小丑绷不住。

　　有的人已经在尝试使用这种能力来完成复杂的任务。有视频生成的 AI，音乐生成的 AI，再加上一些 PS 和 AE，我们就可以制作出完整的 MV 了。

　　你问网友们如何看待这种生成效果，网友要反问一句「好莱坞你怎么看?」

　　这种 AI 视频生成的效果丝滑且精细，吸引了一大波点赞，仔细翻看，社交网络上由它出品的短视频还有不少。

　　据网友总结道，新款 AI 的优势主要体现在生成大幅度运动时不容易乱脑补。再比如让它图生视频，一个奔跑的半人马:

　　这些视频背后的生成式 AI，是快手旗下的大模型「可灵 AI」（Kling），几个星期前它开始在全球互联网上刷爆，那时就号称「一号难求」。

　　没错，这不是先放出一些 Demo 搞 PPT 发布，而是上来就直接开放的产品级应用。现在可灵 AI 已经上线了网页版，主打一个简单好用。

　　最新数据，可灵 AI 的申请用户数量已经接近70万，成了全网最热的视频生成大模型。

　　一月数次升级，可灵 AI 的狂飙式进化

　　今年是生成式 AI 元年，早在2月份，OpenAI 的 Sora 就把竞争拉到了视频生成的高度。但率先落地的还数国内科技公司。

　　自6月6日正式亮相以来，才一个月的时间，快手可灵 AI 这一首个在海外 AI 圈引起热议的国产大模型就经历了三次迭代更新。

　　从最开始的文生视频，到两周后支持图生视频、视频续写、多尺寸选择，可灵 AI 表现得越来越出色、全面。视频生成的各种需求，不知不觉中似乎都被解决了。

　　就在上周末的世界人工智能大会 WAIC2024上，可灵 AI 迎来第三次大的升级，发布了一系列新功能，在视频生成质感、美感、可玩性方面大大提升，带来了创作体验上的又一次跃升。

　　快手高级副总裁、快手主站业务与社区科学线负责人盖坤介绍了此次可灵 AI 升级的三大亮点功能，包括高画质版、首尾帧控制和相机镜头控制。

　　盖坤

　　首先，可灵 AI 基础模型再度升级，推出了更加清晰的高画质版。升级后，生成视频的画质相较于之前模型有了质的飞跃。

　　同时得益于更高的训练时空分辨率，可灵 AI 在生成细节、构图、运镜美观性、光影方面都有很大改善。

　　从如下画质的对比中，我们可以一目了然地看出可灵 AI 之前模型与最新模型之间的区别。

　　其次，可灵 AI 在图生视频领域增加了实用且呼声很高的「首尾帧控制」功能，让首尾帧呼应的图生视频成为了现实。

　　通过自定义起始帧和结束帧图像，让用户精确控制不同视频片段之间镜头的丝滑转场，实现一镜到底等效果。从实际生成结果来看，不仅动作自然流畅，画质也能够得到保证。这一功能的引入让用户拥有了更直观、更便捷的编辑体验，满足了个性化的图生视频需求。

　　比如将如下两图生成一段视频:

　　效果是这样的:

　　最后，可灵 AI 增加了运镜控制以及自动大师运镜功能。在视频的世界中，更多镜头的组合可以捕捉更多画面，并增强整体表现力。

　　可灵 AI 预设了六套经典的镜头控制方式，包括 Roll 旋转运镜、Tilt 垂直摇镜、Pan 水平摇镜、Vertical 垂直运镜、Horizontal 水平运镜和 Zoom 推进 / 拉远，为不同场景提供了丰富的选择。用户还可以调节这些运镜的正数、负数参数，从而控制运动的激烈或平缓程度以及反向运动等。同时，大师级运镜有助于产出电影感十足的吸睛大片。

　　可以看到，随着这些新功能的加入，可灵 AI 在视频清晰度、美学表现以及内容自定义控制方面有了肉眼可见的改进。

　　不仅如此，正式与用户见面的可灵 AI 网页版集成了文生图、文生视频以及不久后将支持的视频编辑能力，成为发布即可用的一站式视觉内容创作平台。

　　其中新增的「首尾帧控制」和「运镜控制」功能目前在网页端提供，想要体验的小伙伴可以速速去申请了!

　　可灵 AI 网页版地址:klingai.kuaishou.com

　　用「诚意满满」来形容可灵 AI 此次的升级不为过，背后当然离不开快手在视频生成能力和技术上的持续创新突破。

　　「电影级」AI 生成，背后全是技术

　　相较于已经非常成熟的图像生成，视频生成任务更复杂，在实际应用中要面临着真实性、动作连贯性、画面流畅性、细节精度、场景、角色和光影一致性、物理准确性以及时长限制等诸多挑战。

　　这些挑战应对得好不好，将直接决定了模型的实用性和易用性。显然，再度升级的可灵 AI 在这些方面有了脱胎换骨的变化。总结起来，可灵 AI 拥有七大能力亮点。

　　快手视觉生成与互动中心负责人万鹏飞对这些能力一一展开了剖析，这些构筑起可灵 AI 在视频画质、图生视频、运动生成、生成时长、物理规律、指令响应、视频可控性等方面的核心竞争力，并造就了如今全能的可灵 AI。同时，万鹏飞还对未来发展做出了展望，他表示，视频生成效果的提升速度非常快，正在逐步接近图形渲染和相机拍摄，将会对泛视频行业带来新的机遇。

　　其实我们已经见识过了可灵 AI 的能力，前文展示的高画质版、首尾帧控制和相机镜头控制新功能正是可灵 AI 在电影级高清画面生成、领先图生视频效果和优秀视频生成可控性三大能力上的进一步演化。

　　其中电影级的高清画面生成能力能够高保真、生动地呈现壮阔的自然风光、人或动物的动作和表情等宏大或细微的场景，大片感十足。

　　领先的图生视频能力可以让静态图像动起来，转换为生动的5秒短视频。同时搭配不同的文本输入，让图生视频更有创意且「随心所欲」。

　　比如将小狗游泳的图像转换为视频:

　　效果是这样的:

　　优秀的视频生成可控性让更加精细的视频创作掌控在用户手中。除了此次的相机镜头控制之外，可灵 AI 未来还将在语音面部匹配、人物 ID 保持、通过简单笔画提示控制画面和布局的演进等更多方面实现可控调整。目前模型的训练已经完成，这些功能很快就会上线。

　　与此同时，可灵 AI 在运动生成、生成时长、物理规律、指令响应等其他四大能力上也进一步升级。

　　其一可灵 AI 具有大幅度且合理的运动生成能力。通过建模复杂的时空运动，可灵 AI 可以生成较大幅度的运动，并符合运动规律。

　　此次得益于更充分的模型训练，可灵 AI 生成的整体运动效果更加灵动，支持更大动作范围的同时合理性也没有削弱。如下小猫的转身、走路姿势等都刻画地非常自然合理，符合物理事实。

　　其二是分钟级的长视频生成能力。现在，分钟级时长已成为评价一个视频生成模型的重要指标，这要求更有效的多镜头处理、更长的故事讲述以及更连贯一致的运动扩展能力。

　　目前，可灵 AI 能够生成数分钟的1080p、30fps 视频。同时开放了遵循用户指令的视频续写功能，单次续写让视频运动延时4到5秒，还支持连续多次续写，最长可以生成3分钟的视频，并且续写时能够指定故事后续发展方向，易用性拉满。

　　此次升级后，可灵 AI 在算法和工程层面进行了联合深度优化，使得单次生成的视频长度从5秒提升到了10秒，在对用户开放使用的产品中实现最长时长，可以呈现更加完整的故事线，为用户提供了更广阔的创作空间。

　　其三可灵 AI 能够模拟复杂的物理世界特性。自 Sora 以来，各家视频生成模型都非常注重生成符合物理规律的视频，这决定了模型能力的上限。

　　可灵 AI 在发布之初就能够准确地建模和模拟现实世界的属性，让生成的视频接近真实，比如给小猫洗澡。

　　现在，在更充分模型训练的加持下，可灵 AI 对交互式物理规律的建模和模拟能力又上了一个台阶。

　　其四可灵 AI 的概念组合和指令响应能力非常强。在技术实现上，通过对文本到视频跨模态语义的深刻理解，可灵 AI 能够将用户丰富的想象力轻松转换为具体的视频画面，放飞脑洞，比如咖啡杯火山。

　　升级后的可灵 AI 接受了效果更优的文本数据和编码方案，自然而然对用户提示词的响应能力得到增强，视觉渲染效果更好了。

　　所有这些能力又源于可灵 AI 在视频生成技术路线(采用 DiT 架构)、模型设计(如隐空间编解码、时序信息建模、文本扩展及编码)、数据保障(如多维度标签体系、视频描述模型)、计算效率(如分布式训练集群、分阶段训练策略)、能力扩展(如视频时序延展、多模态输入可控)等方面的技术积累和独到创新。

　　可以说，如今的可灵 AI 在技术层面做到了先进且靠谱，怪不得技术一落地就受到了人们的追捧。

　　生成式 AI 时代，快手有备而来

　　过去一年多的时间里，整个大模型领域可以说是非常的卷。去年都在谈基座模型的研发，今年大家又都在讨论应用。最近几天 WAIC 大会开幕，我们又目睹了一波「模型派」和「应用派」之间的争论。

　　在这波浪潮中，快手又是怎么做的?

　　首先，它玩的是体系。从底层的 IDC 算力中心到网络架构、AI 平台，到中层的基础核心大模型，再到应用层的各类应用探索，快手实现了全套自行研发。在谈到该体系时，快手副总裁大模型团队负责人张迪认为，坚定投入自主研发长期来说会带来「技术雪球」效应以及巨大的成本优势。快手一个非常大的优势就是在上层拥有大量的 AI 应用场景，这将给大模型带来非常多的落地机会。

　　整体框架是这样:

　　其次，快手坚持走基础模型技术研究和商业应用落地并举的战略。基础模型决定了 AI 能力的上限，研究投入的量变可以引发质变;另一方面，商业化应用能够滚起技术的雪球，把新技术阶段性投入应用，不断收获反馈，才能逐渐形成良性循环。

　　去年开始，快手提出了「快意」大模型(KwaiYi)，很快从早期的13B 参数量发展到了175B，并推出了多模态版本。在多个版本的迭代后，快意大模型已经在快手内部的素材创作、AI 互动、内容生产等场景中开始发挥作用，在今年6月，基于快意的 AIGC 营销素材单日消耗超过了2000万。

　　有了基础模型，在更多的场景上，快手逐渐发展出了自己的差异化能力。

　　具体来说，在文生图上，快手的「可图」已成为行业内顶尖的模型之一，拥有强大的语义理解和指令跟随能力。得益于在文本表征方面的创新，以及图像数据对齐的大量工作，可图可以画出摄像级的画面质感，经过强化学习的训练，审美也和人类的普遍标准实现了对齐。

　　而在视频的生成上，「可灵 AI」燃起了全球视频生成领域的新一轮竞争。它可以进行文生视频、图生视频，又具有丰富的图像编辑能力，在视频生成的可控性、质感、美感、运动合理度方面保持业内优秀。快手的工程师们正在持续进行工程算法的优化，力图不断降低视频生成 AI 的门槛。

　　说到打下门槛，新技术的优化是当前生成式 AI 面临的重要挑战之一。作拥国民级短视频应用，快手的优势在于拥有大量 AI 应用场景，这就给落地实践带来了场景和机会。

　　在技术落地上，快手实现了一系列里程碑:

　　快手在 APP 评论区内测的对话模型应用「AI 小快」，可以理解视频中的内容并与你互动，至今已经累积了超过1000万的粉丝量。

　　在电商的直播间里，利用文生图 AI「可图」的能力，老铁们也可以用自己的生活照快速试衣，甚至看到动态展示。

　　视频生成模型「可灵 AI」自发布以来获得了用户的广泛认可，已经累计生成了700万条视频，开放了一站式内容创作平台。

　　从内容的生产、理解到推荐等不同层面，从个人再到电商，快手的生成式 AI 能力已经做到了对于主体业务的全覆盖，持续推进着快手生态的不断发展。

　　最后还有新的尝试。在 WAIC 上，快手预告说首部 AIGC 短剧《山海奇镜之劈波斩浪》将在本月正式发布。

　　该剧由可灵 AI 提供深度技术支持，以赛博风格来复现山海经里的上古神话世界。从预告片来看，山脉到海洋、森林到天际等场景都呈现出了震撼的视觉效果。在以往，如此效果可能需要专业的特效团队，现在，视觉生成 AI 就能带来震撼的视觉体验了。

　　没错，半年前我们还在畅想未来，现在 AI 真的开始拍电影了。

　　当前大模型的浪潮中，最能证明技术能力的莫过于大规模落地。

　　而快手全方位的实践让我们再次确认:AI 的生产力已在不知不觉间，改变着我们的生活。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

[No. ]
分享到微信

即时

第十四代英特尔@酷睿™ 处理器：性能飞跃，重塑计算

第十四代英特尔® 酷睿™ 处理器(代号Raptor Lake S Refresh)采用了先进的Intel 7制程工艺。

第十四代英特尔@酷睿™ 处理器：性能飞跃，重塑计算

“强悍小透明”真我Neo7 Turbo正式发布，国补到手1699.15

70万人争先体验！视频生成新王者「可灵AI」又双叒升级了

即时

第十四代英特尔@酷睿™ 处理器：性能飞跃，重塑计算

新闻

明火炊具市场：三季度健康属性贯穿全类目

企业IT

重庆创新公积金应用，“区块链+政务服务”显成效

3C消费

华硕ProArt创艺27 Pro PA279CRV显示器，高能实力，创

研究

中国信通院罗松：深度解读《工业互联网标识解析体系

专题

70万人争先体验！视频生成新王者「可灵AI」又双叒升级了

扩展阅读