IDC:可穿戴设备将持续增长 2024智能手表将首次同比下降交通运输部:10 月 3 日全社会跨区域人员流动量超 2.8 亿人次,同比增长 4.3%2024 年日本二手智能手机销量预计达 315 万部:同比增长 15.5%,连续 6 年创新高索尼 Headphones Connect 应用更名为 Sound ConnectElecom 宣布 12 月发布 USB4 2.0 Type-C 线:80Gbps 数据传输,最高 240W 充电闪送登陆纳斯达克:市值超11亿美元故意找人抹黑董宇辉?东方甄选辟谣:某主播家庭纠纷价格战、智驾战、盈利战,深蓝汽车如何打赢?国庆假期点燃科技消费热 146家京东3C数码新店开业人气爆棚安慕斯亮相第二届东城区“龙潭杯”中小学围棋棋王赛京东“天命人向西游”活动受热捧 打开京东搜“天命人”可一元抢万件联名好礼京东闪电新品季火热进行中 买科沃斯地宝T50 PRO可价保11.11安徽消费者领补贴后来京东买电脑更划算 惠普暗影精灵10主机立减1751元跟着京东打卡《黑神话:悟空》“现实版” 这份国庆出游路线请查收国际老年人日来京东为长辈办理联通“孝心卡” 手机位置实时提醒 看护更方便国庆假期来京东领厦门补贴买电脑更划算 ThinkBook 16p到手只要7199元京东带来路由器价保11.11权益 即日起买路由器来京东更划算真五折福利限时秒杀 京东采销带你云逛装备前线外设展联想YOGA AIPC系列新品亮相,引领智能办公新体验丰田比亚迪宝马领克smart等五大汽车品牌召回23万多辆车
  • 首页 > 云计算频道 > 大模型

    达摩院发布一站式AI视频创作平台“寻光”,打造全新AI工作流

    2024年07月08日 09:16:58   来源:机器之心公众号

      今年是 AI 视频生成爆发的元年,以 Sora 为代表的算法模型和产品应用不断涌现。短短几个月内,我们目睹了几十种视频生成工具的问世,基于 AI 的视频创作方式开始流行起来。

      但新技术也引发更多的挑战与质疑,除了大家熟知的 “开盲盒”现象,AI 所生成的视频内容也因可控性差、处理工作流繁琐而频频被诟病。

      OpenAI 曾经邀请专业视频制作团队对 Sora 进行了测试,其中来自于多伦多的 Shy Kids 团队,利用 Sora 制作了一个气球人主题的短片,把创意和 AI 技术进行了完美的结合,让人印象深刻。

      整个短片其实并不是 Sora 直接输出的结果,而是由多个视频片段组成,且 Sora 在生成不同视频时,很难保证主角的一致性。因此,在引入了大量的人工后期编辑,他们才呈现出最终的短片效果。Shy Kids 的主创们总结,“Sora 的技术很酷,但是它的生成过程很难控制。”

      对生成内容的精准可控,是 AI 视频创作中的重要需求,也是今天算法面临的一大挑战。

      为此,在刚结束的上海世界人工智能大会(WAIC)上,达摩院发布了一站式 AI 视频创作平台 “寻光”。

      其定位为 PUGC 一站式 AI 视频创作平台,可辅助用户创作剧本、分镜图等,并通过工作流整合提升创作全流程的效率,支持对生成及上传素材进行丰富的 AI 编辑,提供人物控制、场景控制、风格迁移、运镜控制、目标新增 / 消除 / 修改等十多种 AI 编辑功能,让视频中的元素和对象精准可控。

      达摩院希望借由寻光平台进一步提升 AI 视频创作的效率,目标是用 AI 能力重塑传统视频制作的整个流程,打造 AI 时代的全新视频工作流。

      业界首次落地

      基于图层的视频编辑

      在寻光研发的初期,达摩院还与影视传媒从业者及创作者进行了广泛且密集调研,了解其对于视频 AIGC 创作的需求与痛点。他们发现,视频图层几乎是所有视频创作者们提到频次最高、最迫切的需求。

      基于此,寻光平台首次在行业推出系统性的视频图层编辑功能。用户通过文本输入,即可生成符合文本描述且具有透明背景的视频,并且一键将其融合到其他背景视频当中。在传统视频生成能力的基础上,用图层这样一种更灵活的形式来产生内容。

      寻光更提供图层拆解功能,轻轻一圈,选定目标立刻拆解为单独的图层视频,再丝滑嵌入不同的背景视频。

      用户可以将不同的前景图层跟不同的背景进行图层融合,组合出更多新的视频。图层融合的能力进一步激发 AI 创作力和想象力,同时能够保持多个分镜头之间的场景和人物的一致性。

      在达摩院看来,AI 不会取代创作者的工作,而是会优化视频创作的工作流,成为创意驱动的新引擎。

      一站式 AI 创作平台

      更简洁的交互,更丰富的编辑能力

      剧本创作、分镜设计、素材编辑…… 传统的视频创作步骤分工明晰、周期冗长。在 AI 技术的加持下,原本分散在不同制作流程中的创作步骤,如今都可以在寻光平台上流畅完成。

      “我们希望让视频编辑像操作 ppt 一样简洁直观,容易上手。” 达摩院视觉技术实验室高级算法专家陈威华在现场介绍,寻光平台的一大亮点在交互方面。

      寻光平台在设计时便充分考虑到 AI 视频创作的特点,将每个视频项目抽象为多个分镜头画面,用户可根据剧本自动生成一组分镜头,也可以自己上传原始视频素材,由算法切分成多个分镜头。

      在创作空间里,用户可以很方便的查看每一个分镜头,一个场景内的多个分镜头可以收起或者展开,场景之间可以通过拖拽来调整顺序,场景内的分镜头也可以进行拖拽。用户也可以在任意位置上进行分镜头的添加和新建,可调用图片生成或者视频生成能力去产生内容,也可以添加自己已有的各种素材。

      对于每个分镜头,寻光提供完整且智能的 AI 视频编辑能力进行处理,可依据用户意图,在语义层面而不是像素层面实现编辑。分镜头里的人体、人脸、前景、背景等任意局部目标,都可以进行精细化的编辑和修改。

      比如,理解空间景深的运镜控制;

      又比如,能够理解物体相对关系的目标消除 / 修改。

      在对视频全局元素的编辑上,寻光平台提供了超过20种的风格迁移。

      寻光也提供帧率控制、视频超分等实用的视频编辑功能。

      “我们希望一个视频里的所有元素都是可编辑、可修改的,这样可以给用户的创作提供最大的自由度”,陈威华说。

      写在最后

      今天,我们正处在 AIGC 的变革浪潮之中,AI 有可能催生出新的视频工作流。无论是专业的影视从业者还是热爱创作的 UGC 用户,都将从中获益。

      “工欲善其事,必先利其器”,达摩院希望寻光视频创作平台能够成为每一位创作者的专属视频工作室,实现 AI 与创作者之间更紧密、高效的协作,真正释放 AI 的生产力。

      为此,达摩院视觉技术实验室已做了大量技术储备。该实验室致力于多模态视觉信号的理解与生成技术研究,当前的重点研究方向包括更加精准的图像 / 视频 /3D 内容生成,更加可控的图像 / 视频 /3D 内容编辑,更加高效的生成框架,多模态的理解 - 生成框架等。

      陈威华表示,“寻光”将于近期开放内测,持续迭代,优化交互,欢迎创作者们来定制属于自己的 AI 工作流。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    研究

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。