毕尔巴鄂对阵皇家社会:两支近邻球队将于西甲联赛 “巴斯克德比”中为捍卫荣耀而战贝壳第三季度营收226亿元 经调净利润17.8 亿元 同比下降17.46%AI营销,让科技巨头尝到了大模型商业化的甜头安恒信息范渊在乌镇峰会谈AI:以工具视之、以工具用之、以工具治理之诺基亚与微软再合作,为 Azure 数据中心供货延长五年天岳先进发布业界首款 300mm(12 英寸)N 型碳化硅衬底三星介绍内部安全团队 Project Infinity 攻防演练项目,高效修复 Galaxy 手机平板漏洞上海市将推进低空飞行服务管理能力建设,2027 年底前累计划设相应航线不少于 400 条岁末,海尔给您备好一套“小红花”为什么说Q10K Pro是今年最值得入手的电视?看完这几点就明白了!“小墨方·大不凡”!Brother“小墨方”系列彩喷一体机全新上市黄仁勋:AI智能需求强劲,“物理定律”限制英伟达芯片增长诺基亚与微软再合作,为Azure数据中心供货延长五年国家数据局:到2029年基本建成国家数据基础设施主体结构中国已发展成为全球最大的互联网市场,拥有全球最多的网民和移动互联网用户中国铁塔:计划按照10:1的比例合股美国FCC正式划定5.9GHz频段用于C-V2X技术在AI领域奋起直追!苹果要对Siri大革新 2026年正式发布日本机构公布量子专利榜单:本源量子、国盾量子位居全球第1中国联通:拟向华为、中兴展开5G网络设备竞争性谈判采购
  • AI生成视频,究竟有多癫狂?

    2024年07月18日 10:03:12   来源:亿欧网公众号

      最近,各路视频生成AI放出的Demo让人眼花缭乱。“容嬷嬷喂紫薇吃香肠”“唐僧啃鸡腿、吃汉堡”“尔康失态”等“名场面”在各大短视频平台广为流传。

      “刺激”的点在于,网友们无法预料一些经典的影视画面下一秒会衍生出什么剧情,也正因为如此,AI视频爆改在推出短短几周后,便迅速火遍了短视频平台。抖音上,相关话题“当AI扩图卷土重来”登上热榜,截至目前共有3.9亿次播放。

      AIGC犹如一根魔法棒,拥有无限的创造力。它可以根据指定的需求和样式,创作出文章、报告、音乐、图像、视频。值得一提的是,“玩梗”“二次创作”在短视频界一直被网友津津乐道,但强大的AI介入后,爆改内容与“真实”的距离相差甚远,甚至南辕北辙,有点像是打开了潘多拉魔盒。

      AI技术突飞猛进,成果让人应接不暇。回顾过去两年,AI圈频繁传出“炸裂”的消息。从ChatGPT发布到视频生成大模型Sora问世,都引发了科技界、产业界的广泛关注。Sora的出现更是推动了AIGC技术在全球范围的迈进。

      近期,快手的“可灵(Kling)”大模型成了AI界的当红炸子鸡。就在7月上旬的世界人工智能大会WAIC2024上, 可灵AI迎来第三次大的升级,发布了一系列新功能,在视频生成质感、美感、可玩性方面大大提升,带来了创作体验上的又一次跃升。可灵AI网页版上线后,申请的用户数量已超过70万。

      业内认为,AI大模型与全球生成式AI的行业生态和产业格局息息相关,可灵的出现,一石激起千层浪,以可灵为代表的视频生成大模型,早已突破“丰富创意库工具”层面的较量,转向了生产力工具的革新。

      爆火的“中国版Sora”

      2024年2月15日,大洋彼岸,OpenAI的AI生成式视频大模型Sora的到来,似乎让AI有了睁眼看世界的可能,一经发布便引起全球关注。

      Sora能用文字指令生成长达1分钟准确反映用户提示的视频,它可以创建包含多人、特定运动类型和详细背景的复杂场景。不仅能够呈现场景细节,还能生成具有丰富情感的角色。

      一位博主给Sora、Pika、Runway、Stable Video 四个模型输入了相同的 prompt:美丽、白雪皑皑的东京熙熙攘攘,镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天,在附近的摊位购物,绚丽的樱花花瓣随着雪花随风飘扬。可以看到,相比于其他三个视频生成模型,Sora 在生成时长、连贯性等方面都有显著的优势。

      业内几乎可以用“Sora前时代”和“Sora后时代”来描述“AI视频生成”这件事。

      “理解和模拟真实世界”,凭借这一点,Sora就彻底与AI视频赛道的Runway、Pika等公司拉开了一个段位。在Sora前时代,如Runway、Pika、Stable Video Diffusion等大量创业公司还在百家争鸣,而Sora到来后,这些公司遭到了降维打击,不得不去重新审视未来的发展之路了。

      Sora这款遥遥领先的模型出现后,业界猜测视频模型“大的要来了”,但数月过去,却迟迟未有对外开放体验的迹象,迫切想体验的用户们只能一等再等。

      而一向务实的快手,最近放出了“大杀器”——推出了一个视频生成大模型,堪称“中国版Sora”,并高调宣布:老铁,这回大的可能真来了。

      6月6日,快手发布AI视频模型可灵,发布当天,诸多业内人士获得邀请码进行了第一波测试。从业内的反馈以及可灵生成的视频样本来看,与Sora效果非常相近,在第一版五秒中的视频中,业内反馈无论技术路线,和训练数据质量都较为突出。可灵似乎做到了如Sora一般极度真实地还原物理规律,甚至概念组合能力和想象力都表现得较为优秀。

      上线半个月后,快手可灵大模型发布重磅更新:正式开放图生视频功能,支持将静态图像转化为5秒钟视频,用户可通过提示词文本控制图像中物体的运动;同时推出视频续写功能,支持对生成视频一键续写和连续多次续写,最长可生成约3分钟视频。

      直到最近,可灵又放出大招,发布了重磅新功能,包括Web端上线、画质提升、首尾帧和镜头控制功能加入,文生视频时长延长至10秒。

      在快手研究院执行院长蔡雄山看来,进一步做大做强国产文生视频大模型,可以充分发挥短视频直播行业的优势。“短视频直播生态具有应用场景多元、机制灵活、反应速度快等特点,天然适合大模型训练和应用场景布局。”蔡雄山说。

      快手在视频大模型领域厚积薄发,“国产Sora”成色几何?

      有博主给Sora和可灵输入了相同的文字,发现在视觉效果这一项上,Sora和可灵表现都较为优秀,二者视频生成的风格都更偏向模拟真实世界的场景。但在细节表现方面,Sora更胜一筹,比如对人物五官的刻画更细致,尤其是人在动态场景下,五官没有变形,几乎是相对静态的。关于连贯性和流畅度,Sora和可灵的画面都表现得较为连贯、流畅,但对复杂场景的描述,Sora表现更好。

      在不同场景的适配上,Sora的能力似乎更胜一筹。比如在对“云端上读书的年轻人”的画面生成上,可灵的贴图感更重,素材间的融合度不高。

      在应用场景上,可灵主要应用于短视频领域,如创意短视频、广告宣传片等。而Sora的应用场景则更加广泛,包括但不限于广告、市场营销、视频游戏开发等领域。

      虽然目前来看,可灵离Sora仍有一定距离,但在文生视频领域,能达到公测水平,同时还要有足够算力支撑公测的产品少之又少,目前技术层面快手显然已迅速跻身到行业内的领先集团之中。

      欲与Sora试比高

      Sora之后,除了如今爆火的可灵,其它视频生成大模型也在不断涌现。

      3月底,字节旗下Dreamina(即梦)内测视频生成功能;4月底,生数科技首个文生视频模型Vidu发布;还有Luma AI以及Runway迭代更新后的Gen-3Alpha等现象级爆款面世。

      即梦AI是字节旗下的一站式AIGC内容专业创作平台,支持文生视频和图生视频,提供智能画布、故事创作模式、以及首尾帧、对口型、运镜控制、速度控制等AI编辑功能。在今年6月上海国际电影节期间,抖音联合博纳影业出品制作的AIGC科幻短剧《三星堆:未来启示录》正式亮相。

      这部短剧的最大亮点就是纯AI制作,包括AIGC剧本创作、概念及分镜设计、图像到视频转换、视频编辑和媒体内容增强等十种AIGC技术,或将解锁传统影视公司与AIGC技术产品合作、发展的新路径。

      即梦AI发布后不久,4月27日,在2024中关村论坛上,生数科技联合清华大学发布中国首个长时长、高一致性、高动态性视频大模型——Vidu展示的效果立刻刷屏。

      据生数科技,Vidu支持一键生成16秒、1080P分辨率的视频内容。Vidu不仅能够模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点。

      初创公司Luma AI在6月12日发布了新的 AI 视频生成模型Dream Machine(造梦机器),并且面向公众开放测试。很快,不仅官方放出的一系列样片,社交网络上还出现了一大堆由网友通过“造梦机器”生成的视频。

      造梦机器不仅支持通过文本生成视频,也支持基于图片和文本生成视频,比如画作《戴珍珠耳环的少女》中跳出的少女。目前有人已经开始利用造梦机器创造“一日生活”的影像故事,比如美国中学生从早起到上学再到舞会的刻画。

      就在造梦机器发布后不久,著名生成式AI平台Runway在官网发布了全新文生视频模型——Gen-3Alpha。与Gen-2相比,Gen-3在生成视频的质量、色彩、饱和度、光影、文本语义还原、运镜、动作一致性、场景切换等实现大幅度提升。

      Gen-3和Sora、可灵、DreamMachine一样是个世界模型,具备模拟物理世界的能力。也就是说,其生成视频的物理效果,例如,下落、碰撞、触摸、风吹、生长、雨水等都非常逼真。

      7月2日,Runway宣布Gen-3Alpha向所有用户开放使用,每个月最少12美元才能使用。Gen-3一次性只能生成11秒的720P视频,也不会带任何背景音乐,有用户表示Gen-3的功能比Sora更好,并将再次改变文生视频赛道。

      毋庸置疑的是,AI视频正在不断进化,当下视频大模型的最大特点之一就是足够真实。Sora、可灵等大模型生成视频既符合物理规律,也能在物理逻辑上保持时间的连贯性。

      此外,AI生成视频长度的延长也是今年各个大模型最大的突破之一,之前Runway和Pika都只能生成出3-4秒的视频,无法满足长素材的需求。梳理目前已对外公布的大模型视频生成时长,其中Sora为60秒,Vidu为32秒,快手的可灵提供的视频续写功能,支持连续多次续写视频内容,在保证视频一致性的前提下,最长生成3分钟视频。

      目前视频大模型产品的输入方式更加多元化。用户不再局限于文生视频,而是可以选择图像、视频输入。比如,用户可以上传一张静态图,而视频大模型则会根据图片制作视频。

      影视行业何去何从?

      基于各大视频生成大模型的逐渐落地,AI视频的使用场景也在不断拓宽,未来会在更多场景看到AIGC内容,比如AIGC短剧。可以预见,未来在广告、影视内容方面,需要用到真人拍摄的机会可能会越来越少,影视行业的创作能力以及制作壁垒或面临巨大的挑战。

      工业化的影视制作几乎遵循着严格的流水线生产,剧本、摄影、演员、服装、化妆、灯光、特效等,不同工种、不同部门人员在不同平台使用复杂影视制作工具,完成对作品的精雕细琢。

      甚至前期剧本内容上,AI能根据需求实现高效生成海量影视剧本,可以短期解决编剧创意贫瘠的问题。而有了AI视频生成模型,制作者发出不同指令就能完成一部影视作品,这将大幅减少前后期制作团队人数,降低制作成本;或者在同等成本情况下,缩短制作周期。

      2月26日,中国首部文生视频AI系列动画片《千秋诗颂》在央视一套播出,总共26集,每集约7分钟,首次上线推出了《咏鹅》《春夜喜雨》等六集动画,聚焦国家统编语文教材200多首诗词。

      据介绍,在同等预算条件下,按照传统动画制作流程计算,《千秋诗颂》至少需要8个月时间,依托大模型后,制作周期缩短至4个月。目前,这项应用仍处于产研结合阶段,未来大模型研发成熟后,制作周期和动画精细度都会加速迭代升级。

      7月13日,国内首部AIGC原创奇幻微短剧《山海奇镜之劈波斩浪》上线快手,可灵大模型提供深度技术支持。

      据了解,《山海奇镜之劈波斩浪》从今年初开始筹备,直到5月才有了第一版成片,但受限于当时的技术,制作团队对呈现的效果并不满意,一直在反复修改。6月,快手可灵大模型发布,导演陈坤与可灵团队沟通后,对整部片子进行了重制,99%的镜头均由可灵生成。

      而就在7月初,抖音和博纳合作的首部AIGC科幻短剧《三星堆:未来启示录》上线,抖音视频大模型即梦提供技术支持。一周之内,抖音、快手相继上线AIGC短剧作品,且背后均有平台AI视频技术支持,为“AIGC短剧”打样的意图明显。

      值得注意的是,AIGC在影视行业的应用或将削弱明星效应。很长时间里,国内影视制作方片酬成本负担高,尤其是主角片酬占到总成本的一半甚至更高。AI生成视频模型或将取代原有影视作品中明星演员拍摄过程,制作团队或许只需要获得演员的肖像使用许可以及音频文件,即可通过AI模型完成影视作品的制作。

      AI模型助力CG特效的广泛运用,可能使观众更关注角色而非演员本身,同时特效的增加使得明星出演的需求也可能下降,明星效应受到一定程度影响。

      在此背景下,影视从业者应该要保持敏锐,无论是剧本创作、还是拍摄方面,从业者都要自我突破,全面拥抱 AI模型带来的各种可能性。站在积极的视角,正如Elon Musk所言:“AI增强的人类将在未来几年里创造出最好的作品。”

      2024上半年,科技圈风起云涌,不光是AI视频给影视娱乐业带来了前所未有的改变,在医疗、教育、电商、手机、金融、交通等领域,大模型也层出不穷,并在这些领域取得了显著进展和应用成果。这些大模型的应用不仅提高了各领域的智能化水平和服务质量,也为未来的科技发展和产业升级奠定了坚实基础。

      2024下半年,AI依然会是舞台的主角,更庞大的队伍将会高歌猛进,令人无限期待。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。