突破叙事尺度 刻画极致人物 迷雾剧场《漂白》1月17日上线爱奇艺1月20日手机数码国补落地京东 超千万国补商品等你挑选超千万货品已备足 1月20日来京东购手机享国家补贴每件最高500元拥抱创新科技,探寻体育变革之路—— 第二届LALIGA EXTRATIME体育行业论坛在京成功举办斑马技术《2025全球消费者调查报告》:注重防损管理,增强顾客体验终端创企Nothing拟募资1亿美元 一加联合创始人创立恩智浦获欧洲投资银行 10 亿欧元贷款,用于在欧多国研发创新工作入手松下ZS99相机新品首选京东 售价2998元可先人一步入手1月20日打开京东搜索「1」 3C数码“疯狂星期一”爆款低至1元当代年轻人用上AI,从夸克开始消息称iPhone SE 4将有白色和黑色 预计3月份推出全球PC市场迎来温和复苏:2024年出货量增长1.3%,联想和苹果表现亮眼比亚迪已在韩国推出Atto 3 预计2月中旬开始交付发展新质生产力 赋能健康产品力 ——劲牌有限公司2024年度科技责任(成果)报告美光减产后 SK海力士也计划将上半年NAND闪存产量削减一成赵明离职信曝光:离开荣耀是人生中最艰难的决定消息称京东服饰换帅,阿里前高管担任负责人这年头,谁在互联网上学这么“硬核”的AI?开战2025,本地生活商家「另辟蹊径」年底Mini LED电视到底怎么选?认准这些新技术不踩雷!
  • 首页 > 云计算频道 > 大模型

    腾讯与悉尼大学联手打造GPT4Video:显著提升大语言模型视频生成能力

    2023年12月07日 11:05:00   来源:站长之家

      在多模态大型语言模型(MLLMs)领域取得显著进展的同时,尽管在输入端多模态理解方面取得了显著进展,但在多模态内容生成领域仍存在明显的空白。为填补这一空白,腾讯人工智能实验室与悉尼大学联手推出了GPT4Video,这是一个统一的多模态框架,赋予大型语言模型(LLMs)独特的视频理解和生成能力。

      研究团队的主要贡献可以总结如下:

      1.引入了GPT4Video,这是一个多功能框架,为LLMs提供了视频理解和生成的能力。

      2. 提出了一种简单而有效的微调方法,旨在增强视频生成的安全性,成为常用RLHF方法的一种吸引人的替代方案。

      3. 释放数据集,以促进未来在多模态LLMs领域的研究。

      GPT4Video是对现有多模态大型语言模型(MLLMs)局限性的回应,尽管这些模型在处理多模态输入方面表现出色,但在生成多模态输出方面存在不足。GPT4Video的架构包括三个重要组件:

      1. **视频理解模块:** 利用视频特征提取器和视频摘要生成器,将视频信息编码并对齐到LLM的词嵌入空间。

      2. **LLM主体:** 借鉴LLaMA结构,采用参数高效微调(PEFT)方法,特别是LoRA,同时保留原始预训练参数。

      3. **视频生成组件:** 通过精心构建的指令跟踪数据集,使LLM生成模型库中模型的提示。

      团队首先利用冻结的ViT-L/14模型捕捉原始视频特征,然后使用视频抽象模块在时间和空间轴上压缩视频信息。GPT4Video的核心由冻结的LLaMA模型驱动,通过LoRA和自定义的视频中心化、安全对齐数据进行高效微调。这使其能够理解视频并生成适当的视频提示,随后用于从Textto-Video模型库中生成视频。

      在各种多模态基准测试中的实验结果,包括开放式问答、视频字幕和文本到视频生成,验证了GPT4Video的有效性和普适性。此外,GPT4Video展示了利用LLMs强大的上下文摘要和文本表达能力为视频生成详细提示的能力。

      GPT4Video通过整合先进的视频理解和生成功能,显著提升了大型语言模型的性能。其在多模态基准测试中表现出色进一步强调了其卓越性能。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。