腾讯与悉尼大学联手打造GPT4Video:显著提升大语言模型视频生成能力

2023年12月07日 11:05:00 来源：站长之家

　　在多模态大型语言模型(MLLMs)领域取得显著进展的同时，尽管在输入端多模态理解方面取得了显著进展，但在多模态内容生成领域仍存在明显的空白。为填补这一空白，腾讯人工智能实验室与悉尼大学联手推出了GPT4Video，这是一个统一的多模态框架，赋予大型语言模型(LLMs)独特的视频理解和生成能力。

　　研究团队的主要贡献可以总结如下:

　　1.引入了GPT4Video，这是一个多功能框架，为LLMs提供了视频理解和生成的能力。

　　2. 提出了一种简单而有效的微调方法，旨在增强视频生成的安全性，成为常用RLHF方法的一种吸引人的替代方案。

　　3. 释放数据集，以促进未来在多模态LLMs领域的研究。

　　GPT4Video是对现有多模态大型语言模型(MLLMs)局限性的回应，尽管这些模型在处理多模态输入方面表现出色，但在生成多模态输出方面存在不足。GPT4Video的架构包括三个重要组件:

　　1. **视频理解模块:** 利用视频特征提取器和视频摘要生成器，将视频信息编码并对齐到LLM的词嵌入空间。

　　2. **LLM主体:** 借鉴LLaMA结构，采用参数高效微调(PEFT)方法，特别是LoRA，同时保留原始预训练参数。

　　3. **视频生成组件:** 通过精心构建的指令跟踪数据集，使LLM生成模型库中模型的提示。

　　团队首先利用冻结的ViT-L/14模型捕捉原始视频特征，然后使用视频抽象模块在时间和空间轴上压缩视频信息。GPT4Video的核心由冻结的LLaMA模型驱动，通过LoRA和自定义的视频中心化、安全对齐数据进行高效微调。这使其能够理解视频并生成适当的视频提示，随后用于从Textto-Video模型库中生成视频。

　　在各种多模态基准测试中的实验结果，包括开放式问答、视频字幕和文本到视频生成，验证了GPT4Video的有效性和普适性。此外，GPT4Video展示了利用LLMs强大的上下文摘要和文本表达能力为视频生成详细提示的能力。

　　GPT4Video通过整合先进的视频理解和生成功能，显著提升了大型语言模型的性能。其在多模态基准测试中表现出色进一步强调了其卓越性能。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

[No. ]
分享到微信