北大清华等联合发布 LLaVA-o1：首个自发性视觉 AI 模型，推理计算 Scaling 新思路

2024年11月19日 18:07:54 来源：IT之家

　　由北京大学、清华大学、鹏城实验室、阿里巴巴达摩院以及理海大学(Lehigh University)组成的研究团队，最新推出了 LLaVA-o1，这是首个具备自发性（Spontaneous，具体解释可参考文末）、类似于 GPT-o1 的系统性推理视觉语言模型。

　　UP 主：唐国梁 Tommy

　　LLaVA-o1 是一种新型的视觉语言模型(VLM)，其设计目标是进行自主的多阶段推理。

　　LLaVA-o1 拥有 110 亿个参数，基于 Llama-3.2-Vision-Instruct 模型开发，设计了总结(summary)、描述(caption)、推理(reasoning)和结论(conclusion)4 个推理阶段。

　　该模型使用名为 LLaVA-o1-100k 的数据集进行微调，该数据集源自视觉问答(VQA)来源和由 GPT-4o 生成的结构化推理注释。

　　LLaVA-o1 采用了阶段级束搜索(stage-level beam search)的推理时间 Scaling 技术，能够在每个推理阶段生成多个候选答案，并选取最佳答案。

　　该模型在处理复杂任务时具备较强的能力，在复杂视觉问答任务中，可以突破传统视觉语言模型的局限性。

　　与基础模型相比，LLaVA-o1 在多模态推理基准测试中提高了 8.9% 的性能，超过了许多大型和闭源的竞争对手。

　　LLaVA-o1 的推出填补了文本和视觉问答模型之间的重要空白，在多个基准测试中的优异表现，特别是在数学和科学视觉问题的推理领域，展示了结构化推理在视觉语言模型中的重要性。

　　自发性人工智能(Spontaneous AI)是指能够模拟动物自发行为的人工智能系统。这种技术的研究主要集中在如何通过机器学习和复杂的时间模式设计出具有自发行为的机器人或智能系统。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

即时

第十四代英特尔® 酷睿™ 处理器(代号Raptor Lake S Refresh)采用了先进的Intel 7制程工艺。

奥维云网(AVC)推总数据显示，2024年1-9月明火炊具线上零售额94.2亿元，同比增加3.1%，其中抖音渠道表现优异，同比有14%的涨幅，传统电商略有下滑，同比降低2.3%。

“以前都要去窗口办，一套流程下来都要半个月了，现在方便多了!”打开“重庆公积金”微信小程序，按照提示流程提交相关材料，仅几秒钟，重庆市民曾某的账户就打进了21600元。

华硕ProArt创艺27 Pro PA279CRV显示器，凭借其优秀的性能配置和精准的色彩呈现能力，为您的创作工作带来实质性的帮助，双十一期间低至2799元，性价比很高，简直是创作者们的首选。

9月14日，2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。