清华大学与智谱AI合作开发的CogVLM-17B是一款国产多模态模型,具有卓越的性能。该模型不仅可以识别图像中的对象,还能分辨完整可见和部分可见的物体。
CogVLM-17B已经在10项权威跨模态基准上取得了SOTA(State-of-the-Art)性能,并在多个领域超越了谷歌的模型。它被形象地称为“14边形战士”,展现了其多模态处理的出色能力。
试玩地址:
https://36.103.203.44:7861
开源及论文地址:
https://github.com/THUDM/CogVLM
CogVLM-17B采用了独特的深度融合方法,通过四个关键组件实现了图像特征和文本特征的深度对齐。这些组件包括ViT编码器、MLP适配器、大型预训练语言模型以及视觉专家模块。与传统的浅层对齐方法相比,CogVLM-17B的深度融合方法提高了性能,同时避免了微调语言模型的全部参数可能损害NLP任务性能的问题。
CogVLM-17B在视觉问题解决方面表现出色,包括识别复杂场景中的对象、回答关于图像内容的问题、解决带图的编程题等。
此外,它还展示了出色的文字识别能力,尽管没有专门的OCR数据进行训练。CogVLM-17B已经开源,并提供了在线试玩,虽然目前仅支持英文,但计划在未来提供中英双语版本。
这款国产多模态模型的出现,不仅丰富了多模态领域的技术研究,还为各种视觉问题的解决提供了强大的工具。其深度融合方法的创新性标志着多模态模型训练范式的改变,为未来的研究和应用提供了新的思路和可能性。
文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。
近日,德国柏林国际电子消费品展览会(IFA2024)隆重举办。凭借在核心技术、产品设计及应用方面的创新变革,全球领先的智能终端企业TCL实业成功斩获两项“IFA全球产品设计创新大奖”金奖,有力证明了其在全球市场的强大影响力。
近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。
“以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。
由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。