毕尔巴鄂对阵皇家社会:两支近邻球队将于西甲联赛 “巴斯克德比”中为捍卫荣耀而战贝壳第三季度营收226亿元 经调净利润17.8 亿元 同比下降17.46%AI营销,让科技巨头尝到了大模型商业化的甜头安恒信息范渊在乌镇峰会谈AI:以工具视之、以工具用之、以工具治理之诺基亚与微软再合作,为 Azure 数据中心供货延长五年天岳先进发布业界首款 300mm(12 英寸)N 型碳化硅衬底三星介绍内部安全团队 Project Infinity 攻防演练项目,高效修复 Galaxy 手机平板漏洞上海市将推进低空飞行服务管理能力建设,2027 年底前累计划设相应航线不少于 400 条岁末,海尔给您备好一套“小红花”为什么说Q10K Pro是今年最值得入手的电视?看完这几点就明白了!“小墨方·大不凡”!Brother“小墨方”系列彩喷一体机全新上市黄仁勋:AI智能需求强劲,“物理定律”限制英伟达芯片增长诺基亚与微软再合作,为Azure数据中心供货延长五年国家数据局:到2029年基本建成国家数据基础设施主体结构中国已发展成为全球最大的互联网市场,拥有全球最多的网民和移动互联网用户中国铁塔:计划按照10:1的比例合股美国FCC正式划定5.9GHz频段用于C-V2X技术在AI领域奋起直追!苹果要对Siri大革新 2026年正式发布日本机构公布量子专利榜单:本源量子、国盾量子位居全球第1中国联通:拟向华为、中兴展开5G网络设备竞争性谈判采购
  • 首页 > 云计算频道 > 大模型

    上交复旦等发布Alpha-CLIP:同时保持全图+局部检测能力

    2023年12月13日 18:32:43   来源:微信公众号 新智元

      本文来自于微信公众号 新智元(ID:AI_era),作者:新智元。

      【新智元导读】本文介绍了一个名为Alph-CLIP的框架,它在原始的接受RGB三通道输入的CLIP模型的上额外增加了一个alpha通道。在千万量级的RGBA-region的图像文本对上进行训练后,Alpha-CLIP可以在保证CLIP原始感知能力的前提下,关注到任意指定区域。通过替换原始CLIP的应用场景,Alpha-CLIP在图像识别、视觉-语言大模型、2D乃至3D生成领域都展现出强大作用。

      CLIP是目前最流行的视觉基座模型,其应用场景包括但不限于:

      与LLM大语言模型结合成为视觉多模态大模型;

      作为图像生成(Stable Diffusion)、点云生成(Point-E)的condition model,实现image-to-3D;

      用于指导NeRF的优化方向从而实现text-to-3D;

      本身用于开放类别的识别和检测。

      但CLIP必须以整张图片作为输入并进行特征提取,无法关注到指定的任意区域,不过自然的2D图片中往往包含不同的物体,part和thing,如果能由用户或检测模型指定需要关注的区域,在图像编码的过程就确定需要关注的对象,将会提升CLIP模型的可控制性和区域检测能力。

      为此,上海交通大学、复旦大学、香港中文大学、澳门大学等机构的学者们提出了Alpha-CLIP模型,在原始CLIP模型的RGB三个通道的基础上额外引入了第四个alpha通道来决定需要关注的区域。

      通过构造千万量级的「RGBA四通道图片-文本对」对Alpha-CLIP进行训练,Alpha-CLIP不仅在ImageNet上保持了原始的全图检测能力,还能对用户指定的任意区域进行highlight关注。下面分别介绍Alpha-CLIP的应用场景。

      图像分类

      如图所示,对于ImagNet的一张图片,研究人员可以通过alpha-map控制CLIP去关注鱼或渔夫。

      以ImageNet的Zero-Shot Classification作为评价指标,研究人员验证了在对全图进行识别时,Alpha-CLIP可以保持原本CLIP的分类准确率。

      进一步地,在给出了需要关注区域的长方形box或者mask时,Alpha-CLIP可以进一步提升分类准确率。

      与LLM大语言模型的结合

      将主流的LLaVA-1.5中的CLIP基座模型替换为Alpha-CLIP,用户可以通过简单地用画笔标记处需要关注的区域,从而进行指定区域的对话交互。

      在定量实验方面,研究人员通过LLaVA测试了MLLM的region caption能力。通过在RefCOCO和VG上分别进行finetune,取得了SOTA的region caption分数。

      与Stable Diffusion的结合

      Stable-Diffusion是目前主流的2D图片生成模型,其Image Variation版本可以实现「图生图」,其中图片的编码器也是CLIP模型。通过将该模型替换为Alpha-CLIP,可以实现更复杂图片中指定物体的生成(同时较好地保留背景)。

      如上图所示,使用原始的CLIP会生成同时具有狮子和老虎特征的「狮虎兽」,而Alpha-CLIP能够很好地区分两个物体,从而指导Stable Diffusion模型生成更专一的图片。

      与Point-E的结合

      Point-E是Open-AI开源的一个支持Image-to-3D和text-to-3D的点云diffusion模型,通过将它的Image编码器从原始的CLIP替换为Alpha-CLIP。

      可以支持用户对任意区域进行关注,从而恢复丢失的「表针」和「盾牌的十字架」。

      Attention Map可视化

      本工作对Alpha-CLIP的注意力进行可视化,以检查Alpha-CLIP是否更加关注用户定义alpha-map。

      通过检查视觉编码器中最后一个Transformer块中[CLS] token的注意力图。可视化采用了具有16个注意头的ViT-L/14模型。

      为了进行公正比较,使用第5和第16个注意头的注意力图进行可视化,因为我们发现在这16个头中,这两个特征图最为明显。

      结果如下图所示。这种可视化验证了Alpha-CLIP更加关注要聚焦的区域,更重要的是,它在保留原始CLIP特征位置的二维位置信息时没有造成损害。

      结论

      本文介绍的这项工作提出了Alpha-CLIP模型,该模型引入了一个额外的alpha通道,用于指定感兴趣的区域。

      通过对数百万个RGBA区域-文本对进行训练,Alpha-CLIP不仅表现出卓越的区域关注能力,而且确保其输出空间与原始的CLIP模型保持一致。这种一致性使得Alpha-CLIP在CLIP的各种下游应用中能够轻松替代,无缝衔接。

      研究人员证明了当提供特定关注的区域时,Alpha-CLIP展现出了更强大的Zero-Shot识别能力,并验证了它在许多下游任务中的有用性。CLIP的应用远远超出了本文的范围。研究人员希望在前景区域或mask较容易获得时,Alpha-CLIP将能够在更多场景中得到应用。

      虽然Alpha-CLIP在需要关注区域的各种场景中表现出有效的性能,但目前的结构和训练过程限制了其专注于多个对象或建模不同对象之间关系的能力。

      此外,当前的训练方法限制了alpha通道在中间值之外的泛化(只能接受0,1两个值),因此用户无法指定注意力的幅度。

      另一个限制同时存在于Alpha-CLIP和原始CLIP中,即纯Transformer结构的编码器分辨率较低,这阻碍了Alpha-CLIP识别小物体并进行关注。

      研究人员计划在未来的工作中解决这些限制并扩展CLIP的输入分辨率,相信这些未来的方向是增强Alpha-CLIP能力并在各种下游任务中扩展其实用性的途径。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。