• 首页 > 产经新闻频道 > 业界新闻

    通用物体级基础模型GLEE:增强图像和视频分析

    2023年12月18日 10:27:39   来源:站长之家

      近日,来自华中科技大学、字节跳动和约翰斯·霍普金斯大学的研究人员推出了一款名为GLEE的全新通用物体级别基础模型,为图像和视频分析带来了全新的可能性。这一技术突破依赖深度学习的神奇,使计算机视觉系统能够像虚拟侦探一样,在数字体验的画布上识别、跟踪和理解各种物体。

    1.jpg

      GLEE的独特之处在于其卓越的通用性,无需特定任务的适应即可在各种任务中定位和识别物体。该模型集成了图像编码器、文本编码器和视觉提示器,用于多模态输入处理和广义物体表示预测。通过在Objects365、COCO和Visual Genome等多样化的数据集上进行训练,GLEE采用统一框架,涵盖检测、分割、跟踪、定位和识别开放场景中的对象。

      GLEE通过使用动态类头的MaskDINO以及相似性计算进行预测的对象解码器,经过目标检测和实例分割的预训练,联合训练实现了在各种图像和视频任务中的最先进性能。不仅如此,GLEE还展现了卓越的灵活性和强大的泛化能力,有效应对各种下游任务,无需特定任务的适应。

      该模型在对象检测、实例分割、定位、多目标跟踪、视频实例分割、视频对象分割以及交互式分割和跟踪等各种图像和视频任务中均表现卓越。甚至在与其他模型集成时,GLEE仍保持着最先进性能,展示了其表示的多样性和有效性。

      除了在技术上的突破,GLEE在零样本泛化方面也取得了显著进展,通过整合大量自动标记的数据进一步提升了模型的性能。作为一种基础模型,GLEE为当前视觉基础模型的局限性提供了创新性的解决方案,提供准确而通用的物体级信息。

      研究的未来方向聚焦在扩展GLEE在处理复杂场景和具有长尾分布的挑战性数据集方面的能力上,以提高其适应性。此外,研究人员还探索了在训练过程中使用广泛的图像-标题对,类似于DALL-E模型,从而提高GLEE生成详细图像内容的潜力。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    TCL实业荣获IFA2024多项大奖,展示全球科技创新力量

    近日,德国柏林国际电子消费品展览会(IFA2024)隆重举办。凭借在核心技术、产品设计及应用方面的创新变革,全球领先的智能终端企业TCL实业成功斩获两项“IFA全球产品设计创新大奖”金奖,有力证明了其在全球市场的强大影响力。

    新闻

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    “纯臻4K 视界焕新”——爱普生4K 3LCD 激光工程投影

    2024年3月12日,由爱普生举办的主题为“纯臻4K 视界焕新”新品发布会在上海盛大举行。

    研究

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。