近日,金山AI Lab获得了计算机视觉界的顶级竞赛之一MS COCO Image Captioning以及IEEE特别发起的国际大数据分析竞赛(IEEE ISI World Cup 2019)双料冠军。
两大顶级赛事竞争激烈
MS COCO(Microsoft Common Objects in Context,常见物体图像识别)是计算机视觉领域最受关注和最权威的比赛之一,是图像(物体)识别方向最重要的标杆,也是目前国际领域唯一能够汇集谷歌、微软、Facebook 三大巨头以及国际顶尖院校共同参与的大赛。目前MS COCO 竞赛,共有物体检测 (Detection)、人体关键点检测 (Keypoints)、图像分割 (Stuff)、全景分割(Panoptic)和图像描述生成 (Captions) 五个类别的比赛任务,其中图像描述生成任务 (Captions)需要同时对图像与文本进行深度的理解与融合,相比其他任务更具有挑战性。包括腾讯、华为、Microsoft、中科院自动化所、北京大学、中国科学技术大学、UC Berkeley、Stanford University等企业、科研机构和高校,迄今共有 200 多支队伍参与了这项比赛。
而由IEEE(IEEE ISI安全信息学领域的旗舰会议),特别发起的国际大数据分析竞赛(IEEE ISI World Cup 2019)同样竞争激烈,有来自中国、美国、巴基斯坦、英国、德国等7个国家的企业、高校共363支队伍,1001名选手参战。
金山AI Lab在图像描述、大数据分析两大领域表现不俗
金山AI Lab在大数据人工智能飞速发展的背景下成立。目前,金山AI Lab以NLP为核心,涵盖图像、文本、语音三大方向,主要研究内容分为知识图谱、机器翻译、内容推荐和智能校对等。研究项目主要分为两类,一类是专注于落地的项目,如机器翻译、智能校对等;另一类是专注于基础服务的项目,例如知识图谱,可以对这些直接落地的项目提供长期的辅助研究。这两项比赛取得的成功很好地证明了金山AI Lab在图像及大数据分析方面的实力。
MS COCO比赛中,金山AI Lab团队参与了挑战性最大的图像描述生成任务 (Captions)项目。图像描述生成(image caption)是使机器理解图像内容,并用人类语言描述其所理解的图像内容。图像描述生成(image caption)技术是一个结合计算机视觉与 NLP技术的多模态交叉研究领域,这个任务不仅仅需要理解图像,更需要理解自然语言,是深度学习处理多模态数据的一个重要任务。
金山AI Lab团队使用目前流行的Transformer模型,并针对图像信息利用不充分的问题提出了结合图像关键信息的keywords Transformer、利用动态卷积结构改进Transformer的解码端、提出了有效的多特征融合机制和多模型系统融合等技术,使生成的图像描述更准确、相关性更高、句子更流畅。结合WPS在办公场景下的优势,前述技术可以在公式识别、图像描述、图像检索等场景大显身手。
总体流程
#FormatImgID_3#
keywords transformer模型
Keywords_MIA Transformer模型
在ISI World Cup竞赛中,金山AI Lab派出两支团队分别参加两个任务,一支队伍在M2中以44分夺得冠军,分数比其他队伍高了接近一倍,达到了参赛队伍中的领先水平,可以在生产环境中直接应用,解决企业痛点。在M2上面,金山AI Lab使用了递进优化的策略,对数据进行多层次的分类,避免了数据分布因极度不均衡而带来的训练失效问题。另一支队伍在M1中取得第五名。
文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。
奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。
“以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。
华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。