2019国际大数据分析竞赛金山AI Lab团队摘得桂冠

2019年11月01日 13:51:51 来源：中文科技资讯

　　近日，金山AI Lab获得了计算机视觉界的顶级竞赛之一MS COCO Image Captioning以及IEEE特别发起的国际大数据分析竞赛(IEEE ISI World Cup 2019)双料冠军。

　　两大顶级赛事竞争激烈

　　MS COCO(Microsoft Common Objects in Context，常见物体图像识别)是计算机视觉领域最受关注和最权威的比赛之一，是图像(物体)识别方向最重要的标杆，也是目前国际领域唯一能够汇集谷歌、微软、Facebook 三大巨头以及国际顶尖院校共同参与的大赛。目前MS COCO 竞赛，共有物体检测 (Detection)、人体关键点检测 (Keypoints)、图像分割 (Stuff)、全景分割(Panoptic)和图像描述生成 (Captions) 五个类别的比赛任务，其中图像描述生成任务 (Captions)需要同时对图像与文本进行深度的理解与融合，相比其他任务更具有挑战性。包括腾讯、华为、Microsoft、中科院自动化所、北京大学、中国科学技术大学、UC Berkeley、Stanford University等企业、科研机构和高校，迄今共有 200 多支队伍参与了这项比赛。

　　而由IEEE(IEEE ISI安全信息学领域的旗舰会议)，特别发起的国际大数据分析竞赛(IEEE ISI World Cup 2019)同样竞争激烈，有来自中国、美国、巴基斯坦、英国、德国等7个国家的企业、高校共363支队伍，1001名选手参战。

　　金山AI Lab在图像描述、大数据分析两大领域表现不俗

　　金山AI Lab在大数据人工智能飞速发展的背景下成立。目前，金山AI Lab以NLP为核心，涵盖图像、文本、语音三大方向，主要研究内容分为知识图谱、机器翻译、内容推荐和智能校对等。研究项目主要分为两类，一类是专注于落地的项目，如机器翻译、智能校对等;另一类是专注于基础服务的项目，例如知识图谱，可以对这些直接落地的项目提供长期的辅助研究。这两项比赛取得的成功很好地证明了金山AI Lab在图像及大数据分析方面的实力。

　　MS COCO比赛中，金山AI Lab团队参与了挑战性最大的图像描述生成任务 (Captions)项目。图像描述生成(image caption)是使机器理解图像内容，并用人类语言描述其所理解的图像内容。图像描述生成(image caption)技术是一个结合计算机视觉与 NLP技术的多模态交叉研究领域，这个任务不仅仅需要理解图像，更需要理解自然语言，是深度学习处理多模态数据的一个重要任务。

　　金山AI Lab团队使用目前流行的Transformer模型，并针对图像信息利用不充分的问题提出了结合图像关键信息的keywords Transformer、利用动态卷积结构改进Transformer的解码端、提出了有效的多特征融合机制和多模型系统融合等技术，使生成的图像描述更准确、相关性更高、句子更流畅。结合WPS在办公场景下的优势，前述技术可以在公式识别、图像描述、图像检索等场景大显身手。

　　总体流程

　　#FormatImgID_3#

　　keywords transformer模型

Keywords_MIA Transformer模型

　　Keywords_MIA Transformer模型

　　在ISI World Cup竞赛中，金山AI Lab派出两支团队分别参加两个任务，一支队伍在M2中以44分夺得冠军，分数比其他队伍高了接近一倍，达到了参赛队伍中的领先水平，可以在生产环境中直接应用，解决企业痛点。在M2上面，金山AI Lab使用了递进优化的策略，对数据进行多层次的分类，避免了数据分布因极度不均衡而带来的训练失效问题。另一支队伍在M1中取得第五名。