提起科大讯飞,人们总津津乐道于“让机器能听会说”的先进智能语音技术。其实除此之外,科大讯飞的“攻城狮们”也一直致力于让机器“能看会认”。
近日,科大讯飞A.I.研究院联合中科大语音及语言信息处理国家工程实验室,以显著优势获得ICFHR 2020 OffRaSHME数学公式识别挑战赛冠军。这是科大讯飞继ICPR 2018 MTWI图文识别挑战赛上获得三项冠军、ICDAR 2019 CROHME数学公式识别挑战赛上获得两项冠军后,在复杂版面文档图像识别理解方向上所取得的又一佳绩,再次展现科大讯飞在相关领域的技术先进性。
离线手写数学公式识别(官方数据)榜单
离线手写数学公式识别(外源数据)榜单
备注:“Correct”表示公式识别的句正确率,“”和分别表示整条公式中允许出现1处和2处错误的识别的句正确率
技术顶天,掌握图文识别“金字塔”级别难题“解法”
此次OffRaSHME(Offline Recognition and Spotting of Handwritten Mathematical Expressions)数学公式识别挑战赛由ICFHR 2020(International Conference on Frontiers of Handwriting Recognition)举办,参赛队伍包括韩国三星、东京农工大学、华南理工大学、中山大学等多家常年深耕文档分析理解领域的研究机构。
相比于常规的图文识别,对数学公式的识别难度和技术挑战往往更高。本次OffRaSHME官方比赛任务为“离线手写数学公式识别”,该任务相比ICDAR 2019 CROHME的离线手写公式识别任务,难度再度升级,有以下三大难点:
公式结构复杂,尤其是各种结构的嵌套:
难以辨别的形近字符,如X和x,Z和2,和r:
本次比赛添加了很多非常规符号的组合,容易和公式混淆:
难度虽高,但这样的任务对于科大讯飞来说并不算陌生。
基于在手写数学公式识别领域深耕多年的技术积累,科大讯飞从基于上下文无关文法的传统数学公式方法到创新性地提出基于LaTeX建模的Encoder-Decoder识别算法,其中,LaTeX作为最常用的数学公式表达之一,研究人员将数学公式识别问题看作图像到LaTeX序列的翻译问题,借助注意力机制实现更精准的端到端识别能力,该方案在2019 CROHME中一举打败了常年占据CROHME冠军地位的MyScript。
而针对数学公式识别中最难的复杂结构嵌套问题,科大讯飞提出了基于树形结构信息建模的Encoder-Decoder识别算法,这种算法在复杂公式结构嵌套上更具泛化能力。针对形近符号区分难度大的问题,科大讯飞提出使用基于LaTeX语言模型的数据增强策略,利用数学公式的树形结构表达,合理地拆分分解数学公式,并利用这些公式训练LaTeX语言模型,最后使用语言模型增强出合理的、符合上下文语义关联的数据,该策略可以很大程度上缓解形近符号识别困难的问题。
通过以上多项技术能力的综合运用,此次科大讯飞以显著优势拿下了此次任务难度极高的数学公式识别挑战赛冠军,证明了其在数学公式识别领域的技术先进性;在实际应用中,学生作业试卷文档存在版面结构复杂、书写风格差异显著等难点问题,这一系统将为其提供更为丰富有效的解决方案。
通过多项技术能力的综合运用,在“能看会认”上,科大讯飞做得更好了!不仅能识别更复杂的数学公式,还能做到“中文+数学公式”混合搭配的内容识别,此后将在更多A.I.产品中应用。
https://v.qq.com/x/page/s3080uld0xk.html
应用立地,打造“能看会认”的A.I.产品
在数学公式识别比赛之外,近期科大讯飞还在另一项自然场景的文字检测分割识别的相关技术成果在ICDAR ReCTS(Reading Challenge on Reading Chinese Text on Signboard)评测任务取得显著突破,刷新单字识别、文本行识别、文本行检测和端到端识别全部四项榜单世界记录,使得系统在解决复杂场景下文字检测和识别的难题中更为游刃有余。
这些成绩并非一簇而就。
事实上,科大讯飞在图文识别领域已有多年核心技术积累,拥有自主知识产权,并伴随着每次技术迭代,产品都迎来大规模更新升级,更好满足用户在多个场景下使用需求。
2015年,轻量级的卷积神经网络首次在手机设备上使用,使得在线手写字符识别任务上取得突破性进展。依托此项技术,讯飞输入法用户手写输入体验感显著提升。
2016年,CNN-HMM框架在文本行识别任务中得到成功应用,该套系统无需进行文本行切分等规则化的复杂版面分析,有效避免切分带来的错误,使得篇章级的中、英文手写文档识别效果达到人工相当水平。依托此项技术,科大讯飞智能辅助评卷系统能够对语文作文、英语作文、英语翻译、数学填空、英语填空等题型进行辅助评卷,应用全国多省市的中高考,累计处理题卡数量过亿张。
2018年,基于注意力机制的Encoder-Decoder模型在自然场景文字识别任务上大放异彩,融合语言模型进行端到端训练,使得拍照模糊的文字也能通过语言模型“联想”而被正确识别。依托此项技术,在讯飞翻译机中,对复杂场景下的多种字体也能一拍即译,让拍照翻译更清晰更准确,能够满足更多消费者在国外旅游、购物的场景应用需求。
今年,在数学公式识别任务的诸多关键技术上继续突破,相关核心技术也将应用在讯飞智能学习机等产品中,帮助用户精确地进行大数据学情分析,找到知识点的薄弱项,实现“个性化精准学”,帮助广大同学提升学习效率、巩固学习效果。
在技术应用的过程中,手写图文识别也与智能语音等关键技术深度融合,让大家切实感受到技术进步带来的高效、便利性。如“出口成章,跃然纸上”的讯飞智能办公本,可以实现语音直接搜索手写笔记内容,“一句话找到手写笔记”,满足用户在更多笔记场景下的记录、写作、搜索、多端同步需求,有效提高办公效率。
在即将到来的618年中大促中,还有更多产品将和大家见面,大家可以进一步、零距离体验这些新技术。
坚守人工智能道路21年,科大讯飞不断攀越技术高峰,在智能语音、计算机视觉、自然语言理解等技术领域摘得一项又一项桂冠,但这并不是终点。科大讯飞将始终秉承“顶天立地”的技术信仰,打造一件件“能听会说”、“能看会认”、“能理解会思考”的人工智能产品,用人工智能点亮人间烟火。
文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。
奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。
“以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。
华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。