自去年始,人工智能在60周年之际迎来了第三次浪潮,消费级爆发的征兆也开始逐渐显现。在无人驾驶、人机大战这些热门词之外,一些更加贴近消费端的技术已经实现了突破并逐渐走进实际应用场景,智能OCR技术就是值得关注的一个。近日,腾讯优图团队在国际权威的ICDAR 2015“Robust Reading Competition”的自然场景文本检测项目中,以优越的表现超越众多竞争对手,取得了排名第一的佳绩。与此同时,腾讯优图团队的OCR技术已经在越来越多地应用到实际的场景中,推动整个文本检测领域的消费应用升级。
关于ICDAR:即国际文档分析与识别大会(International Conference on Document Analysis and Recognition),是国际模式识别协会(IAPR)举办的文档分析与识别、模式识别领域世界上最权威的国际学术会议之一,每两年举办一次。
自然场景文本检测技术升级优图团队优化OCR技术应用
作为ICDAR 2015“Robust Reading Competition”比赛的重要组成部分,自然场景文本检测任务是将自然场景图像中的文本区域定位出来,为OCR技术的关键步骤。与传统OCR相比,自然场景文本检测更为复杂也更具有挑战性,如文本的多样性会受到不同的语言、字体、颜色、字形畸变、模糊断裂等现象的影响,还需要面临各种不确定性问题,如自然场景中与文字相似度极高的树叶纹理、窗格和复杂背景等。
腾讯优图能够在自然场景文本检测项目中取得第一名的佳绩,在于优图团队使用深度学习技术来构建OCR的文本检测和文本识别模型。一方面,分析和抽象出中英文文本的共性特征,在现有前沿CNN(卷积神经网络)技术基础上,设计更适合于文本检测和识别的网络模型,提升模型学习能力和泛化能力;另一方面,腾讯海量数据优势保证了训练样本的高质量和多样性。
图示:自然场景文本检测示例
OCR技术场景应用可观初现人工智能消费级拐点
与引发众议的人机大战、无人驾驶等人工智能热词相比,OCR技术在当前更贴近消费端需求,也已经实现了越来越多真实场景中的应用落地。
目前,优图团队的OCR技术已成功在名片识别、身份证识别、营业执照识别等项目中落地应用。另悉,优图全新版本的名片识别已完成内测即将上线,名片字段识别准确率达到90%以上,大幅领先其它竞品。此外,优图OCR技术还将广泛应用在广告图片文字识别、文档图片自动识别、各种单据证件识别等业务场景上,通过精准的自动文字识别来帮助各产品和业务提升效率、创造价值。
图示:名片识别示意图
随着人工智能时代的到来,智能文字识别也会是其中不可或缺的一环。据优图团队透露,未来团队将在OCR技术领域将持续投入,文本检测和识别技术会拓展更多语言支持、更复杂场景的支持、不断提升识别精度,还会结合的NLP语义分析来提升OCR的识别纠错能力。这些都将推动整个OCR技术在消费端的应用升级。除此之外,腾讯优图在人脸识别、图像理解和语音技术等多方面也都取得了领先的研究成果,并在QQ、QQ空间、微众银行、天天P图等产品中成功落地。
文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。
奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。
“以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。
华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。