• 首页 > 延展阅读 > 2016归档

    百度 NLP:先解决语义理解,再谈机器翻译取代人类

    2016年12月06日 13:44:27   来源:机器之心

      机器之心:NMT(基于神经网络的翻译系统)效果就真的好于 SMT(基于统计的翻译系统)吗?或者说他会在哪个方面会好于 SMT 呢?

      答:机器翻译目前是两大流派,一大流派是统计翻译模型(SMT),在整个业界已经持续了 20 多年的研究。另一个就是基于神经网络的翻译模型(NMT),过去的两年发展比较迅速。

      从很多公开的评测上能看出,基于神经网络的翻译系统已经取得了比以前系统更好的成绩。这两大翻译系统我们一直在向前推进研究。总体上来说,基于神经网络的翻译系统,在长句翻译上有明显优势。

      机器之心:可以从技术角度具体解释下吗?

      答:从整体看,在数据训练比较充分,比如有大数据集的时候,NMT 效果是好于 SMT 的。一句英文翻译成一句中文,这算一个句对。如果中文和英文之间的双语语料对有很多,那么 NMT 整体上好于 SMT。

      原因就在于,SMT 以前用的都是局部信息,处理单位是句子切开以后的短语,最后解码时将几个短语联系在一起,并没有充分利用全局信息。NMT 则利用全局信息,整个句子的信息解码后,才生成结果。这就是它的优势,也是其在流畅性上更胜一筹的原因。

      再进一步,翻译有一个很重要部分是「语序调整」。比如中文会把所有的定语都放在中心词前面,英文则会把修饰中心词的介词短语放在后面,机器常混淆这个顺序。NMT 在语序学习上的优势也带来了它翻译的流畅性。

      而 SMT 在短句或者数据较小的情况下,优势较为明显。以成语翻译为例,实际上不是意译而是直译,必须在语料库中有对应内容才能翻译出来。NMT 的翻译过程决定了其有时不能很好的处理这类问题。

      如今互联网用户的需求是多种多样的。翻译涉及口语、简历、新闻等多领域,一种方法很难满足所有的需求。因此现在百度的翻译系统中包含了 SMT、NMT,甚至还有传统的 EBMT。所以,一个线上服务的翻译系统,其实是综合的系统。

      不过从整个大趋势看,随着神经网络技术的进一步发展,它会越来越成为主流。目前在我们的中、英、日、韩等多个系统中,它就是主流。

      机器之心:那么能否通过不断增加网络层数来提升 NMT 效果?

      答:在网络层数的增加过程中,成本、复杂度也随之提升。并不是线性地增加网络层数,收益比就更高,我们会去继续研究,但并不代表不断增加层数就一定是好方法。

      就翻译本身这个任务,现在有两大问题造成翻译效果不好。一是在于,训练语料本身是有噪音的,我们花费了大量时间和精力研究怎样找到更好的训练语料,怎样清洗出更好的语料。第二个是模型本身的不完美性,我们会不断优化。这两大方面的工作都是我们的重点。

      获取数据与解决语料稀疏问题

      机器之心:刚才有提到 NMT 是非常依赖数据规模的,以及训练语料中的噪音问题,如何获得高质量的训练数据?

      答:我们能获取的语料很多,比如网络上存在的大量翻译句对,但这些数据存在三个问题。

      第一个在于它们可能是机器翻译产生的语料。因为机器翻译技术已经比较普及,尤其是医疗方面有大量的机器翻译产生的语料。由于国外的医疗研究比国内先进,很多人会借助机器翻译技术来看文档。而这种语料若进入语料库,翻译系统学出来的还是机器翻译的句子。

      第二种噪声是来自于恶搞。比如我们最早的时候看到「how old are you」,翻译成「怎么老是你」。因为语料里面「how old are you」,全是「怎么老是你」,出现频次非常高。

      第三种是翻译得不地道的。互联网上翻译内容的人不一定是翻译水平很高的人,他们在翻译文章时会自己加入一些内容。这种是比较难识别的,因为很零散。

      针对每一类噪声,我们都会建立一个不同的质量检测模型,结合了翻译自身的技术以及互联网技术。机器翻译的语料是不能用机器翻译的概率特征过滤的,比如「how old are you」每个对齐,怎么(how)老(old)是(are)你(you),翻译得特别完美肯定无法过滤。所以我们一般从网站本身的权威性着手,对于权威性低的,相应高置信度就要打低。此外,我们还通过识别翻译特征判断其是否为机器翻译语料,比如:流畅性不好、语序不对等等。

      机器之心:不同语言的语料规模的差别较大,英语可能会多一些,小语种会少一些。如何将 NMT 的研究成果,应用于不同语言语料的构建中?

      答:这其实是语料稀疏问题。语料稀疏是 NLP 一直在面对的问题,以前有一些解决方案,比如说: Transfer Learning(转移性学习)、机器翻译的 Pivot-Language(枢轴语言)技术、标签传播等技术。从一种语言翻译到另外一种语言,即使同一种语言在不同领域的语料也是不一样的,从这个领域迁移到另外一个领域,都需要解决语料的构建问题。

      NMT 是可以应用于此的,因为 NMT 本质是把一种语言翻译成另外一种语言。它的好处在于,不同语言之间可以互相学习他们的语义表示,比如中文的「看」,和英文的「See」(看见)或者「Read」(看书)。以相似度来计算,相似度高的就认为它们拥有同样的语义,可以用在不同语言的标注上。

      用来解决语料稀疏问题的多任务学习框架,来自《Multi-Task Learning for Multiple Language Translation》

      这样说可能有些抽象,举例来说我们去年在 NLP 领域国际会议 ACL 上发表了一篇文章,讲述用 NMT 解决语料稀疏的问题。中文和英文之间的句对很多,但中文和其他语言如日文、泰文、西班牙文的句对就很少。怎么办?我们同时学习。中文翻译成英文、日文、韩文、泰语的句对都一起学习,这样就能充分利用中文在源语言端的表示。此外,还学习关联知识,韩语-日语之间结构类似,从日语中学习到的结构性信息适用于韩语翻译。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    [编号: ]
    分享到微信

    即时探行数字人注册免费试用

    华为Pura70 系列不怕丢!云空间实现楼层级设备查找

    华为 Pura70 系列突然先锋开售,你抢到了吗?对于这次的新机来说,除了一如既往的优雅设计和强悍的硬件配置外,我们更为关注的则是其全球首发的「楼层级设备查找」功能,软实力也可以很硬核!

    新闻探行AI智能外呼系统 节省80%人力成本

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT探行AI客服 24小时无休机器人接待

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    研究探行AI整体解决方案 全国招募代理

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。