河北都市网
河北都市网 > 文化 > 正文

一文看懂我国机器翻译发展情况及BAT、科大讯飞等机器翻译格局分析

导读: 

中商情报网讯:随着经济全球化及互联网的飞速发展,机器翻译技术在促进政治、经济、文化交流等方面起到越来越重要的作用。机器翻译,又称为自动翻译,是利用计算机将一种自然语言转换为另一种自然语言的过程。

中商情报网讯:随着经济全球化及互联网的飞速发展,机器翻译技术在促进政治、经济、文化交流等方面起到越来越重要的作用。机器翻译,又称为自动翻译,是利用计算机将一种自然语言转换为另一种自然语言的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。机器翻译相较于人工翻译具有三个明显的优势:成本低、易把控以及翻译速度快。

机器翻译技术的发展一直与计算机技术、信息论、语言学等学科的发展紧密相随。从早期的词典匹配,到词典结合语言学专家知识的规则翻译,再到基于语料库的统计机器翻译,随着计算机计算能力的提升和多语言信息的爆发式增长,机器翻译技术逐渐走出象牙塔,开始为普通用户提供实时便捷的翻译服务。

机器翻译的发展历程

资料来源:中商产业研究院整理

机器翻译的应用

在具体应用上一般分为三种,分别是:词典翻译软件、计算机辅助翻译软件和机器翻译软件。

第一种是最基本的网络查词翻译,查询对象一般为单个的字词、简单的词组或者是固定结构。

第二种为计算机辅助翻译,其原理为利用计算机的记忆功能将译者之前翻译的资料进行整理,以便为之后出现的类似翻译提供便利条件。CAT软件产业已经比较成熟,例如GoogleTranslatorTolkit、MicrosoftLocStudio等,Trados占有国际计算机辅助翻译软件产业绝大多数的市场份额,微软、西门子等国际大公司都是它的用户。

第三种是机器翻译软件,即MT。其原理为应用计算机按照一定规则把一种自然语言转换为另一种目标自然语言。此过程一般指自然语言之间句子和段落等的翻译,大部分见诸于世的翻译软件,如谷歌翻译、金山词霸和有道翻译等均属于机器翻译软件。

机器翻译的企业格局

近年来随着人工智能的发展,机器翻译技术也越发成熟。各大BAT等公司相继推出自己的翻译系统,以及一些新兴的高新技术企业共同构成了我国机器翻译的竞争格局,下面一起来了解一下我国机器翻译企业的基本情况吧!

1.百度

2010年初,百度组建了机器翻译核心研发团队。2011年6月30日,百度机器翻译服务正式上线,目前支持28种语言的互译。百度翻译在海量翻译知识获取、翻译模型、多语种翻译技术等方面取得重大突破,实时准确地响应互联网海量、复杂的翻译请求。百度翻译所研发的深度学习与多种主流翻译模型相融合的在线翻译系统以及基于“枢轴语言”等技术,处于业内领先水平,在国际上获得了广泛认可,使我国掌握了互联网机器翻译的核心技术。此外,百度翻译还开放了API接口,目前已有超过2万个第三方应用接入。华为、OPPO、中兴、三星等手机厂商,金山词霸、灵格斯词霸、敦煌网等众多产品均接入了百度翻译API。

资料来源:官网

在2013年,百度就布局神经网络翻译,算力、算法、模型等方面展开研究,突破了神经网络翻译的核心技术瓶颈。

2015年,百度发布了世界上首个神经网络赋能的机器翻译服务,并在同年实现基于神经网络的离线翻译,带领机器翻译进入新的历史阶段。

2017年底,百度翻译被MITTechReview评选为2018年世界十大突破技术,被列为即时语音翻译领域关键玩家,是当年度唯一入选的中国公司。

百度翻译的技术优势:

第一,创新性地提出了将深度学习模型和多种主流翻译模型相融合,包括传统的基于规则、基于实例、基于统计等翻译策略,做到发挥多种方法各自优势,从而从整体上提升翻译效果。据公开资料显示,百度翻译是国际上第一个基于深度学习模型的大规模线上机器翻译系统。

第二,通过将句法分析技术融入翻译系统,利用句法特征有效的解决了翻译过程中的句子长距离调序问题。

第三,系统提出了基于“枢轴语言(pivotlanguage)”的机器翻译模型,攻克了机器翻译中小语种覆盖和语言快速迁移的难题。

第四,将百度最先进的搜索技术与翻译技术相结合,基于网页检索、网站权威性计算、大数据挖掘、新词侦测等技术,从海量的互联网网页中获取高质量翻译知识。

2.阿里巴巴

阿里机器翻译是基于阿里巴巴海量电商数据并结合机器学习、自然语言处理技术,实现多语言语种识别与自动翻译功能,为跨境电商信息本地化与跨语言沟通上提供精准、快捷、可靠的在线翻译服务,其宗旨是“让商业没有语言障碍”。

阿里巴巴2015年收购了国内最大的众包翻译平台——365翻译,开始涉入机器翻译领域。

2016年10月起正式开始自主研发NMT模型,2016年11月首次将NMT系统的输出结果应用在中英消息通讯场景下的外部测评中,并取得了不错的成绩。

2017年初阿里正式上线了自主开发的神经网络翻译系统,为阿里经济体复杂多样的国际化需求提供可靠的技术支撑。

2017年7月12日,阿里巴巴披露的一份技术资料中显示,阿里翻译团队通过使用阿里云机器学习平台PAI实现了模型训练效率5倍的飞跃,并已应用在英俄电商翻译质量优化项目中。在阿里巴巴内部,阿里翻译负责为1688国际站、全球速卖通等提供多语言服务,中国卖家填写的一些中文信息会被机器自动翻译成多国语言。该团队同时还为钉钉、东南亚电商Lazada等提供服务。

3.腾讯

机器翻译(TencentMachineTranslation)是腾讯公司研发的人工智能机器翻译产品,基于自研的神经网络翻译引擎,能够从海量语料库中自主学习,在翻译的全过程中整体建模,从而达到翻译结果的高准确率与流畅度。

2016年初,腾讯开始研发AI翻译产品,并正式推出机器人翻译一一翻译君。腾讯机器翻译目前支持中英日韩法德意土等15种语言,83种语言对的翻译能力,其中中英互译引擎已经在新闻、教育和部分科技领域达到业界领先水平。

2017年宣布翻译君上线“同声传译”新功能,用户边说边翻的需求得到满足,语音识别+NMT等技术的应用保证了边说边翻的速度与精准性。腾讯机器翻译基于腾讯领先的底层算法、丰富的中文知识图谱和先进的NLP引擎能力,结合了神经网络机器翻译和统计机器翻译的优点,对源语言文本进行深入理解,使翻译效果更为准确,同时支持语音翻译、图片翻译、语种识别等多种场景,大大减轻传统文本翻译的读写成本。

4.科大讯飞

科大讯飞成立之时就开始在语言和翻译领域布局项目。基于NMT翻译框架,讯飞翻译服务采用了国际上领先的翻译技术,通过整合注意力网络机制和循环神经网络,完美模拟人脑翻译的机制,生成流畅的译文,支持中英、中日、中韩等多种语言互译。基于深度神经网络算法上的创新和突破,科大讯飞在2014年国际口语翻译大赛IWSLT上获得中英和英中两个翻译方向的全球第一名。在2015年又在由美国国家标准技术研究院组织的机器翻译大赛中取得全球第一的成绩。2017年科大讯飞还推出了多款硬件翻译产品,其中晓译翻译机1.0plus将世界上最先进的神经网络翻译系统,从在线系统优化成一个离线系统。它可以在没有网络的情况下提供基本翻译功能。

5.网易

10年前,网易有道翻译产品上线,接替了传统电子翻译机“文曲星”的班,是国内最早涉足翻译领域的互联网公司。

网易2011年创立网易感知与智能中心,拥有自建分布式深度学习平台,其自主研发的图像处理、语音识别、智能问答等AI技术,已经在有道翻译中得到了应用和推广。

网易有道开始关注神经网络翻译技术,是2014年。这个举动源自行业中一项节点性事件——在国际赛事ACLWMT2014中,神经网络翻译技术的准确率首次超过传统的统计机器翻译技术,这意味着神经网络翻译初步具备了商业化的可能性。

2017年5月网易有道在GMIC未来创新峰会上公布:由网易公司自主研发的神经网络翻译技术正式上线。此次在有道上线的YNMT技术,由网易有道与网易杭州研究院历时两年合力研发,让以中文为中心的、根据中文用户使用习惯定制的神经翻译系统服务于6亿有道用户,服务于有道词典、有道翻译官、有道翻译网页版、有道e读等产品。

更多资料请参考中商产业研究院发布的《2018-2023年中国AI机器翻译行业市场前景研究报告》。

来源:百家号                            时间:18-08-07

【智能观】前天,微软宣布其研发的机器翻译在通用新闻的汉译英上达到了人类专业水平;前三天,搜狗推出了旅行翻译宝;据说下月,讯飞也将推出新品翻译机。

机器翻译是人类的一大进步,让外语不好的人也能轻松出国,顺畅交流。甚至有学生开始畅想“不用再学外语”的日子了。

那么,机器翻译真的能达到人类专业水平吗?你的外语真的白学了吗?不妨听听下面的专家怎么说。

在关于巴别塔的神话中,人类联合起来计划建造一座可以通往天堂的高塔。上帝发现“再这样下去人类即将无所不能”,于是,上帝创造了很多语言,让不同种族的人说不同语言,使人们无法再沟通合作,从而阻止了人类的计划。

现代,由于技术的发展,人们对“地球村”的概念已经不陌生了,但我们依旧生活在巴别塔的阴影下。因为,语言仍然是商业和市场营销的障碍。尽管技术设备能够快速连接世界的各个角落,但各地区的人们却不能顺畅地沟通。

翻译机构倒是能使不同国家的人理解演讲、合同、外包说明和广告。一些机构还提供当地特有的小语种语言翻译。例如,如果一家公司在魁北克进行营销,广告必须使用魁北克法语,而不是欧洲法语。但有些企业不愿意在翻译上花费太多,因此,这些企业无法完全进入全球化市场。

全球化市场也在等待,尽管最近AI在自然语言处理和情感分析方面取得了进展,但人工智能驱动的语言翻译还是没有为全球化准备好。如果没有接收到符合语法特征的语言,AI就不能游刃有余地处理语言请求。2016年11月,谷歌在其翻译工具中增加了神经网络。然而,一些翻译仍存在奇怪的交际和语法问题。技术专家们与语言学教授就这一问题进行了探讨。

“值得一提的是,谷歌在一夜之间取得了相当大的进步。不过,我用得不多。因为语言很难,不是那么轻而易举就能转译成功的。”Singularity大学AI团队和教学组成员、Rapport Boost首席数据科学官迈克尔·豪斯曼(Michael Housman)说。

他解释说,机器学习和人工智能的评测是有规则和衡量方法的。他把象棋列为一个明显的例子,并指出由于象棋的规则非常明确,着法也有限,机器能够击败最好的象棋手。而且这件事发生的速度比任何人预想的都快。

豪斯曼详细阐述道:“语言几乎与此相反。它没有那么明确的规则,谈话可以向无数不同的方向进行。而且编程人员还要给数据进行分类,需要让机器分辨对错,这是一个很复杂的过程。”

豪斯曼指出,分类这些信息数据本来就很困难。他还说:“同一处翻译,两位译者都不一定达成一致。”“从数据的角度上讲,语言是一种野性的东西。”

谷歌的翻译技术现在能顾及整个句子,而不是仅翻译单个单词。尽管如此,它的翻译问题仍然存在。Jacksonville大学西班牙语、拉美文学和国际研究副教授豪尔赫·马吉福(Jorge Majfud)博士,就“为什么迄今为止一直没有准确的语言翻译”这一问题,作出了解释。

他回答说:“问题是翻译技术顾及‘整个’句子的能力还不够。一个单词的意思要放在句子中理解,句子的意思则要放在段落中分析,而文本的意思又取决于大背景下的含义,即文化和说话人意图等。”

他指出,讽刺和反语只有在这种大背景下才有意义。类似的,机器对俗语的翻译可能也会出现问题。

“如果你使用谷歌翻译作为一个工具,它很好。但不要用它取代人类对语言的学习,因为它还不能对人类语言的表达有很好的理解。”他说,然后他举了一个容易发生误译的例子。

“几个月前,我去家得宝买钻头,我在一台机器下面看到一个牌子:‘Saw machine’。就在它下面,西班牙语翻译为‘La máquina vió’,意思是,‘机器确实看到了它’。翻译设备没有把saw当成名词翻译,而是将其作为see的动词过去式翻译的。”他解释说。

马吉福博士提醒说:“我们应该意识到机器翻译的脆弱性。因为翻译其实就是解释,它解释的不仅仅是一个想法,还是一种感觉。只有人类才能理解的人类情感和想法——但有时甚至我们人类也无法理解其他人种。"

他指出,文化、性别甚至年龄都可能对语言理解构成障碍,并且他认为过度依赖技术正导致我们的文化和政治衰落。马吉福博士提到阿根廷作家 Julio Cortázar曾经把字典称为“墓地”。他说:“这样说来自动翻译就可以称为‘僵尸’了。”

埃里克·坎布里亚(Erik Cambria)是新加坡南洋理工大学的学术研究人员和助理教授。他主要关注自然语言处理,这是人工智能翻译的核心。和马吉福博士一样,他也看到了翻译的复杂性和机器翻译的相关风险。他说:“当我们阅读一篇文章时,会不自觉地做很多事情。”阅读,需要多项相关联的因素共同作用才会达到理解的效果,过去的机器翻译是没有考虑到的。

坎布里亚继续说:“机器翻译的最大问题是,它倾向于先输入语句的句法形式,然后再转变为目标语言的句法形式。这不是我们人类所做的。我们首先解码语句的含义,然后将该含义编码到目标语言中。"

此外,机器翻译还会涉及文化风险。加州大学洛杉矶分校数字文化实验室主任拉梅什·斯里尼瓦桑(Ramesh Srinivasan)博士说,新的技术工具有时会反映出创造它的人的主观意识。

拉梅什·斯里尼瓦桑

“有两个参数决定了我们如何设计智能系统。一个是价值观,你也可以说是那些创造系统的人的思想。第二个是现实世界,这个也可以通过编程输入机器,”他说,“如果你构建的人工智能系统受到设计者主观意识的影响很大,那么你可能会在某些时候遇到翻译失败的问题。"

斯里尼瓦桑博士说,翻译工具应该让人们清楚其翻译能力和局限性。他说:“对于语义和句法上彼此差异很大的两种语言,一个单一系统怎么可能那么容易就把它们统一起来,让大众理解。使不同语言融入翻译机器这一实体,从本质上讲就是一个错误的概念,不是吗?”

但从另一个角度,Launching Labs Marketing公司的联合创始人玛丽·科克伦(Mary Cochran),看到了自动翻译在商业上的好处。她提到,亚马逊等在线市场可以使用自动翻译,并针对其他国家的买家进行语言优化。

她说:“我相信对于AI在市场营销方面所能做到的,我们只是利用了很小的一部分。随着翻译水平的提高,以及全球化交流程度的提高,AI会让商业市场呈现更加繁荣的景象。"

从技术人员的角度看,AI想要取代翻译,面临重重困难;但从语言学教师的角度看,即使有一天技术能做到了,也不可能取代语言学习。Talene Boodaghians是一名教多门语言的老师,她拥有牛津大学应用语言学和第二语言硕士学位,针对近日甚嚣尘上的“有了翻译机器,学生以后‘学习文化,而不是语言’”的言论,她发表了自己独特的看法:

在所有学习科目中,也许没有一门课能像语言学习那样,极大地激发起人们用技术取代学习的想象力。随着可佩戴设备和机器翻译变得越来越先进,许多人将它们视为未来的发展趋势。翻译耳机有望用大约两秒钟的时间翻译出40种语言。可佩戴设备和翻译机器无疑是方便的工具,它们使生活更容易。如果你曾与外国人用面部表情、手势和拟声词交流过,那么你就明白了它们的价值。

我是一名应用语言学家。我在亚美尼亚和西班牙的K-12机构工作过。我还在一个英语学习App里远程授课并编写教学内容。我是一个EdTech爱好者,也是一名课堂教师,着迷于网络学习如何重塑教育,但也倾向于用一根粉笔能完成教学的时候,就不要使用平板电脑。

最近,我发现实时传输、翻译耳机的发展让人们觉得,有了这些技术,语言学习超过一定年龄,在某种程度上就是浪费时间。“学习文化,而不是语言”似乎是对未来学习者的正确建议,尤其是当可佩戴技术越来越有能力地提升人们的实际交流时。但是,这些其实是对人们的误导,原因如下。

语言学习对你的大脑有好处

双语能使人们具备多种认知优势。研究证明,双语儿童比单语儿童有更好的学习记忆能力。此外,双语甚至可以延缓老年痴呆症的发作。

语言学习能给你力量

当你会另一种语言时,就不必依赖人或机器来翻译。而且可以肯定的是,当你成功或失败时,都可以自己表达出感受,不必受外在设备的制约。

语言学习使你成为一个更成功的谈判者

如果人们喜欢你,他们就容易同意你的想法。是什么让你讨人喜欢?是共同兴趣和共同利益。当不用佩戴设备进行交流时,初期的信任会很容易建立起来。

语言学习让人们懂得谦卑

我的一位朋友讲述了一件轶事,说明了为什么语言即使在技术不断创新的时代里也值得学习。

“在我的家乡,有一座雕像叫‘带马的雕像’。如果你是本地人,对此就十分熟悉。一次我接待一位国际游客,我们定在这座雕塑旁见面。不过,当我到达时,没找到那位游客。客人同样感到迷惑,怎么没有人来接她?原来她是在拴着马的雕像旁等我,而不是在带马的雕塑旁等我。”

语言学习也是一种认识,是对事物的理解。我们可能是对的,异国的朋友也可能是对的,但我们最终说的却不是一件事。这提醒我们,宇宙并不是围绕我们转的,能够意识到这些很重要。

在亚美尼亚、西班牙和马耳他教过英语之后,我注意到一些儿童,特别是那些学习外语长大的儿童,从小就能敏锐地意识到这一点。以英语为母语的人,包括我自己在内,却对此少有意识。

K-12的含义

美国40个州及华盛顿特区都在报告外语教师短缺,这让我担心,“学习文化,而不是语言”这一言论会被当作取消K-12外语教学的理由。如果这有点杞人忧天,我们还可以留心观察一下,美国的外语教学的确已经在下降了。在八个州,只有不到13 %的孩子在学习英语以外的语言。

美国的课堂教学体系远没有那么完美。但与其把这归罪于教师,不如让我们看一下学生学习外语的大背景如何。对于语言学习,没有什么比现实生活更有激励性的了。因此,只要美国仍然是一个以英语为主流的社会,对于倡导学生学习外语这件事,即使最合格的教师也无能为力。

不过,庆幸的是,仍有希望!这也是我认为EdTech有发展的地方。没有机会使用目标语言的学生,可以使用软件和把该语言作为母语的人聊天,教师也可以将这种沟通软件作为职业发展工具。Transparent Language专为K-12课堂和语言实验室,提供实时课程和可定制的课程。Mango Languages将自己描述为一种“有趣的学习新语言的方式”,这个平台上有70多种语言。EdTech的资源越来越多,这里是一个广阔的虚拟学习世界。

亚美尼亚语是我在大学时学的语言,它有一个俗语大致是这样的:“你知道的语言越多,你所成为的人就越多。”越来越先进的同声翻译设备也许有一天能翻译出这句话,但设备无法传递给人们通过坚持学习而获得的成就感。

语言学习需要有像追求梦想那样的强烈意愿。它需要学习者勇敢面对时常出现的尴尬和失败。这是一个忍辱负重的过程,但它也是巨大的财富。年轻人需要这些软技能,以便在各种领域作出持久贡献,但与本次讨论最相关的是,人们需要这些软技能来开发明天的创新技术。所以,让我们在语言学习的路上继续前行。

—完—

亲爱的朋友:有外语专业的同学表示在翻译器面前,自己“抖了三抖”;有同学欢呼“终于可以不用学英语了!”读完本文,你有什么感想?欢迎留言交流。祝安!智能观 一米 2018-3-16 于北京中关村

声明:编译文章旨在帮助读者了解行业新思想、新观点及新动态,为原作者观点,不代表智能观观点。

来源:百家号                                         时间:18-03-16

推荐阅读:叶紫网