当前位置:首页 > 金融快讯金融快讯

谷歌揭秘自家翻译系统:如何利用AI技术提高翻译质量

2020-06-13 11:17:49【金融快讯】人次阅读

摘要谷歌揭秘自家翻译系统:如何利用AI技术提高翻译质量对于机器翻译来说,如果一门语言可用的文字资料越多,经过人工智能模型训练出来的翻译效果就越好。但并不是所有语言都具备丰富可用训练的文字资料,这样一来,如何在数据不多的情况下,训练出更好的翻译器,成为机器翻译领域里需要解决的问题之一。近日,谷歌在自己的博客上介绍了公司最新的翻译创新技术,这些技术提升了谷歌翻译的用

关于谷歌揭秘自家翻译系统:如何利用AI技术提高翻译质量图

谷歌展示其翻译系统:如何利用人工智能技术提高翻译质量

对于机器翻译,一种语言中可用的文本材料越多,人工智能模型训练的翻译效果越好。然而,并非所有语言都有丰富的培训材料。因此,如何用较少的数据培养出更好的翻译人才成为机器翻译领域需要解决的问题之一。

最近,谷歌在其博客上引入了该公司最新的翻译创新技术,改善了谷歌翻译的用户体验。目前,谷歌翻译可以支持108种语言,平均每天翻译1500亿字。

谷歌翻译最早出现在2006年。在过去的13年里,翻译水平有了显著的飞跃。谷歌表示,其翻译突破不是由单一技术推动的,而是针对一系列技术组合的突破,如低资源语言、高资源语言、整体质量和推理速度。从2019年5月到2020年5月,根据人工评估和BLEU(基于翻译系统翻译和人工参考翻译之间相似性的衡量标准),谷歌翻译在所有语言中平均提高了5个百分点,在语料库资源最少的50种语言中平均提高了7个百分点。

混合模型与数据挖掘

在这一系列技术突破中,谷歌首先提到了混合模式和数据挖掘。

混合模型是指由变压器编码器和递归神经网络(RNN)解码器组成的模型。在机器翻译中,编码器通常将单词和短语编码成内部表示,解码器将它们生成所需的语言文本。谷歌研究人员在2017年表示,他们首次提出翻译质量的提高主要取决于编码器。谷歌团队表示,这可能是因为RNN和变形金刚都是为处理有序数据序列而设计的,但变形金刚不需要按顺序处理序列。换句话说,如果所讨论的数据是自然语言,Transformer不需要在处理结束之前处理句子的开头。

然而,RNN解码器在推理时间上仍然比变压器解码器“快得多”。认识到这一点,谷歌翻译团队优化了RNN解码器,然后将RNN解码器与变压器编码器相结合,创建了一个混合模型,该模型比以前使用的RNN神经机器翻译模型具有更低的延迟、更好的质量和更好的稳定性。

除了新颖的混合模型架构,谷歌还升级了其爬虫工具,该工具可以从数百万个样本翻译中收集编译训练数据。升级后,谷歌已经嵌入了14个大型语言对,而不是仅仅依靠字典数据。换句话说,它使用实数向量来表示单词和短语,更注重准确性(检索数据的相关数据部分),而不是检索(实际检索的相关数据总量)。就输出效果而言,谷歌表示,这使得数据挖掘工具提取的句子数量平均增加了29%。

“嘈杂”的数据和迁移学习

提高谷歌翻译性能的另一项技术突破来自对训练数据中“噪音”的更好处理。“噪音”是有噪音的数据,因为它包含大量无法正确理解或解释的信息数据,从而损害了具有丰富语料库资源的语言翻译。因此,谷歌的翻译团队部署了一个系统,使用训练有素的模型给翻译样本打分,然后筛选出“纯”数据。事实上,这些模型最初是基于所有数据进行训练的,然后逐渐基于更小更纯的数据子集进行训练。这种方法在人工智能研究领域被称为课程学习。

对于机器翻译,它传统上依赖于源语言和目标语言中成对句子的语料库统计。对于资源较少的语言,谷歌在谷歌翻译中采用了反向翻译机制来加强平行训练数据,即语言中的每个句子都与其翻译相匹配。在该机制中,训练数据与合成的并行数据自动对齐,目标文本是自然语言,源文本由神经翻译模型生成。因此,谷歌翻译充分利用了更丰富的单语数据来训练该模型,谷歌声称这对于提高翻译流畅性特别有帮助。

此外,谷歌的翻译团队还建立了M4模式。M4模式是该团队在2019年提出的。在用10多种语言训练了250亿个句子后,该模型提高了30多种低资源语言的翻译质量。该模型也证明了迁移学习技术可以用于机器翻译。这也意味着收集高资源语言,包括法语、德语和西班牙语,这些语言有数十亿个平行的例子,经过培训后,它们可以用来翻译低资源语言,如只有数万个例子的约鲁巴语、信德语和夏威夷语。

机器翻译的未来

谷歌表示,自2010年以来,翻译质量每年都在提高,但机器翻译绝不是翻译问题的“终结者”。谷歌承认,即使是增强的模式也容易出错,包括将一种语言的不同方言混合在一起,导致太多的直译,以及在特定主题上表现不佳,不管是非正式的还是口语的。

谷歌试图以不同的方式解决上述问题。该公司发布了一项招募志愿者的计划,通过检查翻译的单词和短语是否正确来帮助提高低资源语言的翻译性能。今年2月,谷歌通过将翻译与新兴的机器学习技术相结合取得了进展。他们只提供7500万种语言的翻译,如卢旺达语、奥迪亚语、鞑靼语、土库曼语和维吾尔语。

谷歌并不是唯一一家追求真正普遍翻译的公司。2018年8月,脸书发布了一个人工智能模型,它结合了逐字翻译、语言模型和反向翻译,擅长语言匹配。最近,麻省理工学院计算机科学和人工智能实验室的研究人员提出了一个无监督的模型,也就是说,一个可以从没有明确标记或分类的测试数据中学习的模型。该模型可以在两种语言的文本之间进行翻译,而无需两种语言之间的直接翻译。

大量的信息和准确的解释都在APP上。

实时阅读更多相关谷歌揭秘自家翻译系统:如何利用AI技术提高翻译质量内容。本站涵盖最新全球股票市场报价(沪深指数、上证指数)、股票公司事件、、股票行情等资讯。

热门关键词:技术

很赞哦! ()

谷歌揭秘自家翻译系统:如何利用AI技术提高翻译质量相关内容

  • 威海文登天润工业技术股份有限公司:打造“精英荟萃”的人才洼地

    威海文登天润工业技术股份有限公司:打造“精英荟萃”的

    2020-06-12 20:42:40 齐鲁网·闪电新闻6月12日讯威海文登天润工业技术股份有限公司牢固树立“人才优先发展”理念,打好“引才、育才、用才”组合拳,切实推动人才优势转化为核心竞争优势,为企业创新发展凝聚澎湃动力。真情实意招才引才“市场同类产品使用寿命只有一天,而我们的产品使用寿命最长可达一个月。”文登天润工业技术股份有限公司引进的泰山产业领军人才许一在介绍自己最为得意的产品。虽然是土
  • 恒玄科技回复首轮问询:芯片打入小米9款耳机产品

    恒玄科技回复首轮问询:芯片打入小米9款耳机产品

    2020-06-12 18:53:18 技术指标恒玄科技回复首轮问询:芯片打入小米9款耳机产品 与阿里合作尚处开端时隔30天,国内TWS无线耳机芯片龙头恒玄科技(上海)股份有限公司(以下简称“恒玄科技”)于6月11日交出了科创板审核首轮问询答卷。针对上交所质疑公司自诩为行业内“第一梯队”的依据,恒玄科技回复称,在蓝牙音频芯片领域,其与高通及联发科相比其他独立芯片厂商,具有技术领先及品牌客户优势,同
  • 双成药业:宁波守正将其注射用紫杉醇项目的技术以3920万元转让给公司

    双成药业:宁波守正将其注射用紫杉醇项目的技术以3920万

    2020-06-08 21:58:22 每经AI快讯,双成药业(SZ 002693,收盘价:5.16元)6月8日晚间发布公告称,海南双成药业股份有限公司拟与公司关联方宁波守正药物研究有限公司签订《技术转让合同》,宁波守正将其拥有注射用紫杉醇项目的技术秘密全部转让给公司双成药业受让并支付相应的转让费人民币3920万元。截至评估基准日,该专有技术已资本化的账面金额为2,524.16万元,预计未来尚需发
  • 林斌卸任北京小米软件技术有限公司法人、总经理

    林斌卸任北京小米软件技术有限公司法人、总经理

    2020-06-08 18:55:22 36氪获悉,天眼查数据显示,6月4日,北京小米软件技术有限公司发生工商变更,林斌卸任法定代表人、总经理,由王川接任。北京小米软件技术有限公司成立于2011年12月,注册资本300万美元,公司经营范围包括 研究开发计算机软件及信息技术;技术咨询;技术服务;转让自有技术;技术培训;销售自行开发产品;系统集成;由XIAOMIHKLIMITED全资持股。
  • 铁矿石价格飙升澳元增加关键有利对冲基金含泪

    铁矿石价格飙升澳元增加关键有利对冲基金含泪

    2020-06-08 16:49:52 澳元铁矿石飙升!澳元又添关键利好 大举做空的对冲基金欲哭无泪作为市场风险情绪的风向标,澳元兑美元汇率自3月中旬触及18年低点0.5510以来,已累计飙升了27%。在如此短的时间内取得如此大的涨幅,在主要货币对中可谓颇为罕见。而在刚刚过去的这个周末,澳元再度收获了一个重磅利好——铁矿石价格进一步飙升!最新行情显示,新加坡铁矿石期货价格周一升至100美元/吨,为
  • 美指8连跌、三重卖出信号显现 接下来会怎样?

    美指8连跌、三重卖出信号显现 接下来会怎样?

    2020-06-05 14:00:18 美元美指8连跌、三重卖出信号显现,接下来会怎样?美元指数近日持续下跌,截至6月5日,已录得8连阴,从100关口上方跌到97关口下方,美指的强势彻底出现逆转了吗?自2018年以来,美元总体一直在上涨。但多年来,美国对很多国家的贸易都处于逆差状态,美元存在贬值的基础。再加上今年3月份以来,美联储为应对疫情实施了大规模的量化宽松政策,资本市场更加看空美元,认为美元
  • 安徽池州经济技术开发区:打造国内特色半导体产业基地

    安徽池州经济技术开发区:打造国内特色半导体产业基地

    2020-06-05 08:53:07 芯片生产制造车间 张俊 摄中新网池州6月4日电“今年1-4月份,安徽池州省级半导体基地产值同比增长40%,增幅居安徽省战新基地前列。”池州经开区党工委副书记、管委会副主任赵革锋4日在接受中新网记者采访时表示。当日,安徽省委宣传部“走进安徽国家级开发区”系列新闻发布暨集中采访活动走进池州经济技术开发区。技术人员正在对芯片检验 张俊 摄 从晶圆制造、芯片设计,到
  • 欧洲银行决议前瞻想推出更多刺激政策吗“印钞机”增加动力

    欧洲银行决议前瞻想推出更多刺激政策吗“印钞机”增加

    2020-06-04 10:15:08 欧元欧银决议前瞻:欲推出更多刺激政策?“印钞机”加大马力,PEPP规模料提高约5000亿北京时间周四(6月4日)19:45欧洲央行将公布利率决议,随后20:30欧洲央行行长拉加德将召开新闻发布会。投资者希望决策者出台更多刺激措施,以提振受疫情肆虐的经济,届时欧洲央行料将把7500亿欧元(8392.5亿美元)的大流行病紧急资产收购计划(PEPP)规模提高约50
  • 中泰国际:协合新能源5月份风电发电量同比上升18.5%

    中泰国际:协合新能源5月份风电发电量同比上升18.5%

    2020-06-03 13:56:17 新能源热点栏目 自选股 数据中心 行情中心 资金流向 模拟交易 客户端 中泰国际每日晨讯:新能源:协合新能源(182 HK;未评级):5月份风电发电量同比上升1
  • 欧洲银行决议展望未来三种可能情况中的最后一种将压低欧元

    欧洲银行决议展望未来三种可能情况中的最后一种将压低

    2020-06-03 10:59:50 欧元欧银决议前瞻:三种可能情况 最后一种发生将打压欧元FX168财经报社(香港)讯 周二(6月2日),FXStreet的分析师Yohay Elam提出了本周欧洲央行即将举行的货币政策决议中量化宽松措施及其对欧元/美元汇率产生相应影响的三种情况。这三种情况分别为:1.额外补充2500亿欧元:最有可能的情况是,该银行将大流行紧急购买计划(Pandemic Eme
  • 澳大利亚联邦储备委员会期待坚持英国推动刺激计划更强

    澳大利亚联邦储备委员会期待坚持英国推动刺激计划更强

    2020-06-02 16:49:43 美元美企抛售股票,美联储大幅购债;美国危机发酵,英镑强势上攻;欧央行将扩大购债,欧元有望上看1.12。▎1美股持续上涨 但大股东却“跑”了最近苹果手机卖的很好啊,不过5月份,在美国卖的最好的可能是股票。根据相关机构数据,今年5月,美国上市公司增发和抛售股票的规模达653亿美元,创下了单月历史新高。摩根大通美股市场的主管就表示了,这是因为很多企业受卫生事件影响
  • 市场的双方都陷入了拉锯战传统的交易策略失败了吗

    市场的双方都陷入了拉锯战传统的交易策略失败了吗

    2020-06-02 16:29:33 美元市场多空双方陷入拉锯战!传统交易策略已经失效?过去人们认为,如果避险资产上涨,那么高风险资产就会下跌,反之亦然;然而如今,二者齐头并进的情况下,投资者恐怕要重新考虑一下他们的交易策略了。美国股市的爆炸性反弹本不稀奇,但是发生在作为防通胀和避险资产的黄金同样力度的涨势背景下,就显得非同凡响了。欧元区和英国股市近几周也都进入了牛市,同样非同凡响的是,投资者对