首页 范文大全 古典文学 职场知识 中国文学 公文书信 外国名著 寓言童话 百家讲坛 散文/诗歌 美文欣赏 礼仪知识 民俗风情
  • 工作总结
  • 工作计划
  • 心得体会
  • 竞聘演讲
  • 会议发言
  • 爱国演讲
  • 就职演说
  • 开业开幕
  • 思想学习
  • 征文演讲
  • 经验材料
  • 述职报告
  • 调研报告
  • 工作汇报
  • 年终总结
  • 申报材料
  • 学习体会
  • 企划方案
  • 活动方案
  • 技巧经验
  • 模板范例
  • 思想宣传
  • 经济工作
  • 工作报告
  • 组织人事
  • 反腐倡廉
  • 慰问贺电
  • 先进事迹
  • 思想汇报
  • 入党申请书
  • 党会发言
  • 先进性教育
  • 入团申请书
  • 个人简历
  • 演讲稿
  • 调查报告
  • 实习报告
  • 和谐社会
  • 观后感
  • 读后感
  • 作文范文
  • 自我鉴定
  • 讲话稿
  • 自查报告
  • 融入词性信息机器翻译研究

    时间:2020-09-08 11:35:55 来源:蒲公英阅读网 本文已影响 蒲公英阅读网手机站

    相关热词搜索:机器翻译 词性 融入

      本 科 毕 业 设 计(论 文)

      学院(部) 计算机科学与技术学院 题

      目 融入词性信息的机器翻译研究

      年

     级 14 级 专业 计算机科学与技术 班

     级 计科班 学号 1427405086 姓

     名 施庭雨

      指导老师 段湘煜 职称 副教授 论文提交日期

     目 录

     摘要 ...................................................... 1 Abstract .................................................. 2 第 第 1 章 前言 ............................................... 3 第 第 2 章 神经机器翻译 ....................................... 6 第 2.1 节 编码器 ......................................... 6 第 2.2 节 解码器 ......................................... 8 第 2.3 节 Attention 机制 ................................. 10 第 3 章 融入词性信息的神经机器翻译 ........................ 12 第 3.1 节 融入词性信息的神经网络架构 .................... 12 第 3.2 节 词与词性的联合解码 ............................ 14 第 4 章 实验分析 .......................................... 17 第 4.1 节 实验配置 ...................................... 17 第 4.1.1 节 实验环境 .................................. 17 第 4.1.2 节 数据集 .................................... 17 第 4.1.3 节 评价标准 .................................. 18 第 4.2 节 模型 .......................................... 18 第 4.3 节 训练程序 ...................................... 19 第 4.3.1 节 参数初始化 ................................ 19 第 4.3.2 节 训练 ...................................... 19 第 4.4 节 定量结果 ...................................... 19 第 5 章 结论 .............................................. 22 参考文献 ................................................. 23 致谢 ..................................................... 25 附录 ..................................................... 26

      1 融入词性信息的机器翻译研究

      摘要

      20 世纪 30 年代左右,是机器翻译的思想问世的时代。在 20 世纪 30 年代,法国科学家 G.B.Archuny 提出了用机器翻译来代替人工翻译的思想。目前为止,机器翻译有越来越多显著的成果被各个科学家实现,同时各种新方法在各位科学家的努力之下层出不穷,由此也呈现出百花齐放的局面。

     目前机器翻译方面提出的最新方法是基于神经网络的机器翻译系统,也就是神经机器翻译。神经机器翻译模型通常属于编码器-解码器族,其具体原理是将源语句编码成固定长度向量,并从该向量解码从而生成翻译。神经机器翻译模型是以建立一个单一的神经网络为目的。建立完毕后,可以通过联合调整,来极大限度提高翻译的性能。

     本次研究采用的就是以编码器-解码器模型的神经网络机器翻译系统为基准系统,并在该基准系统中引入词性信息,搭建以某种词性出现的概率作为特征,在目标端添加词性,将词和词性进行联合比对。并最终将改进系统的翻译结果与基准系统的翻译结果进行比较,从而验证该方案的可行性。

     关键词:词性;神经机器翻译;RNN 模型;融合

     苏州大学本科生毕业设计(论文)

      2 A Literature Review of Machine Translation Research Integrating Part of Speech Information

     Abstract

     Around the 1930s, it was the era of machine translation thinking. In the 1930s, French scientist G.B. Archuny proposed the idea of using machine translation instead of human translation. So far, more and more remarkable achievements in machine translation have been achieved by various scientists. At the same time, various new methods have emerged endlessly under the efforts of scientists, and this has also shown a flourishing situation. The latest method proposed in the field of machine translation is a neural network-based machine translation system, namely neural machine translation. Neural machine translation models generally belong to the encoder-decoder family, the specific principle of which is to encode the source sentence into a fixed-length vector and decode from this vector to generate a translation. The neural machine translation model aims to establish a single neural network. After the establishment is completed, the adjustment can be made through joint adjustment to greatly improve the performance of the translation. In this study, a neural network machine translation system based on an encoder-decoder model is used as a reference system, and part-of-speech information is introduced in the reference system. The probability of a certain part of speech is used as a feature to add a part of speech at the target end. Combine words and parts of speech for a joint comparison. Finally, the translation results of the improved system are compared with the translation results of the benchmark system, so as to verify the feasibility of the scheme.

     Key words: POS; Neural Machine Translation; RNN; fusion

     苏州大学本科生毕业设计(论文)

     3 第 第 1 章 前

     言

     机器翻译(又称自动翻译),是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程,主要研究方向有人工智能、自然语言处理等领域。使用计算机来实现自动转换不同的自然语言既作为机器翻译的主要目标之一,同时也作为信息传递所面临的在不同国家和民族之间的“语言障碍”问题的突破口的关键技术。机器翻译在促进民族团结、加强文化交流和推动对外贸易等方面有着举足轻重的意义。

     20 世纪 40 年代末,机器翻译的发展大约可以总结成两个大的阶段——理性主义方法主导时期(1949-1992)和经验主义方法主导时期(1993-2016)。

     早期的机器翻译基本都采用的是理性主义方法,这种方法的原理是通过观察不同自然语言之间的转换规律,再以规则的形式来表示所翻译的知识(其中这部分是由人类专家所完成的)。理性主义方法在句法和语义等诸多深层次方面的实现较为精准,使得在自然语言的分析、转换和生成等方面具有较高质量的翻译结果。这种方法的弊端也很明显,即—— 1. 翻译知识获取难; 2. 开发周期长; 3. 人工成本高。

     这类困难已经成为了现在无法避免的主要问题,科学家们依然在探索合理的解决方案。

     近几年,随着互联网的兴起,尤其是大数据和云计算在近几年来发展迅速,机器翻译的主流在 20 世纪 90 年代以后渐渐地转变为经验主义方法。与理性主义方法不同,理性主义方法是以人为中心,而经验主义方法则是主张以数据为中心。目前,自然语言的转换过程都是依靠数学模型,来进行转换的。由于数学模型是在大规模多语言文本数据上进行自动训练,其训练集的覆盖面较为广泛,翻译结果质量可以有所保障。

     经验主义方法的代表则是统计机器翻译。统计机器翻译是通过隐结构(如词语对齐、短语切分、短语调序、同步文法等主要方法)来实现的。而对于翻译过程的描述,主要是利用语句的特征来刻画翻译规律。在翻译的最后部分,则是采用动态规划算法在指数级的搜索空间中通过特征的局部,从而可以实现多项式时间复杂度的高效翻译。但是,统计机器翻译也有着种种弊端——

     苏州大学本科生毕业设计(论文)

      4 1. 翻译性能严重依赖于隐结构与特征设计; 2. 局部特征很难捕获到全局的依赖关系; 3. 对于数线性模型中难以处理的翻译过程中的线性不可分现象。

     以上种种现象现在依旧是统计机器翻译所面临的难题。科学家们依旧也在探索合理的解决方案。

     语言模型(Language Model)是一种用于描述语句结构的模型,其在自然语言处理领域有着重要的地位的。在 2003 年,Bengio 尝试提出了一个新的概念——神经网络概率模型(NPLM)。神经网络概率模型结合了神经网络(Neural Network)和语言模型,在不少翻译中取得了不错的应用效果,其翻译结果的质量都很高。而如此光景也不是很长,几年后,大家便不再满足研究简单的神经网络。这种情况则是由又一出色表现——由 Mikolov 提出的循环神经网络语言模型(RNNLM)和word2vec 所影响的,自此开始,基于深度学习的神经网络开始兴起。基于深度学习的神经网络在许多领域得到了广泛的应用(例如图像识别领域、语音识别等等)。除此之外,在其它领域内依旧有着出色的建树。例如在自然语言处理任务(NLP)上如语言模型、推荐系统等领域,深度学习依旧有着出色的表现。至于基于深度学习的神经网络具有如此强大能力的原因,则是因为通过训练数据得到数据的抽象表示是神经网络本身的优点。综上所述,归根到底总结起来,就是具有很强的泛化能力。

     从这以后,深度学习的研究热潮便保持不下。在这种热潮的影响下,很快便渗透到了各个自然语言处理的诸多领域。当然,其中也毫无例外地包括了机器翻译领域。借由深度学习的研究热潮,使得机器翻译自此得到了极大的改变——从2014 年以来,端到端神经机器翻译(end2end neural machine translation)获得了迅速发展。端到端神经机器翻译相比于统计机器翻译,其翻译质量上有着显著的提升。目前,Google、微软、百度、搜狗等商用在线机器翻译系统的核心技术,已经由神经机器翻译所取代。统计机器翻译渐渐成为了历史。

     在近期,基于注意的编码器-解码器框架的神经机器翻译(NMT)已经在很多语言对的翻译质量方面取得了显著的改进。在传统的 NMT 模型中,编码器读取各种长度的源句子,并将它们转换为中间隐藏矢量表示的序列。在通过注意力操作加权后,解码器使用组合隐藏矢量来生成翻译。在大多数情况下,编码器和解码器都实现为递归神经网络(RNN)。

     苏州大学本科生毕业设计(论文)

     5 目前,神经网络机器翻译模型的主流结构仍然是编码器-解码器框架。编码器负责把源端输入的句子编码成固定维度的实数向量,这个向量是对输入句子的抽象表示,也称作语义向量。解码器读取这个语义向量用以解码预测目标语言单词。基于深度学习的机器翻译模型的关键过程在于把源语言压缩表示成一个中间语义向量,代表输入句子的信息。由此可以得出,编码器产生的语义向量能否有效的表示源端信息将直接关系到整个翻译模型的性能。但是多项实验结果表明,这种编码器-解码器框架会随着句子长度的增加,性能会变得越来越差。

     词性是指以词的特点作为划分词类的根据,例如,在现代汉语中词性有两类共 14 种。在这里延伸一下词类这个概念,词类是一个语言的学术语,具体意义可以引申为是一种语言中词的语法分类。划分的主要依据是以语法特征(其中包括句法功能和形态变化)、兼顾词汇意义。从另一个方面来说,一个词类是指:在一个语言中,有些词具有相同句法功能并且能在同样的组合位置中出现,可以将这些词聚合在一起。聚合是词类是最普遍的语法。综上所述,词性信息有助于帮助词进行精确划分,对于神经机器翻译中的目标语言单词有着重要的影响,因为词性信息可以与词进行结合,从而可以得到更精确的翻译结果。

     所以根据神经网络机器翻译模型的编码器-解码器结构的潜在问题以及词性信息的特点,本文提出了在编码器-解码器框架中融合词性信息的思想,从而可以提升神经机器翻译的翻译结果质量。

     苏州大学本科生毕业设计(论文)

      6 第 第 2 章 神经机器翻译

     神经机器翻译不再需要词语对齐等预处理操作,也不需要人工的去设计特征,而是只设计一个神经网络结构,并且投入一定的训练语料就可以用这个网络直接将源语言的词序列映射成目标端的词序列(就是端到端的神经网络机器翻译)。联合调整这个网络,从而使翻译性能得到极大限度的提高。

     循环神经网络(RNN,Recurrent Neural Networks)中的编码器-解码器(Encoder-Decoder)架构在机器翻译领域内取得了相当先进的成果。目前,这一架构已成为了工业级翻译服务的核心。尽管这种模型比较简单,但仍然还是需要用大量的数据来作为训练集。而且,调整模型中无数的设计决策(Design decisions)仅仅是为了获得最优性能,将会是所面临的最困难的情况。

     在编码器中,一般是将源端句子抽象成一个特定维度的向量,解码器则用这个向量解码获得目标语言的句子。

     图-1 RNN 结构

      2.1 编码器

     编码器完成的工作是将源端句子经过神经网络编码成一个特定维度的不可解释的中间向量或者称为上下文向量,其中编码器的网络结构多是循环神经网络,长短期记忆网络等。

     编码阶段可以分为两步:

     1. 对源语言的输入句子 X=(1x ,2x ,...,Tx )的每一个词ix 都表示成一个特定维度Hidden Embedding

     苏州大学本科生毕业设计(论文)

     7 大小的词向量| |ViR w  ,i=1,2,...,T( ] ,..., , , [3 2 1 m in n n n w  ,in ∈实数)。

     其中 V 是源语言词表的大小,词向量的维度 m 是由用户自己指定的。在模型训练的时候,真实参与模型训练的输入是 ) ,..., , (2 1 Tw w w W  ,这个词向量 W 最初是随机初始化的,在整个模型的训练过程中跟随模型的其他参数一起训练更新。

     2. 用 RNN 编码源语言输入句子。

     一般的 RNN 模型中,都是在源端从头至尾读取一个输入句子。但是在本次实验中,为了不仅可以得出前面已经翻译过的句子的总结,而且还能处理后续的句子,故采用了双向 RNN 结构。一个双向 RNN 由前向和反向 RNN 组成。前向 RNN读取正常的输入语句,计算正向隐藏层,反向 RNN 读取相反的输入语句,计算反向隐藏层。

     整个过程的公式为——   0 , 00 , ) 1 (1ii h z h zhi i i ii 其中—— ) () (]) [ tanh(111   i r x r ii z x z ii i x ih U E W rh U E W zh r U E W hiii      

     xK mR E 是字嵌入矩阵。m nr zR W W W  , , ,n nr zR U U U  , , 是权矩阵。m 和 n分别是单词的嵌入维数和隐藏单元的数量。σ(·)和往常一样是一个 logistic sigmoid 函数。

     编码时,正向神经网络按照词序列的 ) ,..., , (2 1 Tx x x 顺序依次编码源语言词,并得到一系列隐藏层状态 ) ,..., , (2 1 Th h h  。同样,反向神经网络按照词序列的) ,..., , (1 1x x xT T 的顺序得到 ) ,..., , (2 1 Th h h  。最后,对于词 x_i,通过把正向神经网络和反向神经 网 络的隐藏层拼接到一起,得到该词对应的隐藏层状态—— iiihhh 

     苏州大学本科生毕业设计(论文)

      8

     图-2 基准系统的编码器结构

      2.2 解码器 器

     解码器完成的工作是将编码器产生的中间向量经过神经网络解码成目标语言句子,直到遇到句子结束标记<eos>结束。

     在本次实验中,需要定义一个新的条件概率—— ) , , ( ) , ,..., | (1 1 1 i i i i ic s y g x y y y p 

     其中is 是 RNN 在 t 时刻的隐藏层—— ) , , (1 1 i i i ic y s f s 

     给定来自编码器的注释的解码器的隐藏状态is 由下式计算—— i i i i is z s z s     1) 1 (

     其中—— ) ] [ tanh(1 i i i iCc s r U WEy s   

     ) (1 1 i z i z i z ic C s U Ey W z    

     ) (1 1 i r i r i r ic C s U Ey W r     E 是 目 标 语 言 的 词 嵌 入 矩 阵 。m nr zR W W W , , ,n nr zR U U U , , 和1h 2h 1h 2h 3h 3h Th Th ih ix 1x 2x 3xTxEncoder

     苏州大学本科生毕业设计(论文)

     9 n nr zR C C C2, , 是衡量标准。再次, m 和 n 分别表示嵌入维数和隐藏单元数。初始隐藏层0s 由下式计算:

     ) tanh(1 0h W ss ,其中n nsR W 。

     上下文向量ic 取决于编码器对输入语句进行映射的注释序列 ) ,..., (1xTh h 。每个注释ih 包括整个输入序列的信息,其中第 i 个字周围的部分与输入语句有着强关联。

     将上下文向量表示成注释ih 的加权和,公式为—— xTjj ij ih c1

     其中,每个注释jh 的权重ij 由下式计算—— xTkikijijee1) exp() exp(

     ) tanh(1 j a i a a ijh U s W v e   其中ije 是一个对齐模型,它可以评估位置 j 周围的输入和位置 i 的输出匹配程度。得分基于 RNN 的隐藏层1  is 和输入语句的第 j 个注释jh 。请注意,与传统的机器翻译不同,对齐不被认为是潜在变量。相反,对齐模型直接计算软对齐,这可以使成本函数的梯度反向传播。该梯度可以用于联合训练对齐模型以及整个翻译模型。

     在这里可以理解成将所有注释的加权总和作为计算预期注释的方法,其中期望在可能的对齐模型上。令ij 为目标单词iy 与源词jx 对齐或翻译的概率。然后,第 i 个上下文向量ic 是所有具有概率ij 的注释的期望注释。

     概率ij 或其相关联的分值ije 反映了注释jh 相对于先前隐藏层1  is 在决定下一隐藏层is 和生成语句iy 中的重要性。直观地说,这实现了解码器中的 Attention 机制。解码器决定部分源句子要注意。通过让解码器具有 Attention 机制,我们可以免除编码器将源句子中的所有信息编码成固定长度矢量的负担。采用这种新方法,信息可以在整个注释序列中传播,这可以由解码器相应地选择性地取回。

     从整体的原理来看,目前基本实现了解码器中的 Attention 机制,解码器决定部分源语句的 Attention。而通过解码器具备 Attention 机制,可以免除编码器将源语句中的所有信息编码成固定长度矢量的负担。采用这种新方法,信息可以在整个注释序列中传送,再由解码器相应地选择性取回。

     苏州大学本科生毕业设计(论文)

      10

     图-3 基准系统的结构

     2.3 Attention 机制

     关于上述的 Attention 机制,将在这一节进行说明。其中,在传统编码器-解码器框架中,编码和解码时均需要由内部一个固定长度向量来决定。

     而相对于 Attention 机制(也称作注意力机制,下文统称为注意力机制),则是一种放弃了机器翻译中常用的 CNN 和 RNN 框架的机制。同时,注意力机制采取 BLEU 值为评价基准。其基本思想大致可以描述为——不受传统编码器-解码器框架的限制,可以在编码和解码时脱离固定长度向量的限制。

     1h 2h 2h Th Th 1s 2s 1y2ytyic 1 , t2 , tT t,1x2xTx1h ts

     苏州大学本科生毕业设计(论文)

     11 “Attention is All You Need”,是 Google 发布的一篇基于注意力机制的机器翻译研究的报告。在这篇报告中,Google 使用的机器翻译系统中包含了注意力机制,其 3 天半的训练过程在同类机器翻译系统中可以说是很短了。此外,其采用测试集的测试结果中,其 BLEU 值可以说是空前为行业内的最高分。

     注意力机制的实现方法则是通过以下三点—— 1. 将 LSTM 编码器的输入序列的中间输出进行保留; 2. 将保留的部分进行训练,从而生成训练模型; 3. 对这些输入语句进行选择性地学习并最终将输出语句与训练模型的输出语句进行关联。

     对于这种注意力机制的,其目的也很明确,对于以下问题其往往有着较好的解决方法—— 1. 对于高维输入数据,往往计算负担很严重。而为了将降低数据的维度,这种机制则是使用输入子集的结构化选择来减少这种负担; 2. 对于大量冗余数据,往往不能一次就找到有用的信息。而这种机制具有“伪保真”功能。这种功能可以使任务处理系统更加专注地搜寻有用信息,大大提高了搜索效率,从而提高输出质量。

     对于多种内容模式,相互关系往往都很复杂,之间的联系过多使得理解很复杂,对于翻译结果有一定影响。综上所述,注意力机制的最终目标则是帮助像编码器和解码器之类的框架,用来更好地理解多种模式之间的相互关系。对于提高信息之间的表达力,这个机制则是可以克服无法解释的原因以及难以设计的缺陷。

     对于以上的注意力机制的描述,注意力机制可以适用的地方有很多。但是最适合的还是用于对各种不同模态并且占据容量很大的数据之间的映射关系的推断。对于这种不同模态并且占据容量很大的数据,往往需要监督信号来进行监督,这在机器翻译中是一种很棘手的问题。而这样也更能凸显注意力机制的优势之一,可以完全省略监督信号。

     由于本次实验中对于先验数据的知晓少之又少。所以对于注意力机制来说是一个可以大显身手的地方。

     苏州大学本科生毕业设计(论文)

      12 第 第 3 3 章 章 融入词性信息的神经机器翻译

     如前言中所述,与传统的统计机器翻译相比,基于编码器-解码器框架的神经机器翻译,一般具有两个优点——可以直接从生数据汇中学习特征,也能够捕获长距离依赖。

     同样,一个潜在的问题也存在于这种基于编码器-解码器的神经机器翻译框架——神经网络必须具备能将有效信息压缩成指定长度向量的能力。这对于处理长句子来说是一个挑战。现在已经有了多项研究结果,可以表明这种基本的编码器-解码器模型的性能会随着句子长度的增加而变得越来越差。

     为了探究出解决这个问题的办法,我们在这种基本的编码器-解码器的模型上做了延伸,就是让神经网络在目标端中添加词性信息。在根据词表与矩阵相乘生成词向量后,生成正向与反向的隐藏层,与目标端的词和词性进行联合比对,计算出词和词性结合的 BLEU 值(一种机器翻译的评价准则)。选择分值最高的作为翻译结果。

     与基本编码器-解码器的最重要的区别是这种方法不仅仅是用词的 BLEU 值来进行评估,而是将词性信息融入进行联合评估,从而使得出的关系强度相比以往的翻译结果而有所提高。由此可以得出,这个模型能更加精确地得出翻译结果。在本文中,提出的在目标端中添加词性的翻译结果比基本编码器-解码器方法在性能上有显著的提高。

      3.1 融入词性信息的神经网络架构

     在本次实验提出的融合词性信息的神经机器翻译模型中,依旧采用与基准系统相同的编码器来完成工作——将源端句子经过神经网络编码成一个特定维度的不可解释的中间向量(或者称为上下文向量)。

     在一般的 RNN 中,读取一个输入序列,是从第一个到最后一个。然而,在基准系统中,注释不仅可以总结出前面已经翻译过的句子,并且还能处理接下来未翻译的句子。所以,在这次实验中依旧采用双向 RNN 结构。

     一个双向 RNN 由正向和反向 RNN 组成。正向 RNN 读取正常的输入序列) ,..., , (2 1 Th h h  ,正向计算正向隐藏层jh,反向 RNN 读取相反的输入序列) ,..., , (2 1 Th h h  ,反向计算反向隐藏层jh。通过连接正向隐藏层jh和后向一个jh,即

     苏州大学本科生毕业设计(论文)

     13 ] ; [ j j jh h h 。这样的化,注释jh 包含前面的单词和后面的单词的摘要。由于 RNN倾向于更好地代表最近的输入序列,所以注释jh 将集中在jx 周围的单词上。随后,解码器和对准模型将使用该序列的注释来计算上下文向量。

     图-4 融入词性信息的神经网络架构

     编码器的具体实现请参考第 2 章的第 2.1 节,在这一节中则不再具体地描述其原理了。

     基准系统中,解码器的工作是将编码器产生的中间向量经过神经网络解码成目标语言句子,直到遇到句子结束标记<eos>结束。在这次试验中,解码器在基准系统的基础上作出了如下改进—— 1. 构建两个隐藏层; 1h 2h 2h Th Th 1y2ytyic 1 , t2 , tT t,1x2xTx1h 1s

     2s

     ts

     "1s

     "2s

     "ts

     苏州大学本科生毕业设计(论文)

      14 2. 改进对齐模型的计算公式; 3. 定义两个条件概率; 4. 根据上下文向量的共享来体现两个条件概率的相关性。

     归结起来,解码器是在基准系统的隐藏层中添加了词性信息,并将此和词性信息视为一个组合,最终进行联合比对。

     3.2

     词与词性的联合解码

     在这个模型中,需要定义一个新的条件概率—— ) , , ( ) , ,..., | (1 1 1 i i i i ic s z g x z z z p 

      iz 是一个组合 ,包含的是第 i 个目标词以及其词性,is 是在 t 时刻的隐藏层。ic 是上下文向量。

     进一步说,这个新的条件概率是由以下两部分构成—— ) , , ( ) , ,..., | (1 1 1 i i i i ic s y g x y y y p 

     ) , , ( ) , ,..., | (" "1"1"1"i i i i ic s y g x y y y p 

     在上述公式中,iy 是目标词,"iy 是目标词的词性,is 是词的隐藏层,"is 是词性的隐藏层。而两个公式中的ic 是为了体现相关性而共享的上下文向量。

     其中,词的隐藏层is 的计算公式为—— ) , , (1 1 i i i ic y s f s 

     给定来自编码器的注释的解码器的词的隐藏层is 由下式计算—— i i i i is z s z s     1) 1 (

     其中—— ) ] [ tanh(1 i i i iCc s r U WEy s   

     ) (1 1 i z i z i z ic C s U Ey W z    

     ) (1 1 i r i r i r ic C s U Ey W r     E 是目标语言的词嵌入矩阵。m nr zR W W W , , ,n nr zR U U U , , 和n nr zR C C C2, , 是衡量标准。再次, m 和 n 分别表示嵌入维数和隐藏单元数。初始隐藏层0s 由下式计算:

     ) tanh(1 0h W ss ,其中n nsR W 。

     词性的隐藏层"is 的计算公式同上,在此不再重复描述。

     上下文向量ic 取决于编码器对输入语句进行映射的注释序列 ) ,..., (1xTh h 。每个

     苏州大学本科生毕业设计(论文)

     15 注释ih 包括整个输入序列的信息,其中第 i 个字周围的部分与输入语句有着强关联。

     将上下文向量表示成注释ih 的加权和,公式为—— xTjj ij ih c1

     其中,词和词性的所用的上下文向量都是共享的,计算方法是相同的。此外,每个注释jh 的权重ij 由下式计算—— xTkikijijee1) exp() exp(

     而评估标准ije 由于添加了词性故计算方法改为下式—— ) ] , [ tanh("1 1 j a i i a a ijh U s s W v e    ije 可以评估位置 j 周围的输入和位置 i 的输出匹配程度。在改进公式中得分基于 RNN 的词的隐藏层1  is 、词性的隐藏层"1  is 和输入语句的第 j 个注释jh ,相比于基准系统计算方式则是较为复杂一些。请注意,与传统的机器翻译不同,对齐不被认为是潜在变量。相反,对齐模型直接计算软对齐,这可以使成本函数的梯度反向传播。该梯度可以用于联合词和词性来训练对齐模型以及整个改进的翻译模型。

     同基准系统一样,在这里可以理解成将所有注释的加权总和作为计算预期注释的方法,其中期望在可能的对齐模型上。令ij 为目标单词iy 和目标单词的词性"iy 与源词jx 对齐或翻译的概率。然后,第 i 个上下文向量ic 是所有具有概率ij 的注释的期望注释。

     改进系统的概率ij 或其相关联的分值ije 则是反映了注释jh 相对于先前词的隐藏层1  is 以及词性的隐藏层"1  is 在决定下一隐藏层is 和"is 以及生成语句iy 和"iy 中的重要性。

     最后,将得出的两个条件概率相加,从而实现词和词性的联合对比。计算方式如下—— ) , ,..., | ( ) , ,..., | ( ) , ,..., | ("1"1"1 1 1 1x y y y p x y y y p x z z z pi i i i i i    

     苏州大学本科生毕业设计(论文)

      16

     图-5 改进系统的解码器结构 "1s

     "2s

     "ts

     1s

     2s

     ts

     1y2ytyic

     苏州大学本科生毕业设计(论文)

     17 第 第 4 章 实验分析

     本次实验采用定量分析,即在相同的语料集的情况下,使用这种基于编码器-解码器的神经机器翻译系统与同样的基于编码器-解码器的神经机器翻译系统但是也同时融入了词性信息的神经机器翻译系统进行翻译,最终将翻译结果进行比对,分析,进而可以得出结论。

     4.1 实验配置

     4.1.1 实验环境

     本次实验采用的是 DyNet2.0 系统和相应的 Lamtram 源代码。

     DyNet(前称 cnn)是由卡内基梅隆大学和其他公司共同开发的神经网络库。它是用 C ++编写的(在 Python 中有绑定),其设计目的是为在 CPU 或 GPU 上运行时提高效率,并且具有适合每个培训实例更改的动态结构的网络,这些类型的网络在自然语言处理任务中特别重要。DyNet 是一款被用于构建句法分析、机器翻译、形态变形以及其它诸多应用领域的先进系统。Lamtram 是一款基于 DyNet 的使用神经网络进行语言和翻译建模的工具包,具备与 DyNet 相适应的代码。

     4.1.2 数据集

     LDC(全名 Linguistic Data Consortium)是主要负责保存与分发科研要用到的语言数据的机构。LDC 成立于 1992 年,当时是为了给研究部门提供语料而创办的,运营则是由大学、图书馆、企业、政府、研究机构统一进行。而目前则主要由宾夕法尼亚大学负责运营。

     随着时间的积累,现在的 LDC 已经拥有非常多的语言数据资源了,同时也成为了主要的科研语言资源管理分发机构。其中每年大概新增 30~36 个语料。

     这次实验的训练集采用了 125 万句的 LDC 中-英平行双语句对,测试集则采用了美国国家标准与技术研究院 2002 年的数据。

     除了提到的平行语料库,不再使用任何单语言数据集,直接连接美国国家标准与技术研究院 2002 年的 NIST02、NIST03、NIST04、NIST05、NIST06 和 NIST08

     苏州大学本科生毕业设计(论文)

      18 数据集进行验证。其中不会对数据使用任何其他特殊的预处理,例如降低和干扰,从而保证实验结果的真实性。

     4.1.3 评价标准

     本次实验采用 BLEU 评测标准评价翻译质量。

     BLEU(Bilingual Evaluation Understudy)是一种为了评估已经从一种自然语言翻译到另一种自然语言的文本质量的算法。而翻译的质量则是由机器产出与人类产出之间的对应关系而判定的。

     BLEU 值的核心思想为——机器翻译结果越接近专业人工翻译的结果,则翻译质量越高。BLEU 的开创具有划时代的意义,因为其是第一个标准要求与人工翻译结果的质量的判断高度有关的相关度量。目前,在各种翻译系统中依旧充当着主要角色,依然是最流行的自动化和便宜的度量标准之一。BLEU 的优点有方便、快速、结果有较高的参考价值。

     BLEU 的输出始终是介于 0 和 100 之间的数字。此值表示候选文本与参考文本的相似程度,其值接近 100 表示更相似的文本。很少有人工翻译将获得 100 分,因为这表明候选人与参考翻译之一相同。出于这个原因,没有必要获得 100 分。因为有更多的机会匹配,添加额外的参考翻译将增加 BLEU 分数。

     4.2 模型

     在本次实验中,需要训练两种模型,一个是 RNN 编码器-解码器,另一个是新提出的融合词性信息的 RNN 编码器-解码器。

     在源端中,两种系统均是要将输入的词根据词表乘矩阵后可以得到词向量后,根据词向量转换为句子级别的正向与反向的隐藏层。

     在目标端中两种系统则会有所不同。RNN 编码器-解码器只是将源端生成的隐藏层与目标端的词进行比对,直接产生翻译结果。融合词性信息的 RNN 编码器-解码器则是将源端生成的隐藏层与目标端的词和词性进行联合比对,选择两者的BLEU 值相加值最大的作为翻译结果,最终进行评估。

     苏州大学本科生毕业设计(论文)

     19 4.3

     训练程序

     4.3.1

     参数初始化

     我们初始化了递归权矩阵 U ,zU ,rU , U,zU,rU, U,zU,rU为随机矩阵或正交矩阵。对于aW 和aU ,我们通过对均值为 0 和方差为2001 . 0 的高斯分布中的每个元素进行采样来初始化它们。aV 和所有偏差矢量的所有元素都初始化为零。通过从均值 0 和方差201 . 0 的高斯分布采样来初始化任何其他权重矩阵。

      4.3.2

     训练

     我们使用随机梯度下降(SGD)算法。Adadelta 用于自动调整每个参数的学习率(610    和 ρ= 0.95)。当规范大于阈值时,我们明确规范了成本函数梯度的L2 范数最多为预定义的阈值 1。每个 SGD 更新方向用 80 个句子的小批计算。在每次更新时,我们的实施需要的时间与最长句子的长度成比例。因此,为了尽量减少计算浪费,在每 20 次更新之前,我们检索 1600 个句子对,根据长度对它们进行排序并将它们分成 20 个小类。训练数据在训练前被洗牌一次,并按照这种方式顺序进行。

     4.4 定量结果

     在根据第二章所描述的基准系统的原理以及第三章所描述的改进系统的原理,通过最终计算出的概率 ) , ,..., | (1 1x y y y pi i 和 ) , ,..., | (1 1x z z z pi i ,最后通过脚本运行出两个不同系统的相应的分值,评估得分方式如图-6,分值如下表-1。

     苏州大学本科生毕业设计(论文)

      20

     图-6 评分系统结构

     数据集 NIST02 NIST03 NIST04 NIST05 NIST08 AVG Lamtram 37.42 35.46 38.32 35.71 26.03 34.59 Lamtram_pos 38.54 35.72 38.67 35.96 26.20 34.82 表-1 两种不同方法的实验结果数据

     在表-1 中,列出了两种不同方法对于不同数据集的关系强度。从表格中的数据可以得出,相较原本的 Lamtram 系统,融入了词性信息的 Lamtram_pos 系统的关系强度已经有了显著的提升,二者之间的平均关系强度相差了将近 0.3。

     Tranlation Reference BLEU 1y 2y ty

     苏州大学本科生毕业设计(论文)

     21

      表-2 两种不同方法实验结果的比较 从折线图中能更直观的看到不同的 NIST 语料下的系统翻译性能的走势。在不同的语料中,两种模型的翻译性能走势基本一致,其中融合词性信息的翻译系统的翻译结果要比基准翻译系统的翻译结果要好一些。但是目前总体的翻译性能还不是很强。不过在融合词性信息后有了些许提高,所以对于未来还是有发展空间的。

     苏州大学本科生毕业设计(论文)

      22 第 第 5 章 结

     论

     自神经网络机器翻译模型从诞生到现在,许多学者都在致力于模型改进或者是训练方法上的研究,为了提高翻译结果的质量,一直在融入其他信息以达到一个新的台阶。本文是在现有的神经网络翻译系统的基础上,提出了一种融入词性信息的神经机器翻译机制,借助于双向 RNN 编码器-解码器架构,将词和词性信息进行联合比对,并从 LDC 获得的语料中进行实验验证该方法的有效性。

     由于现在实现神经网络机器翻译的平台比较多,无法以偏概全。为了保证实验结果的普适性,所以最终采用了目前在 GitHub 上用途较为广泛的 DyNet2.0 系统和相应的 Lamtram 开源代码。实验一开始先对原生的 Lamtram 系统进行训练,最后得出使用基准系统翻译结果的关系强度大约为 34.59。得出实验结果后便将Lamtram 源代码进行修改,在目标端中添加了词性信息,与词相融合,为后续实验做铺垫。在对同样的语料进行翻译后,新的翻译结果的关系强度大约为 34.82,相比基准系统的结果提升了大约 0.3。根据对实验结果的分析和对神经机器翻译的工作机制的了解,得出进行融合词性信息的神经机器翻译可以提高翻译质量的必要性。

     本文所提出的方法在翻译质量上实现了与现有的基于短语的统计机器翻译相当的翻译性能。而神经机器翻译架构由于现世时间不长,可以说该方法有着很大的发展潜力,朝着高质量机器翻译迈出了坚实的一步。

     对于未知的或稀有的词汇,其词性信息并不是很明确的时候,这将会是未来面临的又一个挑战。但是这个挑战必须要被克服,因为这将是这款模型被更广泛地使用并适配于当前最先进的机器翻译系统在所有环境下进行高质量翻译的必要条件。

     苏州大学本科生毕业设计(论文)

     23 参考文献

     [1]Dzmitry Bahdanau, KyungHyun Cho, Yoshua Bengio. NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE[C].ICLR,2015 [2]陈炜.《基于神经网络的机器翻译技术研究》[D].北京:中国科学院大 学,2016 [3]玉霞,王斯日古楞.《蒙古文词性标注及融合词性因子的蒙汉统计机器翻译》[N].《内蒙古师大学报(自然汉文版)》,2015(3):364-367 [4]胡茹.《融合多种词义消歧结果的汉英机器翻译》[N].《电子技术与软件工程》,2016 (5) [5]姚振宇.《基于复述的机器翻译系统融合方法研究》[D].哈尔滨: 哈尔滨工业大学,2015 [6]陈宏申, 刘群.《利用编码器–解码器学习依存边翻译规则表示》[N].《中国科学:信息科学》,2017(8) [7]龚慧敏,段湘煜,张民.《自纠正词对齐》[J].《计算机科学》,2017(12) [8]马斌,蔡东风,季铎.《基于动态词对齐的交互式机器翻译》[J].《中文信 息学报》,2017(7) [9]刘洋.《神经机器翻译前沿进展》[J].《计算机研究与发展》,2017(6) [10]郭子扬.《神经机器翻译中的神经网络关算法改进》[J].《电子世界》,2018(1) [11]周海林,沈志贤.《谷歌神经机器翻译质量现状分析》[J].《科技资讯》,2018(1) [12]刘笛.《融合多语编码信息的神经机器翻译研究》[D]. 哈尔滨: 哈尔滨工业大学,2017 [13]朱聪慧,曹海龙,赵铁军,刘笛,杨沐昀,郑德权,徐冰.《融合多语编码信息的神经机器翻译方法》[P]哈尔滨: 哈尔滨工业大学,2017(7) [14]S Wu,D Zhang,N Yang,M Li,M Zhou. Sequence-to-Dependency Neural Machine Translation[C].Meeting of the Association for Computational,2017 [15]Mercedes Garcia-Martinez,Loïc Barrault,Fethi Bougares. Neural Machine Translation by Generating Multiple Linguistic Factors[C].5th International Conference Statistical Language and Speech Processing SLSP,2017 [16]Su Jinsong,Zeng Jiali,Xiong Deyi,Liu Yang, Wang Mingxuan,Xie Jun. A

     苏州大学本科生毕业设计(论文)

      24 Hierarchy-to-Sequence Attentional Neural Machine Translation Model[J].IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING,2018 [17]Álvaro Peris,Miguel Domingo,Francisco Casacuberta.Interactive neural machine translation[J].Computer Speech and Language,2017(45):201-220 [18]Tan Zhixing,Su Jinsong,Wang Boli,Chen Yidong,Shi Xiaodong. Lattice-to-sequence attentional Neural Machine Translation models[J].NEUROCOMPUTING,2018(284):138-147 [19]Lala Chiraag,Madhyastha Pranava,Wang Josiah,Specia Lucia. Unraveling the Contribution of Image Captioning and Neural Machine Translation for Multimodal Machine Translation[J].Prague Bulletin of Mathematical Linguistics,2017(108):197-208 [20]Castilho Sheila,Moorkens Joss,Gaspari Federico,Calixto Iacer,Tinsley John,Way Andy. Is Neural Machine Translation the New State of the Art?[J].Prague Bulletin of Mathematical Linguistics,2017(108):109-120

     苏州大学本科生毕业设计(论文)

     25 致谢

     经过了两个多月的努力,我最终完成了论文的写作。从开始接到论文题目到系统的实现,再到论文文章的完成,每走一步对我来说都是新的尝试与挑战,这也是我在大学期间独立完成的最大的项目。在这段时间里,我学到了很多知识也有很多感受,从一无所知,到独立的学习和试验,再到查看相关的资料和书籍,这一步接一步都使自己头脑中模糊的概念逐渐清晰,使自己十分稚嫩作品一步步完善起来。每一次改善都是我学习的收获,每一次试验的成功都会让我兴奋好一段时间。

     我的论文很不成熟,有很多的不足之处。但是这次做论文的经历使我终身受益。我感受到做论文是要真真正正用心去做的一件事情,是真正的自己学习的过程和研究的过程,没有学习就不可能有研究的潜力,没有自己的研究,就不会有所突破,那也就不叫论文了。期望这次的经历能让我在以后学习中激励我继续进步。

     最后要感谢在整个论文写作过程中帮助过我的每一位人。首先,也是最主要感谢的是我的指导老师,段湘煜老师。在整个过程中给予了我极大的指导与帮助,在论文任务书制定时,他首先肯定了我的大方向,并同时帮我具体分析了整个论文的具体框架,最后给我讲解了在 RNN 编码器-解码器系统里融入词性信息这个具体目标,让我在写作时有了具体方向。在完成初稿后,老师认真查看了我的文章,指出了我存在的很多问题。在此由衷地感谢段老师的悉心指导,让我顺利完成毕业论文。其次,要感谢给我讲解实验原理的王坤学长以及给予我外文资料的周孝青学长,由于对机器翻译的理解不够深刻,导致我的机器翻译基础概念很模糊,最终在两位学长的帮助下,使我对机器翻译有了一个新的认识。

     苏州大学本科生毕业设计(论文)

      26 附录

     A

     模型结构

     A.1

     模型选择

     第 3 节中提出的方案是一个通用框架,可以自由定义例如递归神经网络(RNN)的激活函数 f 和对准模型 a。在这里,我们描述了我们为本文中的实验所做的选择。

     A.1.1

     循环神经网络

     对于 RNN 的激活函数 f,我们使用最近提出的门控隐藏单元。门控隐藏单元是常规简单单元(如元素级单元)的替代品。这个门控单元与 Hochreiter 和Schmidhuber 早些时候提出的长期短期记忆(LSTM)单元类似,与它共享更好的模型和学习长期依赖性的能力。这是通过在展开的 RNN 中具有接近 1 的导数的计算路径而成为可能的。这些路径允许梯度容易地向后流动而不会受到消失效应的太多影响。因此,可以使用 LSTM 单元代替这里描述的门控隐藏单元,正如 Sutskever 等人在类似的背景下所做的那样。

     使用 n 个门控隐藏单元的 RNN 的新状态 s_i 由下式计算—— i i i i i i i is z s z c y s f         1 1 1) 1 ( ) , , ( s 其中◦是元素方式的乘法,iz 是更新门的输出。同时建议更新状态的is 由以下公式计算—— ) ] [ ) ( tanh( s1 1 i i i i iCc s r U y We     其中miR y e ) (1是单词1  iy 的 m 维嵌入,ir 是重置门的输出。iy 被表示为 1-K向量时, ) (iy e 仅仅是嵌入矩阵K mR E 的列。只要有可能,我们就会省略偏倚项以使方程更加混乱。

     更新门iz 允许每个隐藏单元保持其先前的激活,并且重置门ir 控制多少以及来自先前状态的信息应该被重置。其中,计算公式为—— ) ) ( ( z1 1 i i z i z i zc C s U y e W     ) ) ( ( r1 1 i r i r i r ic C s U y e W    

     苏州大学本科生毕业设计(论文)

     27 其中σ(·)是一个 logistic sigmoid 函数。在解码器的每一步,我们将输出概率计算为多层函数。我们使用一个单一的 maxout 单位隐藏层,并用 softmax 函数对输出概率(每个单词一个)进行归一化

     A.1.2 对齐模型

     对齐模型的设计应考虑到对于xT 和yT 长度的每个句对,需要评估y xT T  时间。为了减少计算量,采用了单层多层感知器—— ) tanh( ) , (1 1 j a i a a j ih U s W v h s  

     其中,nan nan naR U R U R W    , ,2是权重矩阵。由于j a hU 不依赖于其它各项,则可以预先以最小化计算其成本。

     A.2

     模型的详细描述

     A.2.1

     编码器

     在本节中,将详细描述在实验中使用的模型(RNNsearch)的体系结构。从这里开始,为了提高可读性而省略了所有偏差项。

     该模型将一个 K 个编码词向量的源语句作为输入—— xxKi TR x x x   ), ,..., ( X1 并输出 K 中的一个编码单词矢量的翻译后句子—— yyKi TR y y y   ), ,..., ( y1 其中xK 和yK 分别是源语言和目标语言的词汇量。xT 和yT 分别表示源语句和目标语句的长度。

     首先,计算双向递归神经网络(BiRNN)的正向状态——   0 , 00 , ) 1 (h1ii h z h zi i iii  其中 ]) [ tanh( h1 i  i i xh r U E Wi   ) ( z1 i  i z x zh U E Wi  

     ) ( r1 i  i r xr h U E Wi 

     苏州大学本科生毕业设计(论文)

      28 xK mR E 是字嵌入矩阵。n nr zm nr zR U U U R W W W       , , , , , 是权矩阵。m 和 n分别是单词的嵌入维数和隐藏单元的数量。σ(·)和往常一样是一个 logistic sigmoid 函数。

     反向...

    • 范文大全
    • 职场知识
    • 精美散文
    • 名著
    • 讲坛
    • 诗歌
    • 礼仪知识