機器翻譯(MachineTranslation,MT)是指利用計算機實現從一種自然語言(稱為源語言)到另一種自然語言(稱為目標語言)的自動翻譯的過程和技術,是人工智能(ArtificialIntelligence,AI)和自然語言處理(NaturalLanguageProcessing,NLP)領域的重要應用和熱點問題之一。本書從數據驅動的機器翻譯角度介紹了統計機器翻譯和神經機器翻譯的基本模型和技術,機器翻譯的評價方法及領域內相關會議。在此基礎上,首先梳理了句法、語義等語言學知識在數據驅動機器翻譯中的應用,包含了統計機器翻譯、神經機器翻譯及句法知識與神經機器翻譯的聯合學習模型。接下來,介紹了其他語言學知識在數據驅動機器翻譯中的應用,如句對齊、翻譯記憶、詞形等。此外還介紹了數據驅動機器翻譯中常見的的零代詞問題以及多語言訓練問題。最后,本書對數據驅動的機器翻譯研究內容進行了總結,并展望未來研究方向。
第1章 緒論 1
1.1 研究背景及意義 1
1.2 機器翻譯發(fā)展簡史 2
1.3 研究內容及全書總覽 4
參考文獻 8
第2章 基礎理論 9
2.1 基于規(guī)則的機器翻譯 9
2.2 基于實例的機器翻譯 10
2.3 統計機器翻譯 11
2.3.1 噪聲信道模型 11
2.3.2 對數線性模型 12
2.3.3 基于短語的統計機器翻譯模型 12
2.3.4 基于句法的統計機器翻譯模型 14
2.3.5 語言模型 16
2.3.6 統計機器翻譯存在的問題 20
2.4 神經機器翻譯 20
2.4.1 基于循環(huán)神經網絡的神經機器翻譯模型 21
2.4.2 基于卷積神經網絡的神經機器翻譯模型 24
2.4.3 基于注意力網絡的神經機器翻譯模型 27
2.4.4 束搜索 30
2.4.5 神經機器翻譯存在的問題及發(fā)展趨勢 31
參考文獻 34
第3章 基于句法語義知識的統計機器翻譯 44
3.1 引言 44
3.2 基于句法和語義的統計機器翻譯基礎方法 45
3.2.1 基于句法的統計機器翻譯模型 46
3.2.2 語義角色標注 47
3.2.3 語義角色標注在統計機器翻譯中的應用 48
3.2.4 串到樹模型 49
3.3 基于淺層語義結構的統計機器翻譯 52
3.3.1 謂詞-論元增強型句法樹 52
3.3.2 句法補充的謂詞-論元樹 54
3.3.3 翻譯規(guī)則的學習 55
3.3.4 實驗與分析 56
3.4 基于句法語言模型的統計機器翻譯 62
3.4.1 句法語言建模的基礎方法 62
3.4.2 融合淺層句法特征的循環(huán)神經網絡語言模型 63
3.5 本章小結 70
參考文獻 71
第4章 句法知識與神經機器翻譯聯合學習模型 82
4.1 引言 82
4.2 樹結構學習的基礎方法 83
4.2.1 樹結構的神經網絡編碼器 84
4.2.2 樹結構的神經網絡解碼器 85
4.2.3 無監(jiān)督樹學習 85
4.2.4 利用統計機器翻譯短語表 87
4.2.5 在神經機器翻譯中學習短語 87
4.2.6 基于句法的神經機器翻譯 88
4.2.7 對齊學習 89
4.3 源端句法信息與神經機器翻譯聯合學習模型 89
4.3.1 無監(jiān)督樹編碼器 90
4.3.2 無監(jiān)督樹與神經機器翻譯聯合學習 92
4.3.3 實驗分析 97
4.3.4 實例分析 101
4.4 雙語句法成分對齊與神經機器翻譯聯合學習模型 105
4.4.1 概述 105
4.4.2 無監(jiān)督樹編碼器 107
4.4.3 對齊樣本構建 107
4.4.4 深度度量損失 108
4.4.5 實驗分析 109
4.5 基于跨語言句法互信息的機器翻譯 114
4.5.1 概述 114
4.5.2 雙語句法對齊 117
4.5.3 最大化雙語句法相互依存 120
4.5.4 實驗分析 121
4.6 本章小結 126
參考文獻 126
第5章 基于句子對齊信息的機器翻譯訓練 138
5.1 引言 138
5.2 問題分析 141
5.3 基于自注意力機制的對齊判別器 143
5.3.1 基于門控自注意力網絡的句子編碼器 144
5.3.2 句子對齊得分計算與判別器損失函數 145
5.3.3 判別器訓練數據構建與預訓練 146
5.4 基于對齊信息的神經機器翻譯對抗訓練 147
5.4.1 判別損失函數 147
5.4.2 Gumbel-Softmax 采樣 148
5.4.3 教師強制步驟 149
5.4.4 固定的判別器與對抗的判別器 149
5.5 基于對齊感知的神經機器翻譯解碼方法 150
5.5.1 融合判別器得分的解碼得分 151
5.5.2 融合基于對齊的價值網絡解碼 151
5.6 本章小結 152
參考文獻 157
第6章 融合翻譯記憶的神經機器翻譯方法 163
6.1 引言 163
6.2 問題分析 163
6.3 融合翻譯記憶相似度的文本預處理方法 165
6.3.1 模板 165
6.3.2 相關工作 166
6.3.3 基于多維相似度的機器翻譯測試集預處理策略 167
6.4 融合翻譯記憶的機器翻譯訓練方法 170
6.4.1 引言 170
6.4.2 相關工作 171
6.4.3 基于多維相似度的機器翻譯訓練方法 172
6.4.4 實驗分析 174
6.5 融合模板翻譯記憶的神經機器翻譯方法 178
6.5.1 概述 178
6.5.2 相關工作 179
6.5.3 翻譯模板的定義與構建 180
6.5.4 融合模板翻譯記憶的神經機器翻譯 187
6.5.5 實驗分析 191
6.6 本章小結 197
參考文獻 198
第7章 詞形預測與神經機器翻譯聯合模型 202
7.1 引言 202
7.2 問題分析 204
7.2.1 拉丁字符大小寫對神經機器翻譯的影響 204
7.2.2 單詞陰陽性對機器翻譯的影響 206
7.3 大小寫敏感的神經機器翻譯 207
7.3.1 神經機器翻譯模型 207
7.3.2 引入大寫標注的神經機器翻譯 208
7.3.3 神經機器翻譯與大寫預測聯合學習 209
7.4 性別敏感的神經機器翻譯 212
7.4.1 性別平衡偽數據構建方法 213
7.4.2 插入性別標注 214
7.4.3 性別預測與機器翻譯聯合建模 214
7.5 本章小結 215
參考文獻 218
第8章 融合零代詞信息的機器翻譯方法 225
8.1 引言 225
8.2 零代詞推斷的基礎方法 227
8.2.1 基于規(guī)則的方法 227
8.2.2 序列標注法 228
8.2.3 融入語義特征的方法 229
8.3 基于特征的零代詞推斷方法 232
8.3.1 融入雙語信息的語料重構 232
8.3.2 零代詞處理方法 235
8.4 基于CRF和SVM的零代詞信息構建方法 236
8.4.1 基于CRF的零代詞位置標注 236
8.4.2 基于SVM的零代詞分類 238
8.5 基于深度學習的零代詞信息構建方法 242
8.5.1 基于LSTM的零代詞位置標注 243
8.5.2 基于LSTM的零代詞分類 245
8.5.3 基于編碼器-解碼器架構的零代詞重構模型 245
8.6 融合零代詞信息的統計機器翻譯 247
8.6.1 概述 247
8.6.2 語料預處理方法 247
8.6.3 概率特征方法 248
8.6.4 譯文重排序方法 250
8.6.5 實驗分析 251
8.6.6 實驗結果及分析 254
8.7 基于無監(jiān)督樹學習和零代詞重構的神經機器翻譯 258
8.7.1 概述 258
8.7.2 基于零代詞重構的口語機器翻譯模型 259
8.7.3 實驗及分析 263
8.8 本章小結 271
參考文獻 271
第9章 基于因果推斷的譯文評分去噪聲方法 274
9.1 引言 274
9.2 相關工作和背景知識 278
9.2.1 NMT譯文長度偏置問題 278
9.2.2 句子級譯文質量直接估計任務 281
9.3 基于HSR的譯文評分降噪方法 283
9.3.1 基于HSR的NMT解碼長度偏置修正 283
9.3.2 討論 285
9.3.3 譯文質量估計系統輸出降噪方法 287
9.4 NMT長度偏置消除實驗 290
9.4.1 回歸模型的選擇 292
9.4.2 方法自適應性 294
9.5 譯文質量估計系統去噪聲實驗 296
9.6 本章小結 299
參考文獻 299
第10章 機器翻譯評價及相關評測會議 306
10.1 機器翻譯評價指標 307
10.1.1 準確率和召回率 307
10.1.2 BLEU評價指標 308
10.1.3 詞錯誤率WER 308
10.1.4 翻譯編輯率TER 309
10.1.5 NIST評價指標 309
10.1.6 METEOR評價指標 310
10.2 機器翻譯大會WMT 310
10.3 全國機器翻譯大會CCMT 312
10.4 國際口語翻譯大會IWSLT 313
10.5 NIST機器翻譯公開評測 314
10.6 亞洲語言機器翻譯研討會WAT 315
參考文獻 316
第11章 總結與展望 319
11.1 本書總結 319
11.2 未來研究方向展望 320