本書介紹自然語(yǔ)言處理的一個(gè)應(yīng)用機(jī)器翻譯及相關(guān)知識(shí)。全書分為三部分。部分包含第1~4章,簡(jiǎn)要介紹機(jī)器翻譯中的問(wèn)題、機(jī)器翻譯技術(shù)的實(shí)際應(yīng)用及歷史,討論一直困擾機(jī)器翻譯領(lǐng)域的譯文質(zhì)量評(píng)價(jià)問(wèn)題。第二部分包含第5~9章,解釋神經(jīng)網(wǎng)絡(luò)、基本機(jī)器翻譯模型的設(shè)計(jì),以及訓(xùn)練和解碼的核心算法。第三部分包含第10~17章,既涵蓋構(gòu)建新模型的關(guān)鍵內(nèi)容,也涉及開放性的挑戰(zhàn)問(wèn)題和一些未解決問(wèn)題的前沿研究。本書主要面向?qū)W習(xí)自然語(yǔ)言處理或機(jī)器翻譯相關(guān)課程的本科生和研究生,以及相關(guān)研究領(lǐng)域的研究人員。
深度學(xué)習(xí)正在徹底改變當(dāng)今機(jī)器翻譯系統(tǒng)的構(gòu)建方式。本書從歷史、語(yǔ)言和應(yīng)用背景等方面介紹了機(jī)器翻譯和評(píng)價(jià)所面臨的挑戰(zhàn),講述了自然語(yǔ)言應(yīng)用中常用的深度學(xué)習(xí)核心方法。此外,本書還包含使用Python撰寫的代碼示例,為讀者理解和實(shí)現(xiàn)自己的機(jī)器翻譯系統(tǒng)提供了一個(gè)實(shí)踐藍(lán)本。本書內(nèi)容廣泛,涵蓋了機(jī)器學(xué)習(xí)技巧、處理各種形式的數(shù)據(jù)所涉及的問(wèn)題、模型增強(qiáng),以及分析和可視化面臨的挑戰(zhàn)和方法等內(nèi)容。
本書是對(duì)機(jī)器翻譯應(yīng)用當(dāng)前研究的一個(gè)總結(jié),可作為相關(guān)專業(yè)本科生和研究生的教材,也可以作為那些對(duì)神經(jīng)方法在人類語(yǔ)言處理更廣泛領(lǐng)域中的應(yīng)用感興趣的研究人員和開發(fā)人員的參考書。
【配套代碼及課程網(wǎng)站】獲取方式:
1、微信關(guān)注華章計(jì)算機(jī)
2、在后臺(tái)回復(fù)關(guān)鍵詞:神經(jīng)機(jī)器翻譯
作者寄語(yǔ)
Neural Machine Translation
It is an honor to see my second book on machine translation become available in Chinese. I would like to thank the translators Jiajun Zhang, Yang Zhao and Chengqing Zong to make this possible.
This book arrives at an exciting time for machine translation research in China. While data-driven methods have put a special emphasis on Chinese for two decades, this work has been taken on increasingly by researchers in China, both in academic institutions and the emerging artificial intelligence companies. I am looking forward to their continued contribution to the research field and I hope that the translation of this book may contribute to stimulate broad interest in this topic.
Success of machine translation models in the real world is measured by how useful it is for people to access information and communicate across language barriers. It is my ultimate hope that machine translation can play a role in improving understanding of people across the world, regardless of their native language. Enabling open exchange of ideas is essential not only for scientific research but also to the realization that all of humanity needs to work together to reach the common goal of life, liberty, and pursuit of happiness in harmony with nature.
很高興看到我的第二本關(guān)于機(jī)器翻譯的作品的中文版問(wèn)世。感謝三位譯者張家俊、趙陽(yáng)和宗成慶為此所做的一切。
本書的出版恰逢中國(guó)機(jī)器翻譯研究迅猛發(fā)展之時(shí)。在過(guò)去的二十年里,數(shù)據(jù)驅(qū)動(dòng)方法對(duì)中文給予了特別的重視,無(wú)論是在學(xué)術(shù)研究機(jī)構(gòu)內(nèi),還是在新興的人工智能公司中,中國(guó)的研究人員都做了大量工作。我期待著他們繼續(xù)為這一研究領(lǐng)域做出貢獻(xiàn),我也希望本書能夠激發(fā)人們對(duì)這一主題的廣泛興趣。
機(jī)器翻譯模型在現(xiàn)實(shí)世界中成功與否取決于它在獲取信息、跨越語(yǔ)言障礙進(jìn)行交流方面的實(shí)用性。我終希望機(jī)器翻譯能夠讓世界各地的人們?cè)鲞M(jìn)理解,不管他們的母語(yǔ)是什么。開放的思想交流不僅對(duì)于科學(xué)研究至關(guān)重要,而且對(duì)于全人類共同努力以實(shí)現(xiàn)自由生活,追求與自然和諧相處的幸福這一共同目標(biāo)同樣重要。
譯者序
Neural Machine Translation
本書作者菲利普·科恩(Philipp Koehn)于2010年出版了Statistical Machine Translation(劍橋大學(xué)出版社出版),該書成為國(guó)際統(tǒng)計(jì)機(jī)器翻譯領(lǐng)域頗具影響力的權(quán)威之作。宗成慶研究員牽頭翻譯了該著作并于2012年在國(guó)內(nèi)出版(即《統(tǒng)計(jì)機(jī)器翻譯》),為國(guó)內(nèi)統(tǒng)計(jì)機(jī)器翻譯技術(shù)研究和學(xué)習(xí)提供了一部重要的中文參考文獻(xiàn)。就在該書中文版出版一年左右時(shí),神經(jīng)機(jī)器翻譯方法被提出,并得到了飛速發(fā)展,端到端的神經(jīng)翻譯模型不僅成為該領(lǐng)域的主流范式,而且?guī)缀跏撬凶匀徽Z(yǔ)言處理任務(wù),甚至是眾多視頻和圖像處理任務(wù)的范式。正是在這種神經(jīng)模型盛行的大時(shí)代背景下,2020年菲利普·科恩出版了Neural Machine Translation(《神經(jīng)機(jī)器翻譯》)。這部教材不僅是對(duì)《統(tǒng)計(jì)機(jī)器翻譯》的擴(kuò)充和延伸,也是對(duì)神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)及其應(yīng)用技術(shù)的普及和推廣。
機(jī)械工業(yè)出版社劉鋒編輯慧眼識(shí)珠,以職業(yè)編輯敏銳的視角選擇了這部?jī)?yōu)秀著作,并聯(lián)系我們商討翻譯事宜;谥胺g《統(tǒng)計(jì)機(jī)器翻譯》的經(jīng)驗(yàn)和多年來(lái)與菲利普保持的友好關(guān)系,而且機(jī)器翻譯本身就是我們團(tuán)隊(duì)研究的主要方向之一,我們毫不猶豫地接受了這項(xiàng)翻譯任務(wù)。2020年秋天我們開始了全書的翻譯工作,經(jīng)過(guò)幾輪修改和校對(duì),2021年夏季翻譯完成,前后用了近一年時(shí)間。
本書前9章主要由趙陽(yáng)博士翻譯,后8章主要由張家俊研究員翻譯,宗成慶研究員對(duì)全書進(jìn)行統(tǒng)稿,并對(duì)照原文進(jìn)行了逐詞逐句的審校。中國(guó)科學(xué)院自動(dòng)化研究所自然語(yǔ)言處理研究組的部分研究生為本書的翻譯和初校給予了相應(yīng)的幫助,他們是金飛虎、陸金梁、王遷、閆璟輝、田科、王晨、伍凌輝、張志揚(yáng)、王世寧、何灝、賀楚祎、孫靜遠(yuǎn)、韓旭和盧宇。如果沒有他們的幫助,本書的出版必然要晚一些,在此謹(jǐn)向他們表示衷心的感謝!
在深度學(xué)習(xí)時(shí)代,機(jī)器翻譯技術(shù)得到了突破性的發(fā)展,翻譯質(zhì)量大幅提升。作為從事機(jī)器翻譯技術(shù)研究多年的學(xué)者,我們也曾設(shè)想是否可以利用當(dāng)前好的機(jī)器翻譯系統(tǒng)協(xié)助我們完成本書的翻譯工作,但遺憾的是,面對(duì)學(xué)術(shù)著作出版這類嚴(yán)肅的翻譯任務(wù),目前尚沒有一個(gè)機(jī)器翻譯系統(tǒng)能夠勝任,機(jī)器譯文中大量存在的術(shù)語(yǔ)翻譯不當(dāng)、前后翻譯不一致、錯(cuò)翻和漏翻等問(wèn)題讓我們不得不放棄這種投機(jī)幻想。當(dāng)然,作為機(jī)器翻譯研究者,我們也深知沒有一個(gè)公開的商業(yè)化機(jī)器翻譯系統(tǒng)是針對(duì)某個(gè)特定的技術(shù)領(lǐng)域開發(fā)的,否則出版社就沒必要找我們合作了。
受譯者的能力和水平所限,譯文中難免會(huì)有諸多欠缺和疏漏。為此,我們懇請(qǐng)讀者對(duì)任何不妥之處給予批評(píng)指正,提出寶貴的修改意見或建議!
當(dāng)本書作者菲利普·科恩教授得知我們正在將他這本著作翻譯成中文版時(shí)非常高興,欣然為中文版讀者撰寫了寄語(yǔ)。在此,我們向科恩教授表示衷心的感謝!
譯者
2021年7月
前 言
Neural Machine Translation
在Statistical Machine Translation出版十年后,機(jī)器翻譯技術(shù)發(fā)生了翻天覆地的變化。與人工智能中的其他領(lǐng)域一樣,深度神經(jīng)網(wǎng)絡(luò)已經(jīng)成為主流范式,在提高翻譯質(zhì)量的同時(shí)也帶來(lái)了新的挑戰(zhàn)。
你手里拿著的這本書于幾年前開始撰寫,并準(zhǔn)備作為我之前那本教科書第二版的一章,但是新的技術(shù)發(fā)展得如此迅速,以前的統(tǒng)計(jì)翻譯方法目前已經(jīng)很少使用,以至于原先準(zhǔn)備的一章內(nèi)容發(fā)展成了一本書。除了關(guān)于機(jī)器翻譯評(píng)價(jià)的章節(jié),這兩本書之間幾乎沒有重疊。對(duì)于對(duì)機(jī)器翻譯感興趣的新讀者來(lái)說(shuō),這是個(gè)好消息。我們都是在幾年前才重新開始了解該領(lǐng)域的,所以你們也并不落后。
雖然機(jī)器翻譯是自然語(yǔ)言處理的一個(gè)具體應(yīng)用,而且本書僅限于這種應(yīng)用,但這里介紹的概念仍然是解決許多其他語(yǔ)言問(wèn)題的關(guān)鍵基礎(chǔ)。文本分類、情感分析、信息抽取、文本摘要、自動(dòng)問(wèn)答與對(duì)話系統(tǒng)等應(yīng)用任務(wù)都采用了相似的模型和方法,因此本書介紹的技術(shù)適用于更加廣泛的領(lǐng)域,甚至其他類型的任務(wù),如語(yǔ)音識(shí)別、游戲、計(jì)算機(jī)視覺乃至自動(dòng)駕駛汽車,都建立在同樣的原理之上。
這本書能夠出版,得益于許多人的建議和反饋。我要特別感謝約翰斯·霍普金斯大學(xué)研究實(shí)驗(yàn)室以及語(yǔ)言和語(yǔ)音處理中心的同事Kevin Duh、Matt Post、Ben Van Durme、Jason Eisner、David Yarowsky、Sanjeev Khudanpur、Najim Dehak、Dan Povey、Raman Arora、Mark Dredze、Paul McNamee、Hynek Hermansky、Tom Lippincott、Shinji Watanabe,以及我的博士生Rebecca Knowles、Adi Renduchitala、Gaurav Kumar、Shuoyang Ding、Huda Khayrallah、Brian Thompson、Becky Marvin、Kelly Marchisio和Xutai Ma。還要感謝我之前工作過(guò)的愛丁堡大學(xué),那里的Barry Haddow、Lexi Birch、Rico Sennrich和Ken Heafield是神經(jīng)機(jī)器翻譯領(lǐng)域的先驅(qū)。我與許多研究人員進(jìn)行了卓有成效的討論,這拓寬了我的視野,雖然無(wú)法將他們一一列出,但我要明確感謝Holger Schwenk、Marcin Junczys-Dowmunt、Chris Dyer、Graham Neubig、Alexander Fraser、Marine Carpuat、Lucia Specia、Jon May、George Foster和Collin Cherry。這本書也得益于我在機(jī)器翻譯技術(shù)的實(shí)際部署上的經(jīng)驗(yàn)。我曾與Meta合作,為上百種語(yǔ)言開發(fā)了機(jī)器翻譯技術(shù),我要感謝Paco Guzmán、Vishrav Chaudhary、Juan Pino、Ahmed Kishky、Benxing Wu、Javad Dousti、Yuqing Tang、Don Husa、Denise Diaz、Qing Sun、Hongyu Gong、Shuohui、Ves Stoyanov、Xian Li、James Cross、Liezl Puzon、Dmitriy Genzel、Fazil Ayan、Myle Ott、Michael Auli和Franz Och。在與Dion Wiggins和Gregory Binger領(lǐng)導(dǎo)的Omniscien Technology的長(zhǎng)期合作中,我了解了商業(yè)機(jī)器翻譯市場(chǎng)的變化趨勢(shì)。我從Achim Ruopp、Kelly Marchisio、Kevin Duh、Mojtaba Sabbagh-Jafari、Parya Razmdide、Kyunghyun Cho、Chris Dyer和Rico Sennrich那里獲得了對(duì)本書初稿的寶貴反饋意見。
作者簡(jiǎn)介:
菲利普科恩(Philipp Koehn)是約翰斯霍普金斯大學(xué)計(jì)算機(jī)科學(xué)系的教授。他是機(jī)器翻譯領(lǐng)域的領(lǐng)軍人物,于2010年出版了教材Statistical Machine Translation(劍橋大學(xué)出版社出版,中文版為《統(tǒng)計(jì)機(jī)器翻譯》)。他曾獲國(guó)際機(jī)器翻譯協(xié)會(huì)頒發(fā)的榮譽(yù)獎(jiǎng),是2013年歐洲專利局歐洲發(fā)明家獎(jiǎng)的終三名入圍者之一。他還活躍在科技產(chǎn)業(yè)界,是Omniscien Technology公司的首席科學(xué)家、Meta公司的顧問(wèn)。
譯者簡(jiǎn)介:
張家俊,中國(guó)科學(xué)院自動(dòng)化研究所研究員、博士生導(dǎo)師,主要研究方向?yàn)闄C(jī)器翻譯和自然語(yǔ)言處理,曾獲得國(guó)家優(yōu)秀青年科學(xué)基金資助,入選中國(guó)科協(xié)首屆青年人才托舉工程和北京智源青年科學(xué)家。發(fā)表CCF-A/B類論文70余篇,出版學(xué)術(shù)專著2部,6次獲得/優(yōu)秀論文獎(jiǎng),3次被評(píng)為IJCAI、ACL和NAACL的杰出SPC和審稿人。曾獲得中國(guó)中文信息學(xué)會(huì)錢偉長(zhǎng)中文信息處理科學(xué)技術(shù)獎(jiǎng)一等獎(jiǎng)、青年創(chuàng)新獎(jiǎng)一等獎(jiǎng)和北京市科學(xué)技術(shù)獎(jiǎng)一等獎(jiǎng)等,曾擔(dān)任中國(guó)中文信息學(xué)會(huì)機(jī)器翻譯專委會(huì)副主任、青年工作委員會(huì)副主任,多次擔(dān)任ACL/EMNLP/COLING的(資深)領(lǐng)域主席。
趙陽(yáng),博士,中國(guó)科學(xué)院自動(dòng)化研究所助理研究員。2019年畢業(yè)于中國(guó)科學(xué)院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室,獲博士學(xué)位。畢業(yè)后留所工作,研究方向?yàn)樽匀徽Z(yǔ)言處理與機(jī)器翻譯,在國(guó)內(nèi)外相關(guān)學(xué)術(shù)會(huì)議(AAAI、IJCAI、EMNLP、COLING等)和著名期刊(TASLP、AI、TALLIP等)上發(fā)表20余篇論文。擔(dān)任國(guó)際權(quán)威期刊(TASLP等)的審稿人,多次擔(dān)任國(guó)際學(xué)術(shù)會(huì)議(ACL、COLING、IJCAI、AAAI)的程序委員會(huì)委員,擔(dān)任COLING-20的出版主席。作為負(fù)責(zé)人和參與人員,主持和參與國(guó)家自然基金、科技部重點(diǎn)研發(fā)計(jì)劃和中國(guó)科學(xué)院先導(dǎo)計(jì)劃等多項(xiàng)國(guó)家項(xiàng)目。
宗成慶,中國(guó)科學(xué)院自動(dòng)化研究所研究員、博士生導(dǎo)師,中國(guó)科學(xué)院大學(xué)崗位教授(A類),中國(guó)人工智能學(xué)會(huì)會(huì)士和中國(guó)計(jì)算機(jī)學(xué)會(huì)會(huì)士。主要從事自然語(yǔ)言處理、機(jī)器翻譯和語(yǔ)言認(rèn)知計(jì)算等研究,主持國(guó)家項(xiàng)目10余項(xiàng),發(fā)表論文200余篇,出版《統(tǒng)計(jì)自然語(yǔ)言處理》等專著三部和譯著一部,是國(guó)際計(jì)算語(yǔ)言學(xué)委員會(huì)(ICCL)委員、亞洲自然語(yǔ)言處理學(xué)會(huì)(AFNLP)主席和中國(guó)中文信息學(xué)會(huì)副理事長(zhǎng)。曾任國(guó)際一流學(xué)術(shù)會(huì)議ACL 2015程序委員會(huì)主席和ACL 2021大會(huì)主席。曾榮獲國(guó)家科技進(jìn)步獎(jiǎng)二等獎(jiǎng)和北京市科學(xué)技術(shù)獎(jiǎng)一等獎(jiǎng)等,曾獲北京市優(yōu)秀教師、中國(guó)科學(xué)院優(yōu)秀導(dǎo)師和寶鋼優(yōu)秀教師獎(jiǎng)等若干榮譽(yù),享受國(guó)務(wù)院特殊津貼。
作者寄語(yǔ)
譯者序
前言
閱讀指南
部分 緒論
第1章 翻譯問(wèn)題 2
1.1 翻譯的目標(biāo) 2
1.2 歧義性 4
1.2.1 詞匯翻譯問(wèn)題 4
1.2.2 短語(yǔ)翻譯問(wèn)題 4
1.2.3 句法翻譯問(wèn)題 5
1.2.4 語(yǔ)義翻譯問(wèn)題 5
1.3 語(yǔ)言學(xué)觀點(diǎn) 6
1.4 數(shù)據(jù)視角 9
1.4.1 忠實(shí)度 9
1.4.2 流暢度 10
1.4.3 齊普夫定律 11
1.5 實(shí)際問(wèn)題 13
1.5.1 公開的數(shù)據(jù) 13
1.5.2 評(píng)測(cè)活動(dòng) 13
1.5.3 工具集 14
第2章 機(jī)器翻譯的應(yīng)用 15
2.1 信息獲取 15
2.2 人工輔助翻譯 16
2.3 交流 18
2.4 自然語(yǔ)言處理的管道式系統(tǒng) 21
2.5 多模態(tài)機(jī)器翻譯 21
第3章 歷史回顧 23
3.1 神經(jīng)網(wǎng)絡(luò) 24
3.1.1 生物學(xué)啟發(fā) 24
3.1.2 感知器學(xué)習(xí) 25
3.1.3 多層網(wǎng)絡(luò) 25
3.1.4 深度學(xué)習(xí) 26
3.2 機(jī)器翻譯 27
3.2.1 密碼破譯 27
3.2.2 ALPAC報(bào)告與后續(xù)影響 27
3.2.3 首個(gè)商用系統(tǒng) 28
3.2.4 基于中間語(yǔ)言的翻譯系統(tǒng) 28
3.2.5 數(shù)據(jù)驅(qū)動(dòng)的方法 28
3.2.6 開源的研發(fā)環(huán)境 29
3.2.7 深入用戶 30
3.2.8 神經(jīng)翻譯的興起 30
第4章 評(píng)價(jià)方法 32
4.1 基于任務(wù)的評(píng)價(jià) 32
4.1.1 真實(shí)世界的任務(wù) 33
4.1.2 內(nèi)容理解 33
4.1.3 譯員翻譯效率 34
4.2 人工評(píng)價(jià) 35
4.2.1 忠實(shí)度和流暢度 35
4.2.2 排序 37
4.2.3 連續(xù)分?jǐn)?shù) 38
4.2.4 眾包評(píng)價(jià) 40
4.2.5 人工譯文編輯率 41
4.3 自動(dòng)評(píng)價(jià)指標(biāo) 41
4.3.1 BLEU 42
4.3.2 同義詞和形態(tài)變體 43
4.3.3 TER 44
4.3.4 characTER 45
4.3.5 自舉重采樣 45
4.4 指標(biāo)研究 47
4.4.1 關(guān)于評(píng)價(jià)的爭(zhēng)論 47
4.4.2 對(duì)評(píng)價(jià)指標(biāo)的評(píng)價(jià) 48
4.4.3 自動(dòng)評(píng)價(jià)指標(biāo)缺點(diǎn)的相關(guān)證據(jù) 49
4.4.4 新的評(píng)價(jià)指標(biāo) 50
第二部分 基礎(chǔ)
第5章 神經(jīng)網(wǎng)絡(luò) 54
5.1 線性模型 54
5.2 多層網(wǎng)絡(luò) 55
5.3 非線性模型 56
5.4 推斷 57
5.5 反向傳播訓(xùn)練 59
5.5.1 輸出節(jié)點(diǎn)權(quán)重 60
5.5.2 隱藏層節(jié)點(diǎn)權(quán)重 61
5.5.3 公式總結(jié) 63
5.5.4 權(quán)重更新示例 63
5.5.5 驗(yàn)證集 64
5.6 探索并行處理 65
5.6.1 向量和矩陣運(yùn)算 65
5.6.2 小批量訓(xùn)練 65
5.7 動(dòng)手實(shí)踐:使用Python實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò) 66
5.7.1 Numpy庫(kù)中的數(shù)據(jù)結(jié)構(gòu)和函數(shù) 66
5.7.2 前向計(jì)算 67
5.7.3 反向計(jì)算 67
5.7.4 鏈?zhǔn)椒▌t的重復(fù)使用 68
5.8 擴(kuò)展閱讀 71
第6章 計(jì)算圖 72
6.1 用計(jì)算圖描述神經(jīng)網(wǎng)絡(luò) 72
6.2 梯度計(jì)算 73
6.3 動(dòng)手實(shí)踐:深度學(xué)習(xí)框架 77
6.3.1 利用PyTorch實(shí)現(xiàn)前向和反向計(jì)算 77
6.3.2 循環(huán)訓(xùn)練 79
6.3.3 批訓(xùn)練 80
6.3.4 優(yōu)化器 81
第7章 神經(jīng)語(yǔ)言模型 83
7.1 前饋神經(jīng)語(yǔ)言模型 83
7.1.1 表征單詞 84
7.1.2 神經(jīng)網(wǎng)絡(luò)架構(gòu) 85
7.1.3 訓(xùn)練 86
7.2 詞嵌入 86
7.3 噪聲對(duì)比估計(jì) 88
7.4 循環(huán)神經(jīng)語(yǔ)言模型 89
7.5 長(zhǎng)短時(shí)記憶模型 91
7.6 門控循環(huán)單元 93
7.7 深度模型 94
7.8 動(dòng)手實(shí)踐:PyTorch中的神經(jīng)語(yǔ)言模型 96
7.8.1 循環(huán)神經(jīng)網(wǎng)絡(luò) 96
7.8.2 文本處理 97
7.8.3 循環(huán)訓(xùn)練 98
7.8.4 建議 99
7.9 擴(kuò)展閱讀 100
第8章 神經(jīng)翻譯模型 101
8.1 編碼器解碼器方法 101
8.2 添加對(duì)齊模型 102
8.2.1 編碼器 102
8.2.2 解碼器 103
8.2.3 注意力機(jī)制 104
8.3 訓(xùn)練 106
8.4 深度模型 108
8.4.1 解碼器 108
8.4.2 編碼器 109
8.5 動(dòng)手實(shí)踐:利用PyTorch實(shí)現(xiàn)神經(jīng)翻譯模型 110
8.5.1 編碼器 111
8.5.2 解碼器 111
8.5.3 訓(xùn)練 113
8.6 擴(kuò)展閱讀 115
第9章 解碼 116
9.1 柱搜索 116
9.2 集成解碼 119
9.2.1 生成候選系統(tǒng) 120
9.2.2 融合系統(tǒng)輸出 120
9.3 重排序 121
9.3.1 利用從右到左解碼的重排序 121
9.3.2 利用反向模型的重排序 122
9.3.3 增加n-best列表的多樣性 122
9.3.4 評(píng)分組件的權(quán)重學(xué)習(xí) 123
9.4 優(yōu)化解碼 126
9.5 約束解碼 127
9.5.1 XML模式 127
9.5.2 網(wǎng)格搜索 127
9.5.3 強(qiáng)制注意力 128
9.5.4 評(píng)價(jià) 129
9.6 動(dòng)手實(shí)踐:Python中的解碼 129
9.6.1 假設(shè) 129
9.6.2 柱空間 129
9.6.3 搜索 131
9.6.4 輸出譯文 132
9.7 擴(kuò)展閱讀 133
第三部分 提高
第10章 機(jī)器學(xué)習(xí)技巧 138
10.1 機(jī)器學(xué)習(xí)中的問(wèn)題 138
10.2 確保隨機(jī)性 140
10.2.1 打亂訓(xùn)練數(shù)據(jù) 141
10.2.2 權(quán)重初始化 141
10.2.3 標(biāo)簽平滑 142
10.3 調(diào)整學(xué)習(xí)率 142
10.3.1 動(dòng)量項(xiàng) 142
10.3.2 調(diào)整每個(gè)參數(shù)的學(xué)習(xí)率 143
10.3.3 批梯度更新 144
10.4 避免局部 145
10.4.1 正則化 145
10.4.2 課程學(xué)習(xí) 145
10.4.3 drop-out法 146
10.5 處理梯度消失和梯度爆炸問(wèn)題 147
10.5.1 梯度裁剪 147
10.5.2 層歸一化 147
10.5.3 捷徑連接和高速連接 148
10.5.4 LSTM和梯度消失 149
10.6 句子級(jí)優(yōu)化 150
10.6.1 小風(fēng)險(xiǎn)訓(xùn)練 150
10.6.2 生成對(duì)抗訓(xùn)練 151
10.7 擴(kuò)展閱讀 152
第11章 替代架構(gòu) 155
11.1 神經(jīng)網(wǎng)絡(luò)組件 155
11.1.1 前饋層 155
11.1.2 因子分解 156
11.1.3 基本的數(shù)學(xué)運(yùn)算 157
11.1.4 循環(huán)神經(jīng)網(wǎng)絡(luò) 158
11.1.5 卷積神經(jīng)網(wǎng)絡(luò) 159
11.2 注意力模型 160
11.2.1 注意力計(jì)算 160
11.2.2 多頭注意力 161
11.2.3 細(xì)粒度注意力 162
11.2.4 自注意力 162
11.3 卷積機(jī)器翻譯模型 163
11.4 融合注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò) 165
11.4.1 編碼器 165
11.4.2 解碼器 166
11.4.3 注意力 167
11.5 自注意力:Transformer 167
11.5.1 自注意力層 167
11.5.2 解碼器中的注意力 168
11.6 擴(kuò)展閱讀 171
第12章 重溫單詞 173
12.1 詞嵌入 173
12.1.1 潛在語(yǔ)義分析 174
12.1.2 連續(xù)詞袋模型 175
12.1.3 Skip Gram 176
12.1.4 GloVe 176
12.1.5 ELMo 177
12.1.6 BERT 178
12.2 多語(yǔ)言詞嵌入 178
12.2.1 特定語(yǔ)言詞嵌入之間的映射 179
12.2.2 語(yǔ)言無(wú)關(guān)的詞嵌入 180
12.2.3 僅使用單語(yǔ)數(shù)據(jù) 180
12.3 大詞匯表 182
12.3.1 低頻詞的特殊處理 182
12.3.2 字節(jié)對(duì)編碼算法 183
12.3.3 句子片段化算法 184
12.3.4 期望化訓(xùn)練 185
12.3.5 子詞正則化 185
12.4 基于字符的模型 186
12.4.1 字符序列模型 186
12.4.2 基于字符的單詞表示模型 186
12.4.3 集成基于字符的模型 188
12.5 擴(kuò)展閱讀 189
第13章 領(lǐng)域自適應(yīng) 195
13.1 領(lǐng)域 195
13.1.1 語(yǔ)料庫(kù)之間的差異 196
13.1.2 多領(lǐng)域場(chǎng)景 197
13.1.3 領(lǐng)域內(nèi)與領(lǐng)域外 198
13.1.4 自適應(yīng)效應(yīng) 198
13.1.5 合理的警告 199
13.2 混合模型 199
13.2.1 數(shù)據(jù)插值 199
13.2.2 模型插值 200
13.2.3 領(lǐng)域感知訓(xùn)練 201
13.2.4 主題模型 202
13.3 欠采樣 204
13.3.1 Moore-Lewis:語(yǔ)言模型交叉熵 204
13.3.2 基于覆蓋范圍的方法 205
13.3.3 樣本加權(quán) 206
13.4 微調(diào) 206
13.4.1 約束更新 207
13.4.2 文檔級(jí)自適應(yīng) 208
13.4.3 句子級(jí)自適應(yīng) 209
13.4.4 課程訓(xùn)練 210
13.5 擴(kuò)展閱讀 210
第14章 超越平行語(yǔ)料庫(kù) 214
14.1 使用單語(yǔ)數(shù)據(jù) 215
14.1.1 增加語(yǔ)言模型 215
14.1.2 回譯 216
14.1.3 迭代回譯 217
14.1.4 往返訓(xùn)練 217
14.2 多種語(yǔ)言對(duì) 218
14.2.1 多種輸入語(yǔ)言 219
14.2.2 多種輸出語(yǔ)言 219
14.2.3 共享模塊 220
14.3 訓(xùn)練相關(guān)任務(wù) 221
14.3.1 預(yù)訓(xùn)練詞嵌入 221
14.3.2 預(yù)訓(xùn)練編碼器和解碼器 221
14.3.3 多任務(wù)訓(xùn)練 222
14.4 擴(kuò)展閱讀 222
第15章 語(yǔ)言學(xué)結(jié)構(gòu) 228
15.1 有指導(dǎo)的對(duì)齊訓(xùn)練 228
15.2 建模覆蓋度 230
15.2.1 在推斷過(guò)程中約束覆蓋度 230
15.2.2 覆蓋度模型 231
15.2.3 繁衍率 232
15.2.4 特征工程與機(jī)器學(xué)習(xí) 232
15.3 添加語(yǔ)言學(xué)標(biāo)注 233
15.3.1 輸入句子的語(yǔ)言學(xué)標(biāo)注 233
15.3.2 輸出句子的語(yǔ)言學(xué)標(biāo)注 234
15.3.3 語(yǔ)言學(xué)結(jié)構(gòu)化的模型 235
15.4 擴(kuò)展閱讀 236
第16章 當(dāng)前挑戰(zhàn) 238
16.1 領(lǐng)域不匹配 238
16.2 訓(xùn)練數(shù)據(jù)規(guī)模 240
16.3 稀有詞 241
16.4 噪聲數(shù)據(jù) 243
16.4.1 真實(shí)世界中的噪聲 243
16.4.2 合成噪聲 245
16.4.3 噪聲對(duì)翻譯質(zhì)量的影響 246
16.5 柱搜索 248
16.6 詞對(duì)齊 250
16.7 擴(kuò)展閱讀 251
第17章 分析與可視化 253
17.1 錯(cuò)誤分析 253
17.1.1 神經(jīng)機(jī)器翻譯的典型錯(cuò)誤 253
17.1.2 語(yǔ)言學(xué)錯(cuò)誤類型 255
17.1.3 真實(shí)世界中的研究案例 256
17.1.4 目標(biāo)測(cè)試集 257
17.1.5 合成語(yǔ)言 259
17.2 可視化 259
17.2.1 詞嵌入 260
17.2.2 編碼器狀態(tài):詞義 261
17.2.3 注意力機(jī)制 262
17.2.4 多頭注意力機(jī)制 263
17.2.5 語(yǔ)言模型預(yù)測(cè)中的記憶 264
17.2.6 解碼器狀態(tài) 266
17.2.7 柱搜索 266
17.3 探測(cè)向量表示 267
17.3.1 分類器方法 267
17.3.2 實(shí)驗(yàn)發(fā)現(xiàn) 268
17.4 分析神經(jīng)元 269
17.4.1 認(rèn)知理論 269
17.4.2 個(gè)體神經(jīng)元 269
17.4.3 揭示神經(jīng)元 271
17.5 追溯模型決策過(guò)程 271
17.5.1 層級(jí)間相關(guān)性傳遞 271
17.5.2 相關(guān)性傳遞在機(jī)器翻譯中的應(yīng)用 273
17.5.3 顯著性計(jì)算 274
17.6 擴(kuò)展閱讀 275
參考文獻(xiàn) 279