Grishman(1986;4)將計算語言學(computational linguistics)定義為一門研究如何利用計算機來理解和生成自然語言的科學。這指明了計算語言學的研究目標和研究手段。理解和生成自然語言,是計算語言學的研究目標;利用計算機,是計算語言學的研究手段。更確切地說,是利用計算機建立傳輸說話者所表述和聽話者所理解的信息的計算模型(Hausser,2014:xix)。Allen(1995:3)則認為計算語言學的目標應該表述為:利用計算機科學的算法和數(shù)據(jù)結構來建立語言的計算理論。
要實現(xiàn)語言的生成,首先得要實現(xiàn)計算機對自然語言的理解。有人認為,現(xiàn)階段提出理解目標不切實際,因為目前占主流地位的統(tǒng)計方法和深度學習的方法所達到的目標只是處理,還談不上理解。更進一步說。并非經(jīng)過理解才能處理。但是,統(tǒng)計方法只是解決問題的方法之一,它不能處理所有的語言問題;深度學習也不能真正理解語言,計算機所理解的人類語言不過是一種模仿或者復述。只有真正理解了人類語言,才能實現(xiàn)語言的生成。
要使計算機理解自然語言,必須使之具備以下自然語言知識(Allen,1995):
·語音和音系學知識:主要關注語音怎樣轉化為詞;
·形態(tài)學知識:主要關注詞素怎樣構成詞;
·句法知識:主要關注詞怎樣構成句子;
·語義知識:主要關注詞義怎樣構成句義;
·語用知識:主要關注句子在不同語境中的使用;
·語篇知識:主要關注上下句之間的關系;
·世界知識:主要指說話者和聽話者所具備的對外部世界的認知。
通常來說,計算機要具備的自然語言知識似乎和傳統(tǒng)語言學和現(xiàn)代語言學的內容大致相當。傳統(tǒng)語言學著重語言事實的描寫,經(jīng)驗性質比較突出,F(xiàn)代語言學,例如喬姆斯基語言學(Chomskyan linguistics ).
理論性非常強,已經(jīng)脫離了經(jīng)驗科學的范疇,我們稱之為理論語言學。但計算語言學和這兩者是有本質區(qū)別的。
理論語言學和計算語言學都是研究自然語言的,但服務對象有所不同:前者是面向人的,后者是面向計算機的。計算語言學是一門實驗科學,所以它提出的問題既要符合自然語言處理的實際需要,又要用現(xiàn)有的計算機技術解決。超出計算機的能力,就不具有可行性。此外,計算語言學中研究對象的定義必須明確,不能含期。例如漢語詞的定義,理論語言學上的定義是:詞是最小的、能獨立運用的語言單位,但這一定義并不清晰。語言學家也分析了詞的一些特征,例如結合緊密、使用穩(wěn)定等,但沒有定量標準,這樣的定義對計算機來說是無益的。計算語言學中詞的定義,簡言之,能在分詞詞表中找到的就是詞,否則就不是詞,或者是未登錄詞。這樣,計算機就在詞表中查找,能找到的就是詞,找不到的就劃歸到未登錄詞里做下一步處理。
理論語言學研究主要不是考慮計算機的應用,因此無法提出自然語言處理的問題和理論。例如,漢語自動分詞(Chinese word segmentqtion)問題就是從中文信息處理角度提出來的,漢語理論語言學研究從來沒有、也不可能提出這樣的問題。此外,理論語言學不一定要形式化,也沒有為形式化提供任何手段。形式化是數(shù)學表示的問題,包括兩個方面:一是問題本身的形式化描述;二是解決問題的方法的形式化描述,后者通常用數(shù)學模型來體現(xiàn)。要讓計算機掌握和具備以上的語言知識,計算語言學研究者首先得將這些知識形式化,并將其用算法的形式在計算機上加以實現(xiàn)。
從宏觀上看,計算語言學的基本方法有兩種:基于規(guī)則的方法和基于經(jīng)驗的方法。前者的理論基礎是語言學上的理性主義(rationalism).以喬姆斯基理論為代表。喬姆斯基(Chomsky,1986;5)認為人的語言知識通過某種方式表現(xiàn)在我們的心智之中,最終表現(xiàn)在我們的大腦之中,這種知識的結構我們希望能夠抽象地描寫出來,用具體的原則、根據(jù)物質機制描寫出來。語言學研究的目標是人類的這種語言能力。
言語是語言能力的具體表現(xiàn),不是語言學應該關注的重點。理性主義方法的特點是演繹法。從原則和參數(shù)演繹出規(guī)則。從規(guī)則推導出具體的句子。喬姆斯基語言學雖然不屬于計算語言學,但對于計算語言學的形成和發(fā)展有重大影響;谝(guī)則的計算語言學研究方法中的理性主義體現(xiàn)在兩個方面:第一,目標定位于自然語言理解,希望在理解的基礎上來處理自然語言;第二,方法的核心是基于規(guī)則,希望根據(jù)通過內省和滴繹得到的一整套規(guī)則來處理自然語言。
而基于經(jīng)驗的方法的理論基礎是經(jīng)驗主義(empiricism),來源于香農(nóng)的信息論。信息論認為語言事件(語言表現(xiàn))是有概率的,可以通過統(tǒng)計得到這些概率,從而對自然語言處理(natural language processing.NLP)的各種具體問題進行決策。經(jīng)驗主義方法的特點是歸納法,集中體現(xiàn)為語料庫語言學。與理性主義相對立,經(jīng)驗主義認為,完成自然語言處理任務不一定要經(jīng)過理解的階段。通過內省和演繹得到的規(guī)則往往是顆粒度較大的語言知識,只有通過運用統(tǒng)計方法。才能自動獲得大量的、帶概率的小顆粒度語言知識,從而處理大規(guī)模真實文本。
馮志偉(2005)將計算機對語言的研究和處理劃分為以下四個階段:
(1)把需要研究的問題在語言學上加以形式化,建立語言的形式化模型,使之能以一定的數(shù)學形式,嚴密面規(guī)整地表示出來;
(2)把這種嚴密而規(guī)整的數(shù)學形式表示為算法,使之在計算上形式化;
(3)根據(jù)算法編寫計算機程序,使之在計算機上加以實現(xiàn),建立各種實用的自然語言處理系統(tǒng);
(4)對于建立的自然語言處理系統(tǒng)進行評測,使之不斷地改進質量和性能,以滿足用戶的要求。
自然語言處理的這四個階段可以簡單概括為:數(shù)學模型算法表示程序實現(xiàn)質量評測。計算語言學會涉及上述四個階段的哪個階段或者哪些階段,目前學界和業(yè)界對此認識并不明晰。計算語言學和自然語言處理的學科分界尚不明確。
一般情況下,學界對于計算語言學和自然語言處理這兩個術語是不加區(qū)分的。因為兩者的本質是基本相同的,區(qū)別可能僅僅在于自然語言處理更注重實踐,而計算語言學較重視理論。在《牛津計算語言學手冊》(The Oxford Handbook of Computational Linguistics)第一版(2003)中尚能看到兩者的明顯區(qū)別;全書分為三部分第一部分基礎篇、第二部分方法與資源篇、第三部分應用篇,自然語言處理的內容大都被放在第三部分應用篇;然而在其第二版(2014)中已然很難發(fā)現(xiàn)兩者的界限了:全書分為四部分第一部分語言學基礎篇、第二部分計算基礎篇、第三部分語言處理任務和第四部分自然語言處理應用,其中第三部分和第四部分占據(jù)全書的大部分體量,但對計算語言學和自然語言處理并未做區(qū)分。然而,Roland Hausser在其全三版《計算語言學基礎》(Foundations of Computational Linguistics)教材中堅持語言的可計算性和形式語言學,從未涉及任何具體的語言處理任務,以示計算語言學堅壁清野,不與自然語言處理發(fā)生任何學科交叉。
我們相信,在學科交叉和學科融合的大背景下,堅持一個學科的純潔性既無必要也不現(xiàn)實。但一個學科有一個學科本身的發(fā)展規(guī)律和學科特點,丟掉特點去迎合熱點是一件極其危險的事情。盡管兩者的本質是基本相同的,但總體而言自然語言處理更注重實踐,而計算語言學較重視理論。也可以說,計算語言學是建構自然語言處理系統(tǒng)的理論基礎(劉海濤,2001),兩者還是應該各自有所側重的。Manaris (1998:1)認為自然語言處理可以定義為研究在人與人交際中以及在人與計算機交際中的語言問題的一門學科,即研究表示語言能力和語言應用的模型,建立計算框架來實現(xiàn)這樣的語言模型,提出相應的方法不斷地加以完善,根據(jù)模型設計各種實用系統(tǒng),并探討這些實用系統(tǒng)的評測技術。
也有學者認為,自然語言處理就是計算語言學的應用領域。隨著計算機速度的加快和存儲量的增加,計算語言學在語音合成、語音識別、文字識別、拼寫檢查、語法檢查應用領域進行了商品化開發(fā)。除了早期開始的機器翻譯和信息檢索等應用研究進一步得到發(fā)展之外,計算語言學在信息抽取、間答系統(tǒng)、自動文摘、術語的自動抽取和標引、文本數(shù)據(jù)挖掘、自然語言接口,計算機輔助語言教學(computer-assisted language learning)等新興的應用研究中,都有了長足的進展。此外,計算語言學的技術在多媒體系統(tǒng)(multimedia system)和多模態(tài)系統(tǒng)(multimodal system)中也得到了應用。
漢字識別的核心技術是字形特征的抽取和模式識別,識別緒果是否能組織為有意義的文本,取決于自然語言理解。語音識別和語音合成則需要用到文語轉換技術,即從文本到標音符號的相互轉換,其中多音字的處理是關鍵。自動校對可大大減輕人工校對工作量,使這一環(huán)節(jié)跟出版業(yè)的其他環(huán)節(jié)的自動化相適應。計算機輔助語言教學屬于現(xiàn)代教育技術,如果沒有自然語言處理技術的支持,電子教案可以說是紙質教案的翻版。好的教學軟件應該包括更多的人機交互活動,例如習題的自動生成、作業(yè)的自動批改。機器翻譯的意義毋庸贅言,這是一種綜合性最強的應用。僅就文本形式的翻譯而言,就需要用到知識表示方法、機譯詞典構造、源語言的分析、目標語言的生成等技術。如果是口語現(xiàn)場翻譯,還需要有語音識別、語音合成以及人機接口技術的配合。智能檢索,包括信息檢索、信息抽取、文本挖掘、話題跟蹤、文本分類、文本過濾,間答系統(tǒng)等,是當前最熱門的應用。文本分類是智能檢索的一個重要方面,對于網(wǎng)站新聞頻道的自動更新具有特殊意義。例如。中國搜索在線報告,他們的新聞頻道就是使用文本分類技術而自動更新的,其他網(wǎng)站的最新消息可在兩分鐘內在他們的頻道得到反映。自動文摘可幫助人們快速、準確、全面地獲取信息,特別是因特網(wǎng)上的信息。簡單的原文濃縮,就能起到一定的作用。哪些句子最能代表原文內容,需要根據(jù)其出現(xiàn)位置、所含詞語進行計算。如果要用不同于原文的句子來表示,還需要用到語句分析和語句生成技術。
但計算語言學的研究內容和其主要應用不是一一對應的,后者應符合市場需要。有些基礎研究本來就不是瞄準直接應用的,例如句法分析技術可在多種應用系統(tǒng)中起作用,但不可能獨立成為一種社會大眾需要的應用。也很難講在上述應用場景中,計算語言學到底在自然語言處理任務的哪個(哪些)環(huán)節(jié)作出了貢獻。
一般認為計算語言學是語言學的分支,自然語言處理是計算機科學的子學科。但是現(xiàn)在由于計算語言學和自然語言處理之間的界限越來越模糊,甚至兩個領域的學者常常去參加同樣的會議,交流各自的研究工作也完全沒有障礙,于是就有了一個說法;計算語言學和自然語言處理都是跨語言學和計算機科學的交叉學科。然而,Ryan Cotterell博士和Emily M.Bender教授幾年前在推特上發(fā)起的一場有關自然語言處理是不是交叉學科的爭論「卻將此引入縱深,同時也引發(fā)了對計算語言學學科屬性的深層次討論。
Ryan Cottercll認為自然語言處理的研究成果并沒有吸收語言學方面最新的進展,因此不被公認為是跨學科的。他更加坦率地認為語言學和自然語言處理已經(jīng)分離開了,甚至表示自然語言處理在過去10到20年的發(fā)展與近期語言學的研究無關,理由是他認為交叉學科必須建立在兩個學科共同的工作基礎上,而目前自然語言處理的工作大部分不符合這個定義。Emily Bender則認為如果問題要求多個領域的專業(yè)知識有效地接近,一個研究領域原則上就是跨學科的。據(jù)此定義,自然語言處理原則上就是跨學科的。但她同時又同意Ryan的觀點,說自然語言處理在實踐中大多不是學科交叉的,同樣也不認為語言學的所有子領域都和自然語言處理相關。因此她的觀點是;學習語言如何工作以及(或者)與有相關經(jīng)驗的人合作,會讓自然語言處理發(fā)展得更好。無獨有偶,現(xiàn)代語音識別和自然語言處理研究的先驅Frederick Jelinek曾經(jīng)說過:每當我開除一個語言學家,語音識別系統(tǒng)就更準確了。后來他又改口說我的一些最好的朋友是語言學家(曾江,2020)。由此看來,為了從事計算語言學和自然語言處理的研究,語言學家很有必要更新知識,很有必要學習數(shù)學和計算機科學的知識。
如果把計算語言學或自然語言處理領域分為兩大派別,即計算機主義者和語言學主義者,隨著人工智能、機器學習在自然語言處理領城影響力不斷增大,計算機主義者逐漸演化成人工智能/機器學習主義者,而Bender教授則是堅定的語言學主義者。她認為自然語言處理領域越來越看重神經(jīng)模型、人工智能算法而忽視傳統(tǒng)、忽視語言本體,而且對模型和算法的過分贊譽和夸大宣傳主要是由于對語言形式和語言意義的誤解造成的,一個直接的理由就是語言模型無法學習語義,因為語言模型僅僅使用語言形式作為訓練數(shù)據(jù),并沒有碰觸到語言意義本身(Bender & Koller, 2020:5185)。
相對于自然語言處理工程問題,計算語言學主要致力于用計算的方法來回答語言學的科學問題。語言學的核心問題包括語言表征和語言知識的性質,如何在語言的產(chǎn)生、理解中獲得和運用語言學知識。對這類問題的回答,有助于描述人類的語言能力,也有助于解釋實際記錄的語言數(shù)據(jù)和行為的分布。在計算語言學中,我們用更形式化的答案來回答這些問題。語言學家關心人類計算了什么以及是如何計算的,所以我們將語言表征和語法通過數(shù)學的形式來定義,研究它們的數(shù)學屬性,并設計有效的算法來學習、生成和理解。只要這些算法可以實際運行,就可以測試我們的模型,看它們是否能作出合理的預測。
語言學也考慮一些非核心的語言問題,例如社會語言學、歷史語言學、生理語言學或者神經(jīng)語言學等。這些學科問題本質上和計算語言學是平等的,都是在用一套模型和算法讓語言數(shù)據(jù)看起來合理。從這個角度來說,計算語言學并不試圖去對日常用語進行建模,而是將語言學家所作的抽論自動化。這潛在地就使我們能夠處理更大的數(shù)據(jù)集(甚至新的數(shù)據(jù))并得出更準確的結論。同樣的,計算語言學家可能會設計軟件工具來幫助記錄瀕危語言。那么,很明顯計算語言學具有跨學科的性質。
以機器翻譯為例,計算語言學致力于機器翻譯的主要目標是解釋和探究翻譯的本質以及翻譯活動的過程,但自然語言處理工程師則不會考慮機器翻譯有沒有解釋翻譯的本質是什么或者翻譯人員是如何工作的,他們在意的是機器翻譯系統(tǒng)能否產(chǎn)生一個合理、精確、流暢的翻譯結果。機器翻譯也有自己的衡量方法用以評價和提高這些機器翻譯質量,而不是理解翻譯的本質。因此套用人工翻譯的評價標準和體系(如信、達、雅)去衡量機器翻譯的譯文質量的做法本身就不可取,也不可信。
從學科屬性上來說,計算語言學到目前為止,理論體系尚未建立,還不能算是一門理論科學。一方面,其主流方法(統(tǒng)計方法和神經(jīng)網(wǎng)絡方法)是經(jīng)驗主義的,這充分表明計算語言學還是一門經(jīng)驗科學。另一方面,計算語言學又的確是一門實驗科學。其理論和方法的正確性都需要通過在計算機上做實驗來得到證明。而理論語言學則不是一門實驗科學,有些問題本質上無法通過實驗來研究,例如語言的發(fā)展規(guī)律。
近年來,隨著人工智能的崛起。自然語言處理也走向了智能化。出現(xiàn)了計算語言學的另外三種主義符號主義(symbolicism)、連接主義(connectionism)和行為主義(actionism)。符號主義又稱為邏輯主義、心理學派或計算機學派,原理主要為物理符號系統(tǒng)(即符號操作系統(tǒng))假設和有限合理性原理。連接主義又稱為仿生學派或生理學派,主要原理為神經(jīng)網(wǎng)絡及神經(jīng)網(wǎng)絡間的連接機制與學習算法。行為主義又稱為進化主義或控制論學派,原理為控制論及感知-動作型控制系統(tǒng)。
符號主義認為人工智能源于數(shù)理邏輯。數(shù)理邏輯從19世紀末起得以迅速發(fā)展,到20世紀30年代開始用于描述智能行為。計算機出現(xiàn)后,又在計算機上實現(xiàn)了邏輯演繹系統(tǒng)。其有代表性的成果為啟發(fā)式程序LT邏輯理論家,它證明了38條數(shù)學定理,表明了可以應用計算機研究人的思維過程,模擬人類智能活動。正是這些符號主義者,早在1956年首先采用人工智能這個術語,后來又發(fā)展了啟發(fā)式算法、專家系統(tǒng)、知識工程理論與技術等,并在20世紀80年代取得很大發(fā)展。符號主義曾長期一枝獨秀,為人工智能的發(fā)展作出重要貢獻,尤其是專家系統(tǒng)的成功開發(fā)與應用,對人工智能走向工程應用和實現(xiàn)理論聯(lián)系實際具有特別重要的意義。在人工智能的其他學派出現(xiàn)之后,符號主義仍然是人工智能的主流派別。這個學派的代表人物有Newell、Simon、Nilsson等。
連接主義認為人工智能源于仿生學,特別是對人胸模型的研究。它的代表性成果是1943年由生理學家McCulloch和數(shù)理邏輯學家Pits創(chuàng)立的腦模型,即MP模型,開創(chuàng)了用電子裝置模仿人腦結構和功能的新途徑。它從神經(jīng)元開始研究神經(jīng)網(wǎng)絡模型和腦模型,開辟了人工智能的又一發(fā)展道路。20世紀60~70年代,連接主義,尤其是對以感知機為代表的腦模型的研究出現(xiàn)過熱潮,由于受到當時的理論模型、生物原型和技術條件的限制,腦模型研究在20世紀70年代后期至80年代初期落入低潮。直到Hopfield教授在1982年和1984年發(fā)表兩篇重要論文,提出用硬件模擬神經(jīng)網(wǎng)絡以后,連接主義才又重新抬頭。1986年,Rumelhart et al.(1986)提出多層網(wǎng)絡中的反向傳播(backpropogation, BP)算法。此后,連接主義勢頭大振,從模型到算法。
從理論分析到工程實現(xiàn),為神經(jīng)網(wǎng)絡計算機走向市場打下基礎,F(xiàn)在,對人工神經(jīng)網(wǎng)絡(Artificial Neural Network,ANN)的研究熱情仍然較高,但研究成果未達預期。
行為主義認為人工智能源于控制論?刂普撍枷朐缭20世紀40~50年代就成為時代思潮的重要部分,影響了早期的人工智能工作者。Wiener et al.(1948)提出的控制論和自組織系統(tǒng)以及錢學森等人提出的工程控制論和生物控制論,影響了許多領域?刂普摪焉窠(jīng)系統(tǒng)的工作原理與信息理論、控制理論、邏輯以及計算機聯(lián)系起來。早期的研究工作重點是模擬人在控制過程中的智能行為和作用,如對自尋優(yōu)、自適應、自鎮(zhèn)定、自組織和自學習等控制論系統(tǒng)的研究,并進行控制論動物的研制。到20世紀60年代,上述控制論系統(tǒng)的研究取得一定進展,播下了智能控制和智能機器人的種子,并在20世紀80年代誕生了智能控制和智能機器人系統(tǒng)。行為主義是20世紀末才以人工智能新學派的面孔出現(xiàn)的,引起許多人的興趣。這一學派的代表作者首推Brooks的六足行走機器人,它被看作新一代的控制論動物,是基于感知-動作模式模擬昆蟲行為的控制系統(tǒng)。
近來學界對自然語言處理領域發(fā)展的反思和態(tài)度轉變可以總結為兩種理論構建視角,即自底向上(bottom-up)和自頂向下(top-down)的理論構建。在自底向上的視角下,學術界研究是通過發(fā)現(xiàn)和解決具體的研究挑戰(zhàn)驅動的,如果科學研究能完全解決一個具體挑戰(zhàn),或者部分解決,那就可以被視作一項學術成果,只要這些讓人滿意的成果是頻繁出現(xiàn)且不斷攀升的,就會帶來一種持續(xù)進步的總體氛圍。與之相對的自頂向下視角則聚焦遠期終極目標,為整個領域提供一套完整統(tǒng)一的理論體系。自頂向下的視角會帶來焦慮感,因為我們還不能完全解釋所有現(xiàn)象,還會出現(xiàn)更加棘手的問題,那就是自底向上的進步到底有沒有把我們領向正確的方向。同樣的任務從自底向上的視角看是自然語言處理問題,而從自頂向下的視角看就成了計算語言學的問題。毫無疑問,自然語言處理正以飛速攀登的速度進步,每年各領域自然語言處理任務的解決辦法都通過更好預訓練的語言模型得到顯著改進,都能達到目前最好的水平(state-of-the-art,SOTA)。但是,如果從自頂向下的角度看,我們如此飛速攀登的山峰,究竟是不是正確的山呢?不知道當今飛速進步會把我們帶向什么樣的最終目標,是普遍語言智能(general linguistic intelligence ),還是一個可以通過圖靈測試(Turing test)的系統(tǒng)?
但計算語言學與自然語言處理的學科屬性的爭論和各自研究重點的區(qū)別仍然懸而未決,或許無法解決。不管爭論的結果是什么,都是有益的,因為討論會促使人們反復思考自己的觀點。因此,大部分學者對計算語言學和自然語言處理這兩個術語的使用只是遵循各自的使用習慣而未作細致區(qū)分,甚至有時兩者是混用的。如果非要給兩者加以界定,那可能計算語言學更理論,而自然語言處理更偏向應用。
縱觀計算語言學發(fā)展史,計算語言學家經(jīng)歷了多次主流變革;谡Z法規(guī)則和專家知識的方法讓位于統(tǒng)計方法,如今大部分研究又吸收了神經(jīng)網(wǎng)絡和深度學習方法。每一代研究者都覺得他們解決了相關問題并且不斷進步,但是當每種范式出現(xiàn)不可解決的致命缺陷,該范式隨即就會被拋棄。那么,應該如何盡量讓計算語言學的科研攀登是在一座正確的山上呢?Bender &Koller在論文中提出了五種爬山攻略(hillclimbing diagnostics ):
第一,對語言問題保持謙卑與敬畏,多問一些自頂向下的問題。神經(jīng)網(wǎng)絡并不是自然語言處理領域第一個取得成功的方法,應該也不會是最后一個。
第二,了解自然語言處理下游任務的局限性。比如CAMRP這樣的人工賽道任務(見第6章)可以幫助某一個領域的研究盡早取得突破,但是不要妄想測試數(shù)據(jù)的語言分布能完全模擬現(xiàn)實語言世界的整體分布。
第三,重視和支持新賽道,但要慎重選擇和創(chuàng)建新任務。比如,在第十三屆語言資源與評測國際會議(LREC 2020)上舉行的第一屆古代漢語分詞和詞性標注國際評測(EvaHan)就大力推動了古漢語信息處理和古籍數(shù)字人文研究(見第2章)。
第1章 詞匯形態(tài)分析1
1.1 詞與詞匯形態(tài)學2
1.1.1 詞型與詞例2
1.1.2 詞匯形態(tài)學3
1.2 詞法分析4
1.3 詞法分析技術研究綜述及進展5
1.3.1 詞法分析器6
1.3.2 詞法分析研究進展9
1.4詞法分析應用11
第2章 漢語自動分詞13
2.1 傳統(tǒng)的漢語自動分詞方法14
2.1.1 最大匹配法15
2.1.2 最大概率法17
2.2 未登錄詞識別20
2.2.1 姓名識別21
2.2.2 地名識別22
2.2.3 機構名識別24
2.2.4 新詞識別24
2.2.5 指代消解25
2.3 切分歧義26
2.3.1 術語的辨析27
2.3.2 交集型歧義切分的處理29
2.3.3 組合型歧義切分的處理31
2.4 漢語自動分詞研究進展31
2.5 古漢語和中古漢語自動分詞35
第3章 自動詞性標注41
3.1 詞性標記集及詞性標注示例42
3.2 兼類詞消歧45
3.2.1 基于規(guī)則的方法48
3.2.2 基于統(tǒng)計的方法50
3.2.3 基于轉換的方法52
3.3 未登錄詞詞性預測53
3.3.1 使用單一特征的未登錄詞詞性預測54
3.3.2 使用組合特征的未登錄詞詞性預測 55
3.4 文本序列標注研究進展57
3.4.1 基于賓州樹庫的詞性標注研究58
3.4.2 基于社交媒體文本的詞性標注研究60
3.4.3 基于依存樹庫的詞性標注研究61
第4章 局部句法分析63
4.1 短語結構語法與淺層分析63
4.2 淺層分析研究進展70
4.3 骨架分析72
4.4 骨架分析研究進展76
4.5 局部句法分析應用78
4.5.1 樹庫建設7
4.5.2 機器翻譯調序79
第5章 完全句法分析83
5.1 語法理論84
5.1.1 表層結構與深層結構85
5.1.2 依存語法及研究進展86
5.1.3 詞匯-功能語法90
5.2 句法分析93
5.2.1 自頂向下的分析93
5.2.2 自底向上的分析96
5.2.3 左角分析法98
5.2.4 CYK算法102
5.2.5 Earley 算法105
5.3 漢語小句復合體110
5.4 依存關系與語言網(wǎng)絡113
5.4.1 依存關系與依存距離113
5.4.2 復雜系統(tǒng)與語言網(wǎng)絡116
第6章 語義標注與分析119
6.1 動詞中心論及其發(fā)展120
6.1.1格語法中的動詞中心論120
6.1.2 題元理論中的動詞中心論121
6.1.3 配價語法中的動詞中心論123
6.2 語義知識庫126
6.3 語義角色標注134
6.3.1 基于語塊的語義角色標注134
6.3.2 端對端語義角色標注系統(tǒng)135
6.4 中心詞驅動的短語結構語法137
6.5 語言資源建設中的語義分析140
第7章 形式語言理論與自然語言生成143
7.1 形式語法與自動機144
7.1.1 形式語法145
7.1.2 自動機理論150
7.2 自然語言生成153
7.2.1 傳統(tǒng)的模塊化生成框架155
7.2.2 端到端的自然語言生成框架158
7.3 自然語言生成任務159
7.4 自然語言生成質量評價162
7.5 自然語言生成現(xiàn)狀分析與展望163
7.6 ChatGPT及其性能評測167
第8章 多語言機器翻譯研究進展169
8.1 多路翻譯170
8.1.1 參數(shù)共享170
8.1.2 訓練方法172
8.1.3 語言多樣性174
8.2 低資源翻譯175
8.2.1增強現(xiàn)有雙語平行語料176
8.2.2 融合單語語言模型177
8.2.3 低資源翻譯方法178
8.3 多源翻譯182
8.3.1 多源翻譯的發(fā)展契機182
8.3.2 可獲得多源數(shù)據(jù)182
8.3.3 多源數(shù)據(jù)的缺失183
8.3.4 多源翻譯的使用場景184
8.4 領域適配問題184
8.5 機器翻譯的難點185
8.6 機器翻譯評測188
第9章 文本智能挖掘研究進展193
9.1 文本分類193
9.2 文本聚類195
9.3 主題模型198
9.3.1 LSA和 PLSA199
9.3.2 LDA201
9.4 情感分析與觀點挖掘202
9.4.1 文檔和句子級情感分析方法203
9.4.2 屬性級情感分析205
9.4.3 情感分析中的特殊問題207
9.5 話題檢測與跟蹤211
9.6 文本自動摘要215
參考文獻217
附 錄243
附錄1 詞性標記集243
附錄2 數(shù)學基礎 255
術語表263