本書共十二章。第一、二章回溯人類進化過程中交際方式的演變和語言通信設備的更替。第三章介紹搜索引擎技術。第四至七章首先概述自然語言處理的規(guī)則模型與統(tǒng)計模型,接著介紹語言知識庫,繼而探討語義計算的多層次建模。第八章講解語音識別與合成技術。第九章闡釋本體知識在語義網及知識圖譜中的應用。第十、十一章介紹深度問答系統(tǒng)及文本分析技術,聚焦?jié)h語文本內容的深度計算。第十二章展望語言處理技術的未來發(fā)展。
大數(shù)據時代,網絡文本的爆炸式增長為自然語言處理帶來了巨大的應用需求。運用深層次的語言學知識來處理自然語言的方法被稱為“語言的深度計算”。本書對語言深度計算的理論演進與技術發(fā)展進行了全面梳理,結合具體研究案例展示了這種涉及詞法、句法、語義等方面“由淺入深”的分析過程。
本書兼具學術性、前沿性和引領性,適合計算語言學、自然語言處理領域的研究者閱讀,也可供語言學、計算機科學技術和數(shù)據科學等領域的學者、教師和碩博研究生參考和借鑒。
隨著中國特色社會主義進入新時代,國家對外開放、信息技術發(fā)展、語言產業(yè)繁榮與教育領域改革等對我國外語教育發(fā)展和外語學科建設產生了深遠影響,也有力推動了我國外語學術出版事業(yè)的發(fā)展。為梳理學科發(fā)展脈絡,展現(xiàn)前沿研究成果,外語教學與研究出版社匯聚國內外語學界各相關領域專家學者,精心策劃了“外語學科核心話題前沿研究文庫”(下文簡稱“文庫”)。
“文庫”精選語言學、應用語言學、翻譯學、外國文學研究和跨文化研究五大方向共25個重要領域100余個核心話題,按一個話題一本書撰寫。每本書深入探討該話題在國內外的研究脈絡、研究方法和前沿成果,精選經典研究及原創(chuàng)研究案例,并對未來研究趨勢進行展望!拔膸臁痹谡w上具有學術性、體系性、前沿性與引領性,力求做到點面結合、經典與創(chuàng)新結合、國外與國內結合,既有全面的宏觀視野,又有深入、細致的分析。
“文庫”項目邀請國內外語學科各方向的眾多專家學者擔任總主編、子系列主編和作者,經三年協(xié)力組織與精心寫作,自2018年底陸續(xù)推出!拔膸臁币勋@批“十三五”國家重點出版物出版規(guī)劃項目,作為一個開放性大型書系,將在未來數(shù)年內持續(xù)出版。我們計劃對這套書目進行不定期修訂,使之成為外語學科的經典著作。
袁毓林,1962年生,1990年獲北京大學博士學位。曾任北京大學中文系教授,博士生導師,現(xiàn)為澳門大學人文學院中國語言文學系講座教授。主要研究理論語言學和漢語語言學,特別是句法學、語義學、語用學、計算語言學和中文信息處理。在《中國社會科學》、《中國語文》、《當代語言學》和《中文信息學報》等刊物發(fā)表論文100余篇,出版《語言的認知研究和計算分析》等10余部著作。多次獲得教育部“高?茖W研究優(yōu)秀成果獎”。
王璐璐,1983年生,2013年獲北京大學博士學位,F(xiàn)任中國傳媒大學人文學院副教授,碩士生導師。主要研究領域為漢語語法、形式句法、詞匯語義、計算語言學及中文信息處理。在《語言教學與研究》、《蘇州大學學報(哲學社會科學版)》、《計算機工程與應用》等期刊和國際國內會議論文集中發(fā)表論文近20篇,出版譯著《語法理論—從轉換語法到基于約束的理論》,主持國家社科基金項目“基于‘詞庫—構式’互動理論的復雜述謂結構自動分析研究”。
總序
前言
第一章 人類的進化和交際方式的演變
1.1 人類的進化
1.2 交際方式的演變
1.3 語言在人類發(fā)展中的作用
第二章 語言通信設備的更替和網絡的誕生
2.1 語言通信設備的更替
2.2 香農的通信模型
2.3 網絡的誕生
2.4 社交網絡
第三章 網絡文本的信息爆炸和搜索引擎的發(fā)明
3.1 網絡文本的信息爆炸
3.2 信息檢索與搜索引擎
3.2.1 信息檢索的概念與類型
3.2.2 網絡搜索引擎的工作原理
3.3 搜索引擎技術
3.3.1 布爾檢索和倒排索引
3.3.2 超鏈接分析與網頁排序
3.4 基于關鍵詞匹配方法的局限性
3.5 基于語義和概念的搜索引擎技術
3.5.1 基于語義的擴充式關鍵詞搜索
3.5.2 基于本體知識推理的語義檢索
第四章 自然語言處理的規(guī)則模型和統(tǒng)計模型
4.1 自然語言處理技術概說
4.2 基于規(guī)則的自然語言處理
4.2.1 有限狀態(tài)自動機
4.2.2 上下文無關文法
4.2.3 基于上下文無關文法的剖析
4.3 基于統(tǒng)計的自然語言處理
4.3.1 基于概率的語言識別
4.3.2 基于統(tǒng)計的機器翻譯
第五章 語言信息處理和語言知識數(shù)據庫的建設
5.1 語料庫和語言知識庫概說
5.2 語言知識庫面面觀
5.2.1 詞匯網絡(WordNet)
5.2.2 句法樹庫(Treebank)
5.2.3 動詞網絡(verbNet)
5.2.4 命題庫(PropBank)
5.2.5 情境框架網絡(FrameNet)
5.3 相關資源的統(tǒng)一和整合
5.3.1 詞義消歧和義項歸組
5.3.2 義項與框架對接、框架與實例對勘
5.3.3 相關資源的義項映射和框架映射
5.3.4 實現(xiàn)相關資源的統(tǒng)一和整合
第六章 漢語句法語義知識庫的研究與建設
6.1 漢語詞類的模糊劃分與測試平臺
6.1.1 詞類的范疇性質
6.1.2 詞類的模糊劃分和隸屬度分析
6.1.3 網絡版詞類測試平臺的設計及實現(xiàn)
6.2 北大實詞句法語義信息詞典與檢索系統(tǒng)
6.2.1 《形容詞信息詞典》的知識內容
6.2.2 《動詞信息詞典》的知識內容
6.2.3 《名詞信息詞典》的知識內容
6.3 漢語動詞蘊涵關系和蘊涵型式庫建設
6.3.1 語言表達的多樣性與文本蘊涵
6.3.2 動詞蘊涵關系的理論背景與蘊涵型式庫建設的目標
6.3.3 蘊涵式的類聚規(guī)律與分類體系
6.3.4 漢語動詞蘊涵型式庫的體系結構與功能模塊
第七章 語言信息處理和語義計算的多層次建模
7.1 理論背景:認知語言學研究的三種范式
7.2 基于認知的語義知識的描述和計算
……
第八章 語音的識別與合成和言語信息處理技術
第九章 語義網替代萬維網和本體知識與知識圖譜的建構
第十章 深度問答系統(tǒng)和文本分析技術
第十一章 走向文本內容的深度計算和自動理解
第十二章 語言處理技術的發(fā)展趨勢與未來議題
后記
參考文獻
推薦文獻
索引