本書介紹了人工智能與語言知識的結(jié)合特點。通過理論概念講解、具體實例分析,介紹語言知識的構(gòu)建方法、類型案例、應用領(lǐng)域,輔助學習者快速了解行業(yè)基礎(chǔ)和發(fā)展動態(tài)。本書首先介紹語言知識庫的基本理論和構(gòu)建方法,通過例子介紹資源類語言知識、語料庫語言知識的概念和結(jié)構(gòu)。為了方便理解,本書結(jié)合大量案例介紹語言知識在自然語言處理及在司法、醫(yī)療、金融等垂直領(lǐng)域中的應用,目的是幫助數(shù)據(jù)標注者理解行業(yè)發(fā)展,建立語言知識理論和應用的基本框架,為從事相關(guān)工作提供便利。
于東,北京語言大學信息科學學院副教授。中國中文信息學會青工委委員,語言與知識計算專委會委員。主要研究方向為計算語言學、數(shù)字人文、語言資源建設(shè)。擅長將語言學問題與計算語言學方法交叉,構(gòu)建新問題、研究新方法。主持國家自然科學基金項目、教育部人文社科基金,參與國家863計劃、國家社科基金項目多項。累計發(fā)表論文30余篇。多年主講《人工智能思想與方法》、《自然語言處理》等專業(yè)課程,主講課程獲批國家級一流本科課程。
目錄
第1章 人工智能與知識表示 001
1.1 智能與人工智能 001
1.1.1 智能 001
1.1.2 人工智能 002
1.2 基本方法和流派 003
1.2.1 基本方法 004
1.2.2 基本流派 004
1.3 知識表示 005
1.3.1 知識符號化 005
1.3.2 知識表示的概念 006
1.3.3 人工智能中的知識表示 007
1.4 一階謂詞邏輯的知識表示 008
1.4.1 命題邏輯 008
1.4.2 謂詞邏輯 010
1.4.3 使用謂詞表示知識 012
1.4.4 小結(jié) 014
1.5 產(chǎn)生式知識表示 015
1.5.1 產(chǎn)生式的概念 015
1.5.2 規(guī)則性知識的產(chǎn)生式 015
1.5.3 事實性知識的產(chǎn)生式 017
1.5.4 產(chǎn)生式系統(tǒng) 017
第2章 語言知識庫的構(gòu)建 023
2.1 語言知識的概念 023
2.1.1 語言知識 023
2.1.2 語言知識庫 024
2.1.3 語言知識庫的類型 025
2.2 語言知識的來源 026
2.2.1 結(jié)構(gòu)化數(shù)據(jù) 027
2.2.2 半結(jié)構(gòu)化數(shù)據(jù) 027
2.2.3 非結(jié)構(gòu)化數(shù)據(jù) 028
2.3 語言知識庫的構(gòu)建 028
2.3.1 構(gòu)建流程 028
2.3.2 規(guī)范和原則 029
2.4 語言知識獲取方法 031
2.4.1 人工標注知識 031
2.4.2 自動獲取知識 032
2.4.3 人機交互獲取知識 033
2.5 語言知識的存儲 033
2.5.1 數(shù)據(jù)庫及其類型 033
2.5.2 可擴展標記語言 034
2.5.3 數(shù)據(jù)交換格式 036
2.5.4 本體知識表示 037
第3章 資源類語言知識 042
3.1 資源類語言知識的概念 042
3.2 資源類語言知識的發(fā)展 043
3.2.1 語義網(wǎng)絡(luò) 043
3.2.2 語義Web 044
3.2.3 知識圖譜 049
3.3 常用的資源類語言知識 049
3.3.1 WordNet 049
3.3.2 FrameNet 050
3.3.3 ConceptNet 052
3.3.4 HowNet 054
3.3.5 同義詞詞林 055
第4章 語料庫語言知識 059
4.1 詞匯中的語言知識 059
4.1.1 詞性知識 059
4.1.2 分詞知識 061
4.2 句子中的語言知識 062
4.2.1 命名實體知識 063
4.2.2 實體關(guān)系知識 063
4.2.3 事件知識 064
4.3 句子結(jié)構(gòu)中的知識 065
4.3.1 句法結(jié)構(gòu)樹 065
4.3.2 淺層句法結(jié)構(gòu) 066
4.3.3 依存句法樹 067
4.3.4 抽象語義表示 069
4.4 常用漢語語料庫 070
4.4.1 大規(guī)模漢語語料庫 070
4.4.2 漢語標注語料庫 072
第5章 語言知識的應用:面向自然語言處理 077
5.1 自然語言處理的基本問題 077
5.1.1 語言模型問題 077
5.1.2 分類問題 080
5.1.3 序列標注問題 081
5.1.4 語言結(jié)構(gòu)分析問題 083
5.1.5 語言生成問題 085
5.2 自動問答 085
5.2.1 概念和歷史 085
5.2.2 開放領(lǐng)域自動問答 087
5.2.3 基于知識的自動問答 088
5.3 機器閱讀理解 090
5.3.1 概念和發(fā)展史 090
5.3.2 完型填空型任務(wù)和數(shù)據(jù)集 092
5.3.3 選擇型任務(wù)和數(shù)據(jù)集 093
5.3.4 片段抽取型任務(wù)和數(shù)據(jù)集 094
5.3.5 自由問答型任務(wù)和數(shù)據(jù)集 095
5.4 機器翻譯 096
5.4.1 概念和發(fā)展史 096
5.4.2 機器翻譯的基石:雙語平行語料庫 098
5.4.3 統(tǒng)計機器翻譯方法簡介 099
5.4.4 神經(jīng)機器翻譯方法簡介 100
第6章 語言知識的應用:面向垂直領(lǐng)域 104
6.1 智能司法信息處理 104
6.1.1 概述 104
6.1.2 法律判決預測任務(wù) 106
6.1.3 相似案件匹配任務(wù) 107
6.1.4 司法領(lǐng)域自動問答 108
6.2 智能醫(yī)療信息處理 110
6.2.1 概述 110
6.2.2 醫(yī)療信息知識庫構(gòu)建 111
6.2.3 智慧醫(yī)療的典型應用 115
6.2.4 智慧醫(yī)療的未來發(fā)展 116
6.3 智能金融信息處理 117
6.3.1 概述 117
6.3.2 金融領(lǐng)域知識庫構(gòu)建與分析技術(shù) 118
6.3.3 智能金融的典型應用 123