自然語(yǔ)言結(jié)構(gòu)計(jì)算 GPF結(jié)構(gòu)分析框架
自然語(yǔ)言在語(yǔ)法、語(yǔ)義和語(yǔ)用三個(gè)平面上的結(jié)構(gòu)統(tǒng)稱為語(yǔ)言結(jié)構(gòu),通過(guò)計(jì)算得到語(yǔ)言結(jié)構(gòu)是自然語(yǔ)言理解的核心任務(wù)。語(yǔ)言結(jié)構(gòu)計(jì)算可以泛化為識(shí)別語(yǔ)言單元和建立語(yǔ)言單元之間的關(guān)系、為語(yǔ)言單元和關(guān)系賦予屬性的過(guò)程。本書(shū)利用網(wǎng)格結(jié)構(gòu)分析語(yǔ)言單元和關(guān)系,通過(guò)鍵值方式對(duì)其屬性進(jìn)行描述和計(jì)算,采用數(shù)據(jù)表解析不同類型的知識(shí),借助有限狀態(tài)自動(dòng)機(jī)剖析語(yǔ)言的具體應(yīng)用場(chǎng)景。這種基于網(wǎng)格的自然語(yǔ)言結(jié)構(gòu)分析框架(Grid based Parsing Framework,GPF)具有良好的包容性,通過(guò)可編程的腳本和數(shù)據(jù)交換標(biāo)準(zhǔn)接口,融合了深度學(xué)習(xí)的參數(shù)計(jì)算和基于符號(hào)的知識(shí)計(jì)算。GPF為自然語(yǔ)言處理研究和應(yīng)用提供了新的研究思路和計(jì)算框架。
本書(shū)適合專業(yè)為自然語(yǔ)言處理、計(jì)算語(yǔ)言學(xué)以及與語(yǔ)言學(xué)本體研究有關(guān)的學(xué)生當(dāng)作教材,也可以作為高等院校人工智能、信息科學(xué)研究、大數(shù)據(jù)分析等相關(guān)專業(yè)的參考書(shū)。同時(shí),本書(shū)也適合對(duì)語(yǔ)料庫(kù)建設(shè)與應(yīng)用感興趣的人員閱讀。
“自然語(yǔ)言結(jié)構(gòu)計(jì)算”系列圖書(shū)
語(yǔ)言| 技術(shù)| 算法| 融合 |創(chuàng)新
一、整體亮點(diǎn)
稀缺性:
本書(shū)的內(nèi)容覆蓋了基于知識(shí)的自然語(yǔ)言處理理論、技術(shù)和應(yīng)用。
專業(yè)性:
作者為國(guó)內(nèi)高等院校學(xué)者、北京語(yǔ)言大學(xué)信息科學(xué)學(xué)院院長(zhǎng)、語(yǔ)言智能研究院院長(zhǎng)。
實(shí)用性:
本書(shū)的GPF是一種靈活實(shí)用的可編程的語(yǔ)言分析框架,可用于自然語(yǔ)言處理方向的學(xué)習(xí)、研究和應(yīng)用。
原創(chuàng)性:
本書(shū)是作者30多年工作、科研、學(xué)習(xí)中的新思考與新實(shí)踐的智慧結(jié)晶。
二、內(nèi)容特色
1.知識(shí)性
本書(shū)涉及自然語(yǔ)言如何處理的技能,涵蓋了語(yǔ)義結(jié)構(gòu)分析多項(xiàng)新技術(shù)。
2.豐富性
本書(shū)系統(tǒng)地介紹了語(yǔ)言分析、構(gòu)建與使用的各個(gè)環(huán)節(jié)。
3.系統(tǒng)性
本書(shū)從如何語(yǔ)義分析入手,涉及了語(yǔ)義意合圖的理論建設(shè)與使用方法。
荀恩東
教授,博士生導(dǎo)師,博士畢業(yè)于哈爾濱工業(yè)大學(xué),先后在微軟亞洲研究院、香港科技大學(xué)工作,現(xiàn)任北京語(yǔ)言大學(xué)信息科學(xué)學(xué)院院長(zhǎng)、語(yǔ)言智能研究院院長(zhǎng)。
研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理和語(yǔ)言教育技術(shù)。近年來(lái),主持多項(xiàng)“國(guó)家高技術(shù)研究發(fā)展計(jì)劃”(簡(jiǎn)稱863計(jì)劃)、國(guó)家社會(huì)科學(xué)基金項(xiàng)目和國(guó)家自然科學(xué)基金項(xiàng)目,承擔(dān)多項(xiàng)公司合作的項(xiàng)目,發(fā)表文章70余篇。主要研究?jī)?nèi)容為漢語(yǔ)語(yǔ)義計(jì)算和語(yǔ)言教育技術(shù)。
主持開(kāi)發(fā)了北京語(yǔ)言大學(xué)語(yǔ)料庫(kù)中心( BCC)語(yǔ)料庫(kù)和國(guó)際中文智慧教學(xué)平臺(tái)。提出了漢語(yǔ)語(yǔ)義分析的意合圖理論和構(gòu)建方法,帶領(lǐng)團(tuán)隊(duì)揭榜工信部人工智能重大攻關(guān)任務(wù),在包括專利等多個(gè)領(lǐng)域開(kāi)展?jié)h語(yǔ)語(yǔ)義理解落地應(yīng)用工作。
目錄
第 1章 自然語(yǔ)言處理概述
1.1 自然語(yǔ)言處理 002
1.1.1 自然語(yǔ)言處理是認(rèn)知智能的核心 002
1.1.2 自然語(yǔ)言理解的本質(zhì)是語(yǔ)言結(jié)構(gòu)分析 003
1.1.3 自然語(yǔ)言理解的挑戰(zhàn) 005
1.2 語(yǔ)言結(jié)構(gòu) 007
1.2.1 語(yǔ)言結(jié)構(gòu)的基本單元 007
1.2.2 基本單元之間的關(guān)系 008
1.3 語(yǔ)言結(jié)構(gòu)分析 011
1.3.1 語(yǔ)言結(jié)構(gòu)的形式化 012
1.3.2 語(yǔ)言結(jié)構(gòu)分析的內(nèi)容 012
1.3.3 語(yǔ)言結(jié)構(gòu)分析知識(shí) 014
1.3.4 語(yǔ)言結(jié)構(gòu)分析策略 017
1.4 基于網(wǎng)格的自然語(yǔ)言結(jié)構(gòu)分析框架——GPF 020
1.4.1 GPF的設(shè)計(jì)思想 020
1.4.2 GPF的主要應(yīng)用 024
第 2章 GPF總體設(shè)計(jì)
2.1 GPF分析框架 028
2.1.1 GPF功能部件 029
2.1.2 GPF工作模式 034
2.1.3 GPF編程體系 035
2.2 GPF屬性計(jì)算 037
2.2.1 語(yǔ)言結(jié)構(gòu)的屬性 037
2.2.2 屬性的形式化及計(jì)算 038
2.2.3 屬性的應(yīng)用 043
第3章 GPF網(wǎng)格
3.1 概述 048
3.1.1 網(wǎng)格計(jì)算結(jié)構(gòu) 048
3.1.2 主要功能 049
3.1.3 網(wǎng)格的形式結(jié)構(gòu) 050
3.1.4 網(wǎng)格與屬性 051
3.2 網(wǎng)格單元 051
3.2.1 網(wǎng)格單元的類型 051
3.2.2 網(wǎng)格單元的屬性 052
3.3 網(wǎng)格單元之間的關(guān)系 060
3.3.1 網(wǎng)格單元之間關(guān)系的類型 061
3.3.2 網(wǎng)格單元之間關(guān)系的屬性 062
第4章 GPF網(wǎng)格計(jì)算
4.1 輸入輸出 064
4.1.1 輸入 064
4.1.2 輸出 066
4.2 網(wǎng)格單元計(jì)算 078
4.2.1 添加網(wǎng)格單元 078
4.2.2 獲取網(wǎng)格單元 089
4.3 網(wǎng)格單元屬性計(jì)算 095
4.3.1 添加網(wǎng)格單元屬性 095
4.3.2 獲取網(wǎng)格單元屬性 096
4.3.3 測(cè)試網(wǎng)格單元屬性 099
4.4 網(wǎng)格單元關(guān)系計(jì)算 101
4.4.1 增加網(wǎng)格單元關(guān)系 101
4.4.2 增加關(guān)系屬性 102
4.4.3 判斷關(guān)系屬性 103
第5章 GPF數(shù)據(jù)表
5.1 概述 109
5.1.1 格式定義 109
5.1.2 術(shù)語(yǔ)與定義 109
5.2 數(shù)據(jù)表類型 111
5.2.1 描述型數(shù)據(jù)表 111
5.2.2 關(guān)系型數(shù)據(jù)表 114
5.3 數(shù)據(jù)表相關(guān)的API函數(shù) 116
5.3.1 字符串操作(GetPrefix和GetSuffix) 116
5.3.2 創(chuàng)建單元(Segment) 119
5.3.3 構(gòu)建關(guān)系(Relate) 122
5.3.4 提供屬性(SetLexicon) 131
5.3.5 數(shù)據(jù)表測(cè)試函數(shù)(IsTable) 133
5.3.6 數(shù)據(jù)項(xiàng)獲取函數(shù)(GetTableItems) 134
5.3.7 數(shù)據(jù)項(xiàng)屬性獲取函數(shù)(GetTableItemKVs) 135
5.4 數(shù)據(jù)表在屬性計(jì)算中的應(yīng)用 137
5.4.1 數(shù)據(jù)表用于“鍵值對(duì)”中 137
5.4.2 數(shù)據(jù)表用于鍵值表達(dá)式中 139
第6章 GPF有限狀態(tài)自動(dòng)機(jī)
6.1 概述 142
6.1.1 形式化定義 142
6.1.2 主要功能 144
6.2 FSA文法 144
6.2.1 FSA腳本 144
6.2.2 FSA文法規(guī)定 146
6.2.3 文法編譯 149
6.3 FSA 運(yùn)行機(jī)制 150
6.3.1 配置 150
6.3.2 匹配入口節(jié)點(diǎn) 158
6.3.3 前后雙向匹配 160
6.3.4 執(zhí)行操作 160
6.4 FSA應(yīng)用 162
6.4.1 RunFSA算法過(guò)程 162
6.4.2 FSA應(yīng)用示例 163
第7章 GPF數(shù)據(jù)接口
7.1 初始語(yǔ)言結(jié)構(gòu)的數(shù)據(jù)源 168
7.1.1 離線形式的本地?cái)?shù)據(jù) 168
7.1.2 在線形式的第三方服務(wù) 169
7.2 初始語(yǔ)言結(jié)構(gòu)類型及數(shù)據(jù)接口 170
7.2.1 初始語(yǔ)言結(jié)構(gòu)類型 170
7.2.2 初始語(yǔ)言結(jié)構(gòu)數(shù)據(jù)接口 170
7.2.3 幾種典型結(jié)構(gòu)的數(shù)據(jù)接口 172
7.3 初始語(yǔ)言結(jié)構(gòu)在網(wǎng)格中的表示 178
7.3.1 分詞結(jié)構(gòu) 178
7.3.2 組塊結(jié)構(gòu) 182
7.3.3 短語(yǔ)結(jié)構(gòu)樹(shù) 185
7.3.4 詞依存結(jié)構(gòu) 191
7.3.5 組塊依存結(jié)構(gòu) 196
7.3.6 帶有分詞的組塊依存結(jié)構(gòu) 200
第8章 GPF應(yīng)用
8.1 GPF的配置 206
8.2 GPF的索引 207
8.2.1 索引數(shù)據(jù)表 207
8.2.2 索引有限狀態(tài)自動(dòng)機(jī) 208
8.3 GPF的運(yùn)行 209
8.3.1 本地運(yùn)行 211
8.3.2 網(wǎng)絡(luò)服務(wù) 213
8.3.3 GPF輸出 214
8.4 GPF的應(yīng)用 214
8.4.1 短語(yǔ)識(shí)別 215
8.4.2 詞義消歧 217
8.4.3 離合詞識(shí)別 220
第9章 GPF的API函數(shù)
9.1 GPF功能操作類API函數(shù) 227
9.1.1 SetText 227
9.1.2 AddStructure (JSON) 227
9.1.3 CallService 229
9.1.4 Segment 229
9.1.5 SetLexicon 230
9.1.6 Relate 230
9.1.7 GetSuffix 230
9.1.8 GetPrefix 231
9.1.9 RunFSA 231
9.1.10 GetParam 231
9.1.11 GB2UTF8 232
9.1.12 UTF82GB 232
9.1.13 cjson.decode 232
9.1.14 cjson.encode 233
9.2 GPF獲取類API函數(shù) 233
9.2.1 GetGrid 233
9.2.2 GetText 233
9.2.3 GetGridKVs 234
9.2.4 GetLog 235
9.2.5 GetUnit 235
9.2.6 GetUnits 235
9.2.7 GetUnitKVs 236
9.2.8 GetRelations 237
9.2.9 GetRelationKVs 238
9.2.10 GetTableItems 239
9.2.11 GetTableItemKVs 239
9.2.12 GetFSANode 240
9.3 GPF添加類API函數(shù) 241
9.3.1 AddUnit 241
9.3.2 Reduce 242
9.3.3 AddUnitKV 242
9.3.4 AddGridKV 242
9.3.5 AddRelation 243
9.3.6 AddRelationKV 243
9.4 GPF測(cè)試類API函數(shù) 244
9.4.1 IsUnit 244
9.4.2 IsRelation 244
9.4.3 IsTable 244
參考文獻(xiàn) 247