定 價:149 元
叢書名:信息科學(xué)技術(shù)學(xué)術(shù)著作叢書
- 作者:尼瑪扎西,完么扎西
- 出版時間:2020/5/29
- ISBN:9787030603371
- 出 版 社:科學(xué)出版社
- 中圖法分類:TP
- 頁碼:324
- 紙張:膠版紙
- 版次:1
- 開本:32開
本書介紹藏語自然語言處理的基本理論和方法。全書11章,第1章介紹構(gòu)成藏語語法單位的字、詞、短語和句子。第2章介紹概率論、信息論等的基本概念,以及馬爾可夫模型、**熵模型、條件隨機(jī)場等模型。第3章介紹形式語言與自動機(jī)理論涉及的內(nèi)容。第4章介紹計算機(jī)字符編碼。第5~10章分別闡述藏語語料庫、信息熵、拼寫形式語言、自動分詞及詞性和語義標(biāo)注、短語結(jié)構(gòu)及其形式化描述和句法分析。第11章結(jié)合藏漢機(jī)器翻譯,介紹統(tǒng)計機(jī)器翻譯原理。
更多科學(xué)出版社服務(wù),請掃碼獲取。
目錄
《信息科學(xué)技術(shù)學(xué)術(shù)著作叢書》序
前言
第1章 藏語語法單位 1
1.1 藏文字符 1
1.2 藏文字 2
1.2.1 藏文字結(jié)構(gòu) 2
1.2.2 藏文的書寫及字體 3
1.3 藏語詞語 3
1.3.1 格助詞 4
1.3.2 不自由虛詞 7
1.3.3 自由虛詞 10
1.3.4 動詞概述 12
1.4 藏語短語 13
1.5 藏語句子 14
1.5.1 藏語句子的特點(diǎn) 14
1.5.2 藏語句子的分類 14
第2章 理論基礎(chǔ) 17
2.1 集合論基礎(chǔ) 17
2.1.1 集合 17
2.1.2 字符串 18
2.1.3 函數(shù) 20
2.1.4 圖 20
2.2 概率論基礎(chǔ) 22
2.2.1 概率 22
2.2.2 最大似然估計 23
2.2.3 條件概率 24
2.2.4 全概率公式與貝葉斯公式 24
2.2.5 獨(dú)立性 26
2.2.6 隨機(jī)變量 26
2.2.7 聯(lián)合概率分布和條件概率分布 27
2.2.8 貝葉斯決策理論 28
2.2.9 期望和方差 29
2.3 信息論基礎(chǔ) 30
2.3.1 信息熵 30
2.3.2 信息熵的性質(zhì) 32
2.3.3 聯(lián)合熵和條件熵 34
2.3.4 相對熵 35
2.3.5 互信息 35
2.3.6 交叉熵 36
2.3.7 困惑度 37
2.3.8 噪聲信道 37
2.4 齊普夫定律 39
2.5 隱馬爾可夫模型 41
2.5.1 馬爾可夫模型 41
2.5.2 隱馬爾可夫模型的基本原理 42
2.5.3 隱馬爾可夫模型的三個基本問題 44
2.6 最大熵模型 56
2.6.1 最大熵模型的約束條件 57
2.6.2 最大熵模型的原則 58
2.6.3 最大熵模型的參數(shù)訓(xùn)練 58
2.7 條件隨機(jī)場模型 59
2.7.1 條件隨機(jī)場定義 60
2.7.2 條件隨機(jī)場模型形式 61
2.7.3 條件隨機(jī)場模型的參數(shù)估計 62
第3章 形式語言與自動機(jī) 64
3.1 形式語言 64
3.1.1 形式語言概述 64
3.1.2 形式文法 65
3.1.3 形式文法的類型 66
3.2 自動機(jī) 68
3.2.1 自動機(jī)概述 68
3.2.2 正規(guī)文法與自動機(jī) 72
第4章 字符編碼 75
4.1 西文字符編碼 75
4.2 ISO/IEC 10646與Unicode 76
4.2.1 緣起 76
4.2.2 ISO/IEC 10646體系結(jié)構(gòu) 76
4.2.3 Unicode 79
4.3 中文字符編碼 81
4.3.1 漢字字符編碼 81
4.3.2 藏文字符編碼 85
第5章 藏語語料庫的建設(shè) 91
5.1 語料庫概述 91
5.2 語料庫的類型 91
5.3 典型語料庫 93
5.4 藏語語料庫建設(shè)中存在的問題 96
第6章 藏文信息熵 99
6.1 概述 99
6.2 藏文字符的信息熵 100
6.3 藏文字的信息熵 102
6.4 藏語語言模型及其困惑度 105
6.4.1 N元文法模型 105
6.4.2 困惑度 107
6.4.3 數(shù)據(jù)平滑 109
6.5 藏文輸入法的數(shù)學(xué)模型 111
6.6 藏文文本自動校對 115
第7章 藏文拼寫文法的形式化 118
7.1 藏文拼寫文法形式化描述 118
7.1.1 術(shù)語定義 118
7.1.2 符號映射 119
7.1.3 藏文拼寫文法規(guī)則 120
7.1.4 藏文的基本拼寫結(jié)構(gòu) 122
7.1.5 藏文拼寫文法形式化描述 127
7.1.6 藏文拼寫文法性質(zhì) 131
7.2 藏文拼寫形式語言 133
7.2.1 藏文拼寫形式語言概述 133
7.2.2 藏文拼寫形式文法 135
7.3 藏文字組成成分識別 186
7.3.1 藏文字組成成分的識別概述 186
7.3.2 藏文拼寫形式文法使用中的二義性問題 188
第8章 藏語自動分詞及詞性和語義標(biāo)注 190
8.1 藏語自動分詞中的幾個關(guān)鍵問題 190
8.1.1 緊縮詞問題 190
8.1.2 歧義切分問題 193
8.1.3 未登錄詞問題 195
8.2 藏語自動分詞方法 197
8.2.1 基于規(guī)則的分詞方法 197
8.2.2 基于統(tǒng)計的分詞方法 198
8.2.3 基于條件隨機(jī)場模型的藏語分詞方法 199
8.3 命名實體識別 206
8.3.1 概述 206
8.3.2 命名實體識別方法 207
8.4 詞性標(biāo)注 209
8.4.1 概述 209
8.4.2 詞類標(biāo)記集的確定 211
8.4.3 基于規(guī)則的詞性標(biāo)注方法 215
8.4.4 基于統(tǒng)計模型的詞性標(biāo)注方法 217
8.4.5 基于規(guī)則與統(tǒng)計相結(jié)合的詞性標(biāo)注方法 219
8.5 詞義標(biāo)注 221
8.5.1 概述 221
8.5.2 基于互信息的詞義消歧方法 221
8.5.3 基于貝葉斯判別的詞義消歧方法 223
8.5.4 基于詞典的詞義消歧方法 224
第9章 現(xiàn)代藏語短語結(jié)構(gòu)及其形式化描述 225
9.1 概述 225
9.1.1 藏語短語的句法知識理論 225
9.1.2 藏語短語的句法功能分類 226
9.1.3 藏語短語規(guī)則的形式表達(dá) 229
9.2 名詞性短語結(jié)構(gòu)及其形式化描述 231
9.2.1 概述 231 9.2.2 定中結(jié)構(gòu)的NP 232
9.2.3 聯(lián)合結(jié)構(gòu)的NP 240
9.3 動詞性短語結(jié)構(gòu)及其形式化描述 241
9.3.1 概述 241
9.3.2 主謂結(jié)構(gòu)的VP 242
9.3.3 述賓結(jié)構(gòu)的VP 244
9.3.4 述補(bǔ)結(jié)構(gòu)的VP 246
9.3.5 動詞聯(lián)合的VP 250
9.3.6 狀中結(jié)構(gòu)的VP 251
9.4 形容詞性短語結(jié)構(gòu)及其形式化描述 252
9.4.1 概述 252
9.4.2 聯(lián)合結(jié)構(gòu)的AP 252
9.4.3 狀中結(jié)構(gòu)的AP 255
第10章 藏語句法分析 258
10.1 藏語句型概述 258
10.1.1 NP+PP+VP句型 258
10.1.2 NP+VP句型 259
10.2 短語結(jié)構(gòu)語法 260
10.2.1 形式語法 260
10.2.2 CFG句法分析 264
10.3 藏語CFG 句法分析 265
10.3.1 LR分析算法 265
10.3.2 句法樹 273
10.4 依存語法 275
10.4.1 概述 275
10.4.2 依存句法分析方法 277
10.5 藏語依存句法分析 281
10.5.1 概述 281
10.5.2 藏語依存關(guān)系體系 282
10.5.3 確定性藏語依存句法分析 286
第11章 統(tǒng)計機(jī)器翻譯原理 288
11.1 機(jī)器翻譯概述 288
11.1.1 機(jī)器翻譯技術(shù)的發(fā)展 288
11.1.2 機(jī)器翻譯方法 289
11.2 統(tǒng)計機(jī)器翻譯 291
11.3 基于噪聲信道模型的統(tǒng)計機(jī)器翻譯基本原理 291
11.4 統(tǒng)計語言模型 293
11.5 統(tǒng)計翻譯模型 296
11.5.1 共現(xiàn) 296
11.5.2 對齊 297
11.5.3 IBM模型1 300
11.5.4 學(xué)習(xí)詞匯翻譯模型 301
11.5.5 其他更高級的IBM模型 304
參考文獻(xiàn) 305