統(tǒng)計(jì)語(yǔ)言建模與中文文本自動(dòng)校對(duì)技術(shù)
本書(shū)是作者多年來(lái)在自然語(yǔ)言處理領(lǐng)域開(kāi)展對(duì)統(tǒng)計(jì)語(yǔ)言建模以及中文文本校對(duì)技術(shù)研究的總結(jié)。
主要內(nèi)容包括統(tǒng)計(jì)語(yǔ)言建模和中文文本自動(dòng)校對(duì)技術(shù)兩部分內(nèi)容,共12章。前面部分介紹統(tǒng)計(jì)語(yǔ)言模型構(gòu)建的基本原理與方法,并對(duì)模型訓(xùn)練及評(píng)價(jià)方法進(jìn)行研究,提出統(tǒng)計(jì)語(yǔ)言模型建模時(shí)訓(xùn)練語(yǔ)料規(guī)模的定量化度量方法。后面部分概述中文文本中常見(jiàn)的各種錯(cuò)誤,并針對(duì)這些錯(cuò)誤類(lèi)型提出字詞級(jí)、句法級(jí)和語(yǔ)義級(jí)錯(cuò)誤的自動(dòng)偵測(cè)方法與模型,開(kāi)創(chuàng)了漢語(yǔ)文本語(yǔ)義錯(cuò)誤自動(dòng)偵測(cè)的新思路,提出了中文文本錯(cuò)誤的糾錯(cuò)建議生成與排序模型。*后基于所提出的模型與算法開(kāi)發(fā)了一個(gè)"正文通"中文文本校對(duì)系統(tǒng)。
本書(shū)可作為在自然語(yǔ)言處理領(lǐng)域開(kāi)展中文文本自動(dòng)校對(duì)技術(shù)與方法研究的相關(guān)人員的參考用書(shū)。
更多科學(xué)出版社服務(wù),請(qǐng)掃碼獲取。
導(dǎo)語(yǔ)_點(diǎn)評(píng)_推薦詞
序言
目錄
第一章 緒論 1
1.1 撰寫(xiě)本書(shū)的背景和意義 1
1.2 本書(shū)的主要內(nèi)容與組織結(jié)構(gòu) 3
1.3 本書(shū)重點(diǎn)關(guān)注的問(wèn)題 4
第二章 統(tǒng)計(jì)語(yǔ)言模型 7
2.1 語(yǔ)言模型概述 7
2.2 現(xiàn)有主要統(tǒng)計(jì)語(yǔ)言模型 7
2.2.1 上下文無(wú)關(guān)模型 7
2.2.2 n-gram 模型 8
2.2.3 隱Markov 模型 11
2.2.4 決策樹(shù)模型 18
2.2.5 Cache-based 模型 18
2.3 統(tǒng)計(jì)語(yǔ)言模型的建模技術(shù) 19
2.3.1 基于最大似然法的語(yǔ)言建模 19
2.3.2 基于組合思想的語(yǔ)言建模 21
2.3.3 基于信息論最大熵方法的語(yǔ)言建模 23
2.4 統(tǒng)計(jì)語(yǔ)言建模的相關(guān)問(wèn)題 24
2.4.1 語(yǔ)言模型的架構(gòu) 24
2.4.2 語(yǔ)言模型參數(shù)的確定 24
2.4.3 數(shù)據(jù)稀疏問(wèn)題與模型平滑 25
2.4.4 語(yǔ)言模型的評(píng)價(jià) 26
2.5 本章小結(jié) 26
第三章 漢語(yǔ)統(tǒng)計(jì)語(yǔ)言模型的構(gòu)建 27
3.1 漢語(yǔ)統(tǒng)計(jì)語(yǔ)言模型構(gòu)建概述 27
3.2 漢語(yǔ)文本分詞及其相關(guān)問(wèn)題 27
3.2.1 機(jī)讀詞典的建立 27
3.2.2 漢語(yǔ)文本分詞算法 28
3.2.3 分詞中的中國(guó)人名識(shí)別 31
3.2.4 實(shí)驗(yàn)結(jié)果與分析 37
3.3 漢語(yǔ)建模原理與文本統(tǒng)計(jì)系統(tǒng)的建立 39
3.3.1 漢語(yǔ)n-gram 模型的構(gòu)建原理 39
3.3.2 文本統(tǒng)計(jì)系統(tǒng)的組成及實(shí)現(xiàn) 39
3.3.3 字詞統(tǒng)計(jì)算法與程序 40
3.4 幾種漢語(yǔ)語(yǔ)言模型與實(shí)驗(yàn)結(jié)果 41
3.5 本章小結(jié) 42
第四章 漢語(yǔ)統(tǒng)計(jì)語(yǔ)言模型的訓(xùn)練與評(píng)價(jià) 43
4.1 語(yǔ)言模型訓(xùn)練樣本的選取 43
4.2 漢語(yǔ)語(yǔ)言模型訓(xùn)練樣本的規(guī)模 43
4.2.1 語(yǔ)言模型階數(shù)與訓(xùn)練樣本規(guī)模 43
4.2.2 漢語(yǔ)語(yǔ)言模型的訓(xùn)練語(yǔ)料規(guī)模 45
4.2.3 樣本規(guī)模與詞的使用頻率和統(tǒng)計(jì)相對(duì)誤差關(guān)系 48
4.3 統(tǒng)計(jì)語(yǔ)言模型的評(píng)價(jià) 50
4.3.1 基于信息熵的復(fù)雜度度量 50
4.3.2 基于困惑度的復(fù)雜度度量 54
4.4 漢語(yǔ)信息熵的估算方法 55
4.4.1 語(yǔ)言信息熵的估算 55
4.4.2 對(duì)幾種漢語(yǔ)語(yǔ)言模型的比較與評(píng)價(jià) 55
4.5 本章小結(jié) 56
第五章 文本校對(duì)技術(shù)的現(xiàn)狀分析 57
5.1 英文文本自動(dòng)校對(duì)技術(shù) 57
5.1.1 英文文本中的錯(cuò)誤種類(lèi) 57
5.1.2 單詞錯(cuò)誤的發(fā)現(xiàn)與校對(duì)技術(shù) 57
5.1.3 上下文相關(guān)的錯(cuò)誤校對(duì)技術(shù) 59
5.2 中文文本自動(dòng)校對(duì)技術(shù) 61
5.2.1 中文與英文的差別 61
5.2.2 中文自動(dòng)查錯(cuò)的研究現(xiàn)狀 61
5.2.3 中文自動(dòng)糾錯(cuò)的研究現(xiàn)狀 64
5.3 中文文本中常見(jiàn)錯(cuò)誤的類(lèi)型與分析 64
5.3.1 中文文本中的常見(jiàn)錯(cuò)誤類(lèi)型 64
5.3.2 中文文本中常見(jiàn)錯(cuò)誤統(tǒng)計(jì)分析 66
5.3.3 中文文本自動(dòng)校對(duì)的難點(diǎn)分析 67
5.4 本章小結(jié) 68
第六章 中文文本字詞錯(cuò)誤自動(dòng)偵測(cè)的模型與算法 69
6.1 中文文本字詞級(jí)錯(cuò)誤的表現(xiàn)形式 69
6.2 基于n-gram 模型的中文文本查錯(cuò)方法 70
6.2.1 n-gram 模型與接續(xù)關(guān)系 70
6.2.2 基于接續(xù)關(guān)系的查錯(cuò)思想 71
6.2.3 字字接續(xù)判斷模型 71
6.2.4 詞接續(xù)判斷模型 73
6.2.5 接續(xù)關(guān)系知識(shí)獲取與知識(shí)庫(kù)構(gòu)建 74
6.3 基于字詞二元接續(xù)關(guān)系的自動(dòng)查錯(cuò)算法 75
6.3.1 基于字詞二元接續(xù)的自動(dòng)查錯(cuò)算法 75
6.3.2 實(shí)驗(yàn)結(jié)果及查錯(cuò)實(shí)例 76
6.4 規(guī)則與統(tǒng)計(jì)相結(jié)合的文本自動(dòng)查錯(cuò)模型 79
6.4.1 中文文本中的“非多字詞錯(cuò)誤”與“真多字詞錯(cuò)誤” 79
6.4.2 規(guī)則與統(tǒng)計(jì)相結(jié)合的中文文本自動(dòng)查錯(cuò)模型 80
6.5 散串集中策略 84
6.5.1 雙向拼音知識(shí)庫(kù)的構(gòu)建 84
6.5.2 散串集中策略 84
6.5.3 錯(cuò)誤信息存儲(chǔ)方法 85
6.5.4 散串集中算法 86
6.5.5 實(shí)驗(yàn)結(jié)果與分析 86
6.6 一種英文單詞拼寫(xiě)自動(dòng)偵錯(cuò)與糾錯(cuò)的方法—骨架鍵法 88
6.6.1 英文拼寫(xiě)自動(dòng)偵錯(cuò)和糾錯(cuò)的一般方法 88
6.6.2 骨架鍵法在英文偵錯(cuò)與糾錯(cuò)中的可行性分析 88
6.6.3 骨架鍵法的算法描述和算法分析 89
6.6.4 實(shí)驗(yàn)結(jié)果評(píng)價(jià) 90
6.7 本章小結(jié) 90
第七章 中文文本中語(yǔ)法錯(cuò)誤的自動(dòng)偵測(cè)模型與算法 92
7.1 中文文本語(yǔ)法級(jí)錯(cuò)誤概述 92
7.2 關(guān)聯(lián)詞知識(shí)庫(kù)構(gòu)建及查錯(cuò)算法 93
7.2.1 關(guān)聯(lián)詞搭配錯(cuò)誤推理規(guī)則知識(shí)庫(kù)的構(gòu)建 93
7.2.2 關(guān)聯(lián)詞搭配查錯(cuò)算法 94
7.3 量名搭配知識(shí)庫(kù)的構(gòu)建及查錯(cuò)算法設(shè)計(jì) 95
7.3.1 基于《語(yǔ)法詞典》的量名搭配 95
7.3.2 基于語(yǔ)料庫(kù)的量名搭配 96
7.3.3 量名搭配類(lèi)庫(kù)的構(gòu)建 97
7.3.4 量名搭配查錯(cuò)算法 98
7.4 標(biāo)點(diǎn)符號(hào)錯(cuò)誤的自動(dòng)偵測(cè) 99
7.4.1 標(biāo)點(diǎn)符號(hào)搭配錯(cuò)誤的研究 99
7.4.2 標(biāo)點(diǎn)符號(hào)錯(cuò)誤搭配規(guī)則及算法設(shè)計(jì) 100
vi 統(tǒng)計(jì)語(yǔ)言建模與中文文本自動(dòng)校對(duì)技術(shù)
7.5 基于規(guī)則的語(yǔ)法錯(cuò)誤推理規(guī)則的構(gòu)建 101
7.5.1 語(yǔ)法錯(cuò)誤推理正規(guī)則庫(kù)構(gòu)建 101
7.5.2 語(yǔ)法錯(cuò)誤推理負(fù)規(guī)則庫(kù)制定 104
7.5.3 基于語(yǔ)法錯(cuò)誤推理規(guī)則的語(yǔ)法級(jí)錯(cuò)誤查錯(cuò)算法 105
7.6 本章小結(jié) 106
第八章 中文文本中語(yǔ)義錯(cuò)誤自動(dòng)偵測(cè)的模型與算法 107
8.1 語(yǔ)義學(xué)相關(guān)理論 107
8.1.1 現(xiàn)代語(yǔ)義學(xué)流派及其主要理論 107
8.1.2 語(yǔ)義知識(shí)的表示方法 111
8.1.3 語(yǔ)義知識(shí)資源 113
8.2 基于語(yǔ)義搭配知識(shí)庫(kù)的語(yǔ)義偵測(cè)算法 117
8.2.1 語(yǔ)義搭配知識(shí)庫(kù)體系結(jié)構(gòu)的設(shè)計(jì) 117
8.2.2 詞語(yǔ)搭配自動(dòng)抽取算法的設(shè)計(jì)與實(shí)現(xiàn) 119
8.2.3 語(yǔ)義搭配知識(shí)庫(kù)構(gòu)建算法的設(shè)計(jì)及實(shí)現(xiàn) 124
8.2.4 基于語(yǔ)義搭配知識(shí)庫(kù)的語(yǔ)義偵測(cè)算法的設(shè)計(jì)及實(shí)現(xiàn) 127
8.3 基于語(yǔ)義依存搭配知識(shí)庫(kù)的語(yǔ)義查錯(cuò)方法 128
8.3.1 依存樹(shù)庫(kù)的構(gòu)建及搭配關(guān)系的提取 128
8.3.2 基于語(yǔ)義依存搭配知識(shí)庫(kù)的語(yǔ)義級(jí)查錯(cuò)方法 132
8.4 本章小結(jié) 134
第九章 面向?qū)I(yè)領(lǐng)域的中文文本錯(cuò)誤的自動(dòng)偵測(cè)方法 135
9.1 面向特定領(lǐng)域的專(zhuān)業(yè)詞匯抽取方法概述 135
9.1.1 國(guó)外研究現(xiàn)狀分析 135
9.1.2 國(guó)內(nèi)研究現(xiàn)狀分析 136
9.2 專(zhuān)業(yè)領(lǐng)域詞匯及搭配關(guān)系的相關(guān)概念和理論知識(shí) 138
9.2.1 專(zhuān)業(yè)詞匯的定義 139
9.2.2 專(zhuān)業(yè)詞匯的分類(lèi) 139
9.2.3 專(zhuān)業(yè)詞匯的特性 140
9.2.4 專(zhuān)業(yè)詞語(yǔ)搭配關(guān)系的定義 141
9.2.5 通用的統(tǒng)計(jì)方法 141
9.3 基于統(tǒng)計(jì)與規(guī)則相結(jié)合的專(zhuān)業(yè)詞匯抽取算法 145
9.3.1 專(zhuān)業(yè)詞匯抽取算法的流程 145
9.3.2 基于左右信息熵?cái)U(kuò)展的候選專(zhuān)業(yè)詞匯抽取 148
9.3.3 基于成詞度的專(zhuān)業(yè)詞匯篩選 151
9.3.4 基于TF-IDF 領(lǐng)域度的專(zhuān)業(yè)詞匯篩選 154
9.3.5 基于通用詞庫(kù)的篩選 156
9.4 基于特定領(lǐng)域的詞語(yǔ)搭配挖掘算法 156
9.4.1 基于統(tǒng)計(jì)的常用詞語(yǔ)搭配關(guān)系挖掘 157
9.4.2 基于依存句法分析和《同義詞詞林》的動(dòng)賓搭配關(guān)系挖掘 161
9.4.3 基于依存分析結(jié)果的動(dòng)賓搭配關(guān)系挖掘 169
9.5 專(zhuān)業(yè)詞匯與搭配關(guān)系分析挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn) 174
9.5.1 系統(tǒng)的框架設(shè)計(jì) 174
9.5.2 系統(tǒng)的主要用途和技術(shù)特點(diǎn) 175
9.5.3 系統(tǒng)各功能模塊簡(jiǎn)介 175
9.5.4 實(shí)驗(yàn)結(jié)果與分析 181
9.6 專(zhuān)業(yè)詞匯與搭配關(guān)系在中文文本自動(dòng)校對(duì)中的應(yīng)用 187
9.6.1 專(zhuān)業(yè)詞匯在中文文本自動(dòng)校對(duì)中的應(yīng)用 187
9.6.2 詞語(yǔ)搭配關(guān)系在中文文本自動(dòng)校對(duì)中的應(yīng)用 189
9.7 本章小結(jié) 192
第十章 面向政治新聞?lì)I(lǐng)域的中文文本校對(duì)方法 194
10.1 面向政治新聞?lì)I(lǐng)域的中文文本校對(duì)方法概述 194
10.2 新聞?lì)I(lǐng)域文本政治性錯(cuò)誤類(lèi)型 194
10.3 面向政治新聞校對(duì)的相關(guān)知識(shí)庫(kù)構(gòu)建 195
10.3.1 涉及主權(quán)、領(lǐng)土完整及港澳臺(tái)問(wèn)題的“引號(hào)詞”QTLIB 庫(kù)的構(gòu)建 196
10.3.2 領(lǐng)導(dǎo)人順序和姓名-職務(wù)知識(shí)庫(kù)的構(gòu)建 197
10.4 面向政治新聞?lì)I(lǐng)域的差錯(cuò)偵測(cè)算法與實(shí)現(xiàn) 198
10.4.1 政治性差錯(cuò)偵測(cè)規(guī)則庫(kù)構(gòu)建 198
10.4.2 面向政治新聞?lì)I(lǐng)域的文本分詞優(yōu)化 199
10.4.3 政治性差錯(cuò)偵測(cè)模型 200
10.4.4 面向政治領(lǐng)域的文本校對(duì)方法的具體實(shí)現(xiàn) 201
10.5 實(shí)驗(yàn)結(jié)果分析 202
10.5.1 測(cè)試集的構(gòu)建 202
10.5.2 結(jié)果分析 203
第十一章 中文文本錯(cuò)誤糾錯(cuò)建議的自動(dòng)生成及其排序方法 204
11.1 中文文本字詞級(jí)錯(cuò)誤糾錯(cuò)建議自動(dòng)生成及其排序的模型與算法 204
11.1.1 中文文本字詞級(jí)錯(cuò)誤糾錯(cuò)建議自動(dòng)生成及其排序概述 204
11.1.2 自動(dòng)糾錯(cuò)的語(yǔ)言模型 204
11.1.3 糾錯(cuò)知識(shí)庫(kù)的構(gòu)造 205
11.1.4 糾錯(cuò)建議的生成算法 213
11.1.5 語(yǔ)境關(guān)聯(lián)度模型 215
11.1.6 基于語(yǔ)境關(guān)聯(lián)度模型的糾錯(cuò)建議排序 218
11.1.7 實(shí)驗(yàn)結(jié)果與實(shí)例 219
11.2 基于最大熵方法的語(yǔ)言建模與糾錯(cuò)排歧 221
11.2.1 問(wèn)題的引入 221
11.2.2 最大熵原理 222
11.2.3 基于最大熵原理的自然語(yǔ)言建模 223
11.2.4 基于頻次與平均互信息相結(jié)合的特征選擇 228
11.2.5 基于最大熵方法的糾錯(cuò)排歧 231
11.3 本章小結(jié) 235
第十二章 面向中文文本的自動(dòng)校對(duì)實(shí)驗(yàn)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) 236
12.1 系統(tǒng)目標(biāo) 236
12.2 系統(tǒng)結(jié)構(gòu)設(shè)計(jì) 236
12.3 系統(tǒng)的實(shí)現(xiàn) 238
12.3.1 開(kāi)發(fā)環(huán)境 238
12.3.2 知識(shí)獲取模塊的實(shí)現(xiàn) 239
12.3.3 分詞模塊的實(shí)現(xiàn) 239
12.3.4 查錯(cuò)模塊的實(shí)現(xiàn) 240
12.3.5 糾錯(cuò)模塊的實(shí)現(xiàn) 241
12.4 系統(tǒng)評(píng)測(cè) 243
12.4.1 評(píng)測(cè)目的和評(píng)測(cè)性能指標(biāo) 243
12.4.2 標(biāo)準(zhǔn)評(píng)測(cè)庫(kù)的建立和評(píng)測(cè)方法 244
12.5 本章小結(jié) 245
附錄:漢語(yǔ)語(yǔ)料加工詞性標(biāo)記體系 246
參考文獻(xiàn) 247