欧美4p,中国CHINA体内裑精亚洲日本

這是一本務(wù)實(shí)的入門(mén)書(shū)，助你零起點(diǎn)上手自然語(yǔ)言處理。 HanLP 作者何晗匯集多年經(jīng)驗(yàn)，從基本概念出發(fā)，逐步介紹中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、信息抽取、文本聚類(lèi)、文本分類(lèi)、句法分析這幾個(gè)熱門(mén)問(wèn)題的算法原理與工程實(shí)現(xiàn)。書(shū)中通過(guò)對(duì)多種算法的講解，比較了它們的優(yōu)缺點(diǎn)和適用場(chǎng)景，同時(shí)詳細(xì)演示生產(chǎn)級(jí)成熟代碼，助你真正將自然語(yǔ)言處理應(yīng)用在生產(chǎn)環(huán)境中。隨著本書(shū)的學(xué)習(xí)，你將從普通程序員晉級(jí)為機(jī)器學(xué)習(xí)工程師，*后進(jìn)化到自然語(yǔ)言處理工程師。

第 1 章　新手上路 1

1.1　自然語(yǔ)言與編程語(yǔ)言 .　2

1.1.1　詞匯量 .　2

1.1.2　結(jié)構(gòu)化 .　2

1.1.3　歧義性 .　3

1.1.4　容錯(cuò)性 .　3

1.1.5　易變性 .　4

1.1.6　簡(jiǎn)略性 .　4

1.2　自然語(yǔ)言處理的層次 .　4

1.2.1　語(yǔ)音、圖像和文本 ..　5

1.2.2　中文分詞、詞性標(biāo)注和命名實(shí)體

識(shí)別　.　5

1.2.3　信息抽取 .　6

1.2.4　文本分類(lèi)與文本聚類(lèi) ..　6

1.2.5　句法分析 .　6

1.2.6　語(yǔ)義分析與篇章分析 ..　7

1.2.7　其他高級(jí)任務(wù)　7

1.3　自然語(yǔ)言處理的流派 .　8

1.3.1　基于規(guī)則的專(zhuān)家系統(tǒng) ..　8

1.3.2　基于統(tǒng)計(jì)的學(xué)習(xí)方法 ..　9

1.3.3　歷史 .　9

1.3.4　規(guī)則與統(tǒng)計(jì) .　11

1.3.5　傳統(tǒng)方法與深度學(xué)習(xí)　11

1.4　機(jī)器學(xué)習(xí) ..　12

1.4.1　什么是機(jī)器學(xué)習(xí)　13

1.4.2　模型 ..　13

1.4.3　特征 ..　13

1.4.4　數(shù)據(jù)集 ..　15

1.4.5　監(jiān)督學(xué)習(xí) ..　16

1.4.6　無(wú)監(jiān)督學(xué)習(xí) .　17

1.4.7　其他類(lèi)型的機(jī)器學(xué)習(xí)算法 ..　18

1.5　語(yǔ)料庫(kù)　19

1.5.1　中文分詞語(yǔ)料庫(kù)　19

1.5.2　詞性標(biāo)注語(yǔ)料庫(kù)　19

1.5.3　命名實(shí)體識(shí)別語(yǔ)料庫(kù)　20

1.5.4　句法分析語(yǔ)料庫(kù)　20

1.5.5　文本分類(lèi)語(yǔ)料庫(kù)　20

1.5.6　語(yǔ)料庫(kù)建設(shè) .　21

1.6　開(kāi)源工具 ..　21

1.6.1　主流NLP 工具比較 ..　21

1.6.2　Python 接口　23

1.6.3　Java 接口 .　28

1.7　總結(jié) .　31

第　2 章詞典分詞　32

2.1　什么是詞 ..　32

2.1.1　詞的定義 ..　32

2.1.2　詞的性質(zhì)--齊夫定律 ..　33

2.2　詞典 .　34

2.2.1　HanLP 詞典 .　34

2.2.2　詞典的加載 .　34

2.3　切分算法 ..　36

2.3.1　完全切分 ..　36

2.3.2　正向最長(zhǎng)匹配 .　37

2.3.3　逆向最長(zhǎng)匹配 .　39

2.3.4　雙向最長(zhǎng)匹配 .　40

2.3.5　速度評(píng)測(cè) ..　43

2.4　字典樹(shù)　46

2.4.1　什么是字典樹(shù) .　46

2.4.2　字典樹(shù)的節(jié)點(diǎn)實(shí)現(xiàn)　47

2.4.3　字典樹(shù)的增刪改查實(shí)現(xiàn) ..　48

2.4.4　首字散列其余二分的字典樹(shù) .　50

2.4.5　前綴樹(shù)的妙用 .　53

2.5　雙數(shù)組字典樹(shù)　55

2.5.1　雙數(shù)組的定義 .　55

2.5.2　狀態(tài)轉(zhuǎn)移 ..　56

2.5.3　查詢(xún) ..　56

2.5.4　構(gòu)造*　57

2.5.5　全切分與最長(zhǎng)匹配　60

2.6　AC 自動(dòng)機(jī) ..　60

2.6.1　從字典樹(shù)到AC 自動(dòng)機(jī)　61

2.6.2　goto 表　61

2.6.3　output 表 ..　62

2.6.4　fail 表　63

2.6.5　實(shí)現(xiàn) ..　65

2.7　基于雙數(shù)組字典樹(shù)的AC 自動(dòng)機(jī) .　67

2.7.1　原理 ..　67

2.7.2　實(shí)現(xiàn) ..　67

2.8　HanLP 的詞典分詞實(shí)現(xiàn)　71

2.8.1　DoubleArrayTrieSegment　72

2.8.2　AhoCorasickDoubleArrayTrie-

Segment　.　73

2.9　準(zhǔn)確率評(píng)測(cè) .　74

2.9.1　準(zhǔn)確率 ..　74

2.9.2　混淆矩陣與TP/FN/FP/TN ..　75

2.9.3　精確率 ..　76

2.9.4　召回率 ..　76

2.9.5　F1 值 ..　77

2.9.6　中文分詞中的P、R、F1 計(jì)算 ..　77

2.9.7　實(shí)現(xiàn) ..　78

2.9.8　第二屆國(guó)際中文分詞評(píng)測(cè) ..　79

2.9.9　OOV Recall Rate 與IV Recall Rate .　81

2.10　字典樹(shù)的其他應(yīng)用 .　83

2.10.1　停用詞過(guò)濾 ..　83

2.10.2　簡(jiǎn)繁轉(zhuǎn)換　87

2.10.3　拼音轉(zhuǎn)換　90

2.11　總結(jié) .　91

第3　章二元語(yǔ)法與中文分詞 .　92

3.1　語(yǔ)言模型 ..　92

3.1.1　什么是語(yǔ)言模型　92

3.1.2　馬爾可夫鏈與二元語(yǔ)法 ..　94

3.1.3　n 元語(yǔ)法 ..　95

3.1.4　數(shù)據(jù)稀疏與平滑策略　96

3.2　中文分詞語(yǔ)料庫(kù) .　96

3.2.1　1998 年《人民日?qǐng)?bào)》語(yǔ)料庫(kù)PKU .　97

3.2.2　微軟亞洲研究院語(yǔ)料庫(kù)MSR　98

3.2.3　繁體中文分詞語(yǔ)料庫(kù)　98

3.2.4　語(yǔ)料庫(kù)統(tǒng)計(jì) .　99

3.3　訓(xùn)練 .　100

3.3.1　加載語(yǔ)料庫(kù) ..　101

3.3.2　統(tǒng)計(jì)一元語(yǔ)法 ..　101

3.3.3　統(tǒng)計(jì)二元語(yǔ)法 ..　103

3.4　預(yù)測(cè) ..　104

3.4.1　加載模型　104

3.4.2　構(gòu)建詞網(wǎng)　107

3.4.3　節(jié)點(diǎn)間的距離計(jì)算　111

3.4.4　詞圖上的維特比算法 .　112

3.4.5　與用戶(hù)詞典的集成　115

3.5　評(píng)測(cè) ..　118

3.5.1　標(biāo)準(zhǔn)化評(píng)測(cè) ..　118

3.5.2　誤差分析　118

3.5.3　調(diào)整模型　119

3.6　日語(yǔ)分詞　122

3.6.1　日語(yǔ)分詞語(yǔ)料 ..　122

3.6.2　訓(xùn)練日語(yǔ)分詞器 .　123

3.7　總結(jié) ..　124

第4　章隱馬爾可夫模型與序列標(biāo)注 .　125

4.1　序列標(biāo)注問(wèn)題 .　125

4.1.1　序列標(biāo)注與中文分詞 .　126

4.1.2　序列標(biāo)注與詞性標(biāo)注 .　127

4.1.3　序列標(biāo)注與命名實(shí)體識(shí)別　128

4.2　隱馬爾可夫模型 ..　129

4.2.1　從馬爾可夫假設(shè)到隱馬爾可夫

模型　129

4.2.2　初始狀態(tài)概率向量 .　130

4.2.3　狀態(tài)轉(zhuǎn)移概率矩陣 .　131

4.2.4　發(fā)射概率矩陣 ..　132

4.2.5　隱馬爾可夫模型的三個(gè)基本用法 ..　133

4.3　隱馬爾可夫模型的樣本生成　133

4.3.1　案例--醫(yī)療診斷 .　133

4.3.2　樣本生成算法 ..　136

4.4　隱馬爾可夫模型的訓(xùn)練 ..　138

4.4.1　轉(zhuǎn)移概率矩陣的估計(jì) .　138

4.4.2　初始狀態(tài)概率向量的估計(jì)　139

4.4.3　發(fā)射概率矩陣的估計(jì) .　140

4.4.4　驗(yàn)證樣本生成與模型訓(xùn)練　141

4.5　隱馬爾可夫模型的預(yù)測(cè) ..　142

4.5.1　概率計(jì)算的前向算法 .　142

4.5.2　搜索狀態(tài)序列的維特比算法 ..　143

4.6　隱馬爾可夫模型應(yīng)用于中文分詞 .　147

4.6.1　標(biāo)注集　148

4.6.2　字符映射　149

4.6.3　語(yǔ)料轉(zhuǎn)換　150

4.6.4　訓(xùn)練　151

4.6.5　預(yù)測(cè)　152

4.6.6　評(píng)測(cè)　153

4.6.7　誤差分析　154

4.7　二階隱馬爾可夫模型*　154

4.7.1　二階轉(zhuǎn)移概率張量的估計(jì)　155

4.7.2　二階隱馬爾可夫模型中的維特比

算法　156

4.7.3　二階隱馬爾可夫模型應(yīng)用于中文

分詞　158

4.8　總結(jié) ..　159

第5　章感知機(jī)分類(lèi)與序列標(biāo)注 .　160

5.1　分類(lèi)問(wèn)題　160

5.1.1　定義　160

5.1.2　應(yīng)用　161

5.2　線性分類(lèi)模型與感知機(jī)算法　161

5.2.1　特征向量與樣本空間 .　162

5.2.2　決策邊界與分離超平面　164

5.2.3　感知機(jī)算法 ..　167

5.2.4　損失函數(shù)與隨機(jī)梯度下降*　169

5.2.5　投票感知機(jī)和平均感知機(jī)　171

5.3　基于感知機(jī)的人名性別分類(lèi)　174

5.3.1　人名性別語(yǔ)料庫(kù) .　174

5.3.2　特征提取　174

5.3.3　訓(xùn)練　175

5.3.4　預(yù)測(cè)　176

5.3.5　評(píng)測(cè)　177

5.3.6　模型調(diào)優(yōu)　178

5.4　結(jié)構(gòu)化預(yù)測(cè)問(wèn)題 ..　180

5.4.1　定義　180

5.4.2　結(jié)構(gòu)化預(yù)測(cè)與學(xué)習(xí)的流程　180

5.5　線性模型的結(jié)構(gòu)化感知機(jī)算法 ..　180

5.5.1　結(jié)構(gòu)化感知機(jī)算法 .　180

5.5.2　結(jié)構(gòu)化感知機(jī)與序列標(biāo)注　182

5.5.3　結(jié)構(gòu)化感知機(jī)的維特比解碼算法 ..　183

5.6　基于結(jié)構(gòu)化感知機(jī)的中文分詞 ..　186

5.6.1　特征提取　187

5.6.2　多線程訓(xùn)練 ..　189

5.6.3　特征裁剪與模型壓縮* .　190

5.6.4　創(chuàng)建感知機(jī)分詞器 .　192

5.6.5　準(zhǔn)確率與性能 ..　194

5.6.6　模型調(diào)整與在線學(xué)習(xí)* .　195

5.6.7　中文分詞特征工程* .　197

5.7　總結(jié) ..　199

第6　章條件隨機(jī)場(chǎng)與序列標(biāo)注 .　200

6.1　機(jī)器學(xué)習(xí)的模型譜系　200

6.1.1　生成式模型與判別式模型　201

6.1.2　有向與無(wú)向概率圖模型　202

6.2　條件隨機(jī)場(chǎng) ..　205

6.2.1　線性鏈條件隨機(jī)場(chǎng) .　205

6.2.2　條件隨機(jī)場(chǎng)的訓(xùn)練*　207

6.2.3　對(duì)比結(jié)構(gòu)化感知機(jī) .　210

6.3　條件隨機(jī)場(chǎng)工具包 .　212

6.3.1　CRF 的安裝　212

6.3.2　CRF 語(yǔ)料格式　213

6.3.3　CRF 特征模板　214

6.3.4　CRF 命令行訓(xùn)練　215

6.3.5　CRF 模型格式*　216

6.3.6　CRF 命令行預(yù)測(cè)　217

6.3.7　CRF 代碼分析*　218

6.4　HanLP 中的CRF API　220

6.4.1　訓(xùn)練分詞器 ..　220

6.4.2　標(biāo)準(zhǔn)化評(píng)測(cè) ..　220

6.5　總結(jié) ..　221

第7　章詞性標(biāo)注 .　222

7.1　詞性標(biāo)注概述 .　222

7.1.1　什么是詞性 ..　222

7.1.2　詞性的用處 ..　223

7.1.3　詞性標(biāo)注　223

7.1.4　詞性標(biāo)注模型 ..　223

7.2　詞性標(biāo)注語(yǔ)料庫(kù)與標(biāo)注集 .　224

7.2.1　《人民日?qǐng)?bào)》語(yǔ)料庫(kù)與PKU 標(biāo)注集 ..　225

7.2.2　國(guó)家語(yǔ)委語(yǔ)料庫(kù)與863 標(biāo)注集 .　231

7.2.3　《誅仙》語(yǔ)料庫(kù)與CTB 標(biāo)注集 ..　234

7.3　序列標(biāo)注模型應(yīng)用于詞性標(biāo)注 ..　236

7.3.1　基于隱馬爾可夫模型的詞性標(biāo)注 ..　237

7.3.2　基于感知機(jī)的詞性標(biāo)注　238

7.3.3　基于條件隨機(jī)場(chǎng)的詞性標(biāo)注 ..　240

7.3.4　詞性標(biāo)注評(píng)測(cè) ..　241

7.4　自定義詞性 ..　242

7.4.1　樸素實(shí)現(xiàn)　242

7.4.2　標(biāo)注語(yǔ)料　243

7.5　總結(jié) ..　244

第8　章命名實(shí)體識(shí)別 .　245

8.1　概述 ..　245

8.1.1　命名實(shí)體　245

8.1.2　命名實(shí)體識(shí)別 ..　245

8.2　基于規(guī)則的命名實(shí)體識(shí)別 .　246

8.2.1　基于規(guī)則的音譯人名識(shí)別　247

8.2.2　基于規(guī)則的日本人名識(shí)別　248

8.2.3　基于規(guī)則的數(shù)詞英文識(shí)別　249

8.3　命名實(shí)體識(shí)別語(yǔ)料庫(kù) ..　250

8.3.1　1998 年《人民日?qǐng)?bào)》語(yǔ)料庫(kù) .　250

8.3.2　微軟命名實(shí)體識(shí)別語(yǔ)料庫(kù)　251

8.4　基于層疊隱馬爾可夫模型的角色

標(biāo)注框架　252

8.4.1　基于角色標(biāo)注的中國(guó)人名識(shí)別 ..　252

8.4.2　基于角色標(biāo)注的地名識(shí)別 ..　257

8.4.3　基于角色標(biāo)注的機(jī)構(gòu)名識(shí)別 ..　258

8.5　基于序列標(biāo)注的命名實(shí)體識(shí)別 ..　260

8.5.1　特征提取　261

8.5.2　基于隱馬爾可夫模型序列標(biāo)注的

命名實(shí)體識(shí)別　..　262

8.5.3　基于感知機(jī)序列標(biāo)注的命名實(shí)體

識(shí)別　264

8.5.4　基于條件隨機(jī)場(chǎng)序列標(biāo)注的命名

實(shí)體識(shí)別　265

8.5.5　命名實(shí)體識(shí)別標(biāo)準(zhǔn)化評(píng)測(cè)　265

8.6　自定義領(lǐng)域命名實(shí)體識(shí)別 .　266

8.6.1　標(biāo)注領(lǐng)域命名實(shí)體識(shí)別語(yǔ)料庫(kù) ..　267

8.6.2　訓(xùn)練領(lǐng)域模型 ..　267

8.7　總結(jié) ..　268

第9　章信息抽取 .　270

9.1　新詞提取　270

9.1.1　概述　270

9.1.2　基本原理　270

9.1.3　信息熵　271

9.1.4　互信息　272

9.1.5　實(shí)現(xiàn)　273

9.2　關(guān)鍵詞提取 ..　276

9.2.1　詞頻統(tǒng)計(jì)　277

9.2.2　TF-IDF ..　278

9.2.3　TextRank ..　280

9.3　短語(yǔ)提取　283

9.4　關(guān)鍵句提取 ..　284

9.4.1　BM25 .　284

9.4.2　TextRank ..　285

9.5　總結(jié) ..　287

第　10 章文本聚類(lèi) .　288

10.1　概述 ..　288

10.1.1　聚類(lèi)　288

10.1.2　聚類(lèi)的應(yīng)用 ..　290

10.1.3　文本聚類(lèi)　290

10.2　文檔的特征提取　291

10.2.1　詞袋模型　291

10.2.2　詞袋中的統(tǒng)計(jì)指標(biāo) .　293

10.3　k 均值算法　293

10.3.1　基本原理　294

10.3.2　初始質(zhì)心的選取 .　294

10.3.3　更快的準(zhǔn)則函數(shù) .　297

10.3.4　實(shí)現(xiàn)　298

10.4　重復(fù)二分聚類(lèi)算法 ..　300

10.4.1　基本原理　300

10.4.2　自動(dòng)判斷聚類(lèi)個(gè)數(shù)k ..　301

10.4.3　實(shí)現(xiàn)　302

10.5　標(biāo)準(zhǔn)化評(píng)測(cè) ..　303

10.5.1　P、R 和F1 值 ..　303

10.5.2　語(yǔ)料庫(kù)　304

10.5.3　評(píng)測(cè)試驗(yàn)　305

10.6　總結(jié) ..　305

第　11 章文本分類(lèi) .　306

11.1　文本分類(lèi)的概念　306

11.2　文本分類(lèi)語(yǔ)料庫(kù)　307

11.3　文本分類(lèi)的特征提取 .　308

11.3.1　分詞　309

11.3.2　卡方特征選擇 ..　309

11.3.3　詞袋向量　312

11.4　樸素貝葉斯分類(lèi)器 ..　312

11.4.1　樸素貝葉斯法原理 .　312

11.4.2　樸素貝葉斯文本分類(lèi)器實(shí)現(xiàn) ..　314

11.5　支持向量機(jī)分類(lèi)器 ..　317

11.5.1　線性支持向量機(jī)* ..　317

11.5.2　線性支持向量機(jī)文本分類(lèi)器

實(shí)現(xiàn)　319

11.6　標(biāo)準(zhǔn)化評(píng)測(cè) ..　320

11.6.1　評(píng)測(cè)指標(biāo)P、R、F1　320

11.6.2　試驗(yàn)結(jié)果　321

11.7　情感分析　321

11.7.1　ChnSentiCorp 情感分析語(yǔ)

料庫(kù)　322

11.7.2　訓(xùn)練情感分析模型 .　322

11.7.3　拓展試驗(yàn)　323

11.8　總結(jié) ..　323

第　12 章依存句法分析 .　324

12.1　短語(yǔ)結(jié)構(gòu)樹(shù) ..　324

12.1.1　上下文無(wú)關(guān)文法 .　324

12.1.2　短語(yǔ)結(jié)構(gòu)樹(shù) ..　325

12.1.3　賓州樹(shù)庫(kù)和中文樹(shù)庫(kù) .　326

12.2　依存句法樹(shù) ..　327

12.2.1　依存句法理論 ..　327

12.2.2　中文依存句法樹(shù)庫(kù) .　328

12.2.3　依存句法樹(shù)的可視化 .　331

12.3　依存句法分析 .　333

12.3.1　基于圖的依存句法分析　333

12.3.2　基于轉(zhuǎn)移的依存句法分析　333

12.4　基于轉(zhuǎn)移的依存句法分析 ..　334

12.4.1　Arc-Eager 轉(zhuǎn)移系統(tǒng) .　334

12.4.2　特征提取　336

12.4.3　Static 和Dynamic Oracle　337

12.4.4　Dynamic Oracle 與感知機(jī)在線

學(xué)習(xí)　.　338

12.4.5　柱搜索　339

12.5　依存句法分析API　340

12.5.1　訓(xùn)練模型　340

12.5.2　標(biāo)準(zhǔn)化評(píng)測(cè) ..　341

12.6　案例：基于依存句法樹(shù)的意見(jiàn)

抽取　..　342

12.7　總結(jié) ..　344

第　13 章深度學(xué)習(xí)與自然語(yǔ)言處理　345

13.1　傳統(tǒng)方法的局限　345

13.1.1　數(shù)據(jù)稀疏　345

13.1.2　特征模板　347

13.1.3　誤差傳播　348

13.2　深度學(xué)習(xí)與優(yōu)勢(shì)　348

13.2.1　深度學(xué)習(xí)　348

13.2.2　用稠密向量解決數(shù)據(jù)稀疏　352

13.2.3　用多層網(wǎng)絡(luò)自動(dòng)提取特征表示 ..　352

13.2.4　端到端的設(shè)計(jì) ..　353

13.3　word2vec ..　353

13.3.1　語(yǔ)言學(xué)上的啟發(fā) .　354

13.3.2　CBOW 模型 .　354

13.3.3　訓(xùn)練詞向量 ..　355

13.3.4　單詞語(yǔ)義相似度 .　357

13.3.5　詞語(yǔ)類(lèi)比　358

13.3.6　短文本相似度 ..　359

13.4　基于神經(jīng)網(wǎng)絡(luò)的高性能依存句法

分析器　.　360

13.4.1　Arc-Standard 轉(zhuǎn)移系統(tǒng) ..　360

13.4.2　特征提取　361

13.4.3　實(shí)現(xiàn)與接口 ..　361

13.5　自然語(yǔ)言處理進(jìn)階 ..　363

自然語(yǔ)言處理學(xué)習(xí)資料推薦　.　365

你還可能感興趣

我要評(píng)論