本書闡述詞法分析、文本分類、文本聚類、文本檢索、垃圾郵件過濾、情感分析、個性化推薦等文本分析與文本挖掘方面的理論方法。人工智能技術與互聯(lián)網(wǎng)的發(fā)展更是為該領域研究提出新的需求,書中相關理論和技術可以直接用于解決具體文本分析與文本挖掘的問題,也可以為進一步研究提供理論方法基礎。本書包括理論、技術,既適合理論方法的學習,又適合工程實踐。本書配套軟件、更多案例、技術文檔、配套PPT課件等請登錄和查詢。
更多科學出版社服務,請掃碼獲取。
目錄
第1章 統(tǒng)計中文分詞技術 1
1.1 詞法分析問題 1
1.2 詞典與基于規(guī)則分詞 4
1.3 仿詞識別與最少分詞技術 7
1.4 基于詞網(wǎng)格的N-gram統(tǒng)計分詞技術 11
1.5 數(shù)據(jù)平滑與專業(yè)詞抽取 18
1.6 本章小結 25
第2章 詞性標注與序列標注 27
2.1 三個序列標注問題 27
2.2 隱馬爾可夫序列標注 31
2.3 CRF模型與序列標注 39
2.4 CRF中文詞性標注 43
2.5 組合分類器的序列標注方法 46
2.6 實驗結果與分析 52
2.7 本章小結 56
第3章 命名實體識別 58
3.1 中文命名實體識別特點與任務描述 58
3.2 ME模型及其適用性 60
3.3 基于ME模型的中文命名實體識別 64
3.4 雙層混合模型方法研究 70
3.5 實驗結果與分析 74
3.6 本章小結 78
第4章 文本分類技術 80
4.1 文本的向量空間模型 80
4.2 文本相似度與kNN分類 85
4.3 樸素貝葉斯文本分類 93
4.4 樸素貝葉斯分類中的特征缺失補償策略 96
4.5 基于SVM的文本分類 102
4.6 基于分類技術的歧義消解問題 107
4.7 本章小結 112
第5章 文本聚類技術 114
5.1 聚類方法與文本聚類問題 114
5.2 k-均值與k-中心點文本聚類方法 119
5.3 文本層次聚類方法 124
5.4 基于聚類技術的詞義分析 126
5.5 其他聚類方法 130
5.6 本章小結 133
第6章 文本檢索技術 135
6.1 Web檢索系統(tǒng)構成與文本檢索的評價 135
6.2 信息檢索模型與布爾模型 138
6.3 向量空間模型與相關性反饋檢索模型 140
6.4 擴展的布爾模型與概率模型 145
6.5 信息檢索與信息過濾及信息推薦的關系 149
6.6 本章小結 153
第7章 垃圾郵件過濾與情感分析 155
7.1 垃圾郵件過濾問題與框架 155
7.2 樸素貝葉斯垃圾郵件過濾方法 159
7.3 ME模型與SVM垃圾郵件過濾方法 162
7.4 情感分析問題 167
7.5 情感分析方法 172
7.6 本章小結 181
第8章 個性化協(xié)同過濾推薦技術 183
8.1 推薦問題提出 183
8.2 通用推薦與個性化推薦 188
8.3 基本協(xié)同過濾推薦方法 192
8.4 基于SVD的協(xié)同過濾推薦 200
8.5 改進協(xié)同過濾推薦方法 207
8.6 本章小結 214
第8第9章 組合推薦技術 215
9.1 基于內(nèi)容的推薦技術 215
9.2 基于分類技術的推薦方法 219
9.3 基于推理的推薦技術 230
9.4 混合推薦方法 238
9.5 本章小結 242
參考文獻 243