本書呈現(xiàn)了文本挖掘領域先進的算法,同時從學術界和產(chǎn)業(yè)界的角度介紹了文本挖掘。本
書涉及的業(yè)界學者跨越多個國家,來自多個機構: 大學、企業(yè)和政府實驗室。本書介紹了文本挖掘在多個領域中的自動文本分析和挖掘計算模型,這些領域包括: 機器學習、知識發(fā)現(xiàn)、自然語言處理和信息檢索等。
本書適合作為人工智能、機器學習和自然語言處理等領域相關人員的教科書和參考書。同
時,也適合研究人員和從業(yè)人員閱讀。
目 錄
譯者序
原書序
第1 章 獨立文檔的關鍵詞的自動提取 1
1. 1 簡介 1
1. 1. 1 關鍵詞提取方法 1
1. 2 快速自動關鍵詞提取 3
1. 2. 1 候選關鍵詞 3
1. 2. 2 關鍵詞得分 4
1. 2. 3 鄰接關鍵詞 5
1. 2. 4 提取關鍵詞 5
1. 3 基準評估 6
1. 3. 1 準確率和召回率評估 6
1. 3. 2 效率評估 7
1. 4 停用詞列表生成 9
1. 5 新聞消息的評估 12
1. 5. 1 MPQA 語料庫 12
1. 5. 2 從新聞消息中提取關鍵詞 12
1. 6 總結 15
參考文獻 16
第2 章 利用數(shù)學方法進行多語言文檔聚類 17
2. 1 簡介 17
2. 2 背景 17
2. 3 實驗設置 18
2. 4 多語言LSA 20
2. 5 Tucker1 方法 21
2. 6 PARAFAC2 方法 23
2. 7 詞對齊的LSA 24
2. 8 潛在形態(tài)語義分析(LMSA) 26
2. 9 詞對齊的LMSA 27
2. 10 對技術和結果的討論 27
參考文獻 29
第3 章 使用機器學習算法對基于內(nèi)容的垃圾郵件進行分類 31
3. 1 簡介 31
3. 2 機器學習算法 32
3. 2. 1 樸素貝葉斯 33
3. 2. 2 LogitBoost 33
3. 2. 3 支持向量機 34
3. 2. 4 增廣的潛在語義索引空間 35
3. 2. 5 徑向基函數(shù)網(wǎng)絡 36
3. 3 數(shù)據(jù)預處理 37
3. 3. 1 特征選擇 37
3. 3. 2 信息表示 39
3. 4 郵件分類的評估 39
3. 5 實驗 40
3. 5. 1 使用PU1 的實驗 40
3. 5. 2 使用ZH1 的實驗 42
3. 6 分類器特點 43
3. 7 結束語 45
參考文獻 45
第4 章 利用非負矩陣分解研究郵件分類問題 47
4. 1 簡介 47
4. 1. 1 相關工作 48
4. 1. 2 概要 49
4. 2 研究背景 49
4. 2. 1 非負矩陣分解 49
4. 2. 2 計算NMF 的算法 50
4. 2. 3 數(shù)據(jù)集 52
4. 2. 4 解釋 52
4. 3 基于特征排序的NMF 初始化 54
4. 3. 1 特征子集選擇 54
4. 3. 2 FS 初始化 55
4. 4 基于NMF 的分類方法 57
4. 4. 1 使用基礎特征分類 58
4. 4. 2 基于NMF 的一般化LSI 59
4. 5 結束語 65
參考文獻 66
第5 章 使用k ̄均值算法進行約束聚類 68
5. 1 簡介 68
5. 2 表示法和古典k ̄均值算法 69
5. 3 具有布萊格曼散度的k ̄均值約束聚類算法 70
5. 3. 1 具有“不能鏈接” 約束關系的二次k ̄均值聚類 70
5. 3. 2 “必須鏈接” 約束關系的移除 73
5. 3. 3 使用布萊格曼散度進行聚類 75
5. 4 smoka 類型約束聚類 77
5. 5 球形k ̄均值約束聚類 79
5. 5. 1 僅有“不能鏈接” 約束關系的球形k ̄均值聚類算法 80
5. 5. 2 具有