SPSS Modeler 數(shù)據(jù)挖掘方法及應用(第3版)
定 價:69 元
- 作者:薛薇
- 出版時間:2020/3/1
- ISBN:9787121363191
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:C819
- 頁碼:360
- 紙張:
- 版次:01
- 開本:16K
數(shù)據(jù)挖掘是大數(shù)據(jù)分析中最活躍的地帶。SPSS Modeler充分利用計算機系統(tǒng)的運算處理能力和圖形展現(xiàn)能力,將數(shù)據(jù)挖掘方法、應用與工具有機地融為一體,成為內容全面、功能強大、操作友好的數(shù)據(jù)挖掘軟件產品,是大數(shù)據(jù)分析的理想工具。本書以數(shù)據(jù)挖掘的實踐過程為主線,系統(tǒng)介紹了決策樹、人工神經網絡、支持向量機、Logistic回歸、判別分析、貝葉斯網絡、聚類分析等一系列經典數(shù)據(jù)挖掘方法,以及數(shù)據(jù)整理和降維處理等必備知識,同時給出了SPSS Modeler實現(xiàn)的全過程。講解方法從易到難,說明問題由淺入深,軟件操作詳細全面。本書力求以最通俗的方式闡述數(shù)據(jù)挖掘方法的核心思想與基本原理,同時配合SPSS Modeler 18(中文版)軟件操作說明,希望讀者能夠直觀理解方法的本質,快速掌握軟件使用技巧,并應用到數(shù)據(jù)挖掘實踐中。本書提供實例數(shù)據(jù)和電子課件,讀者可登錄華信教育資源網www.hxedu.com.cn免費下載使用。本書可作為高等院校管理類、財經類、計算機類專業(yè)本科生和研究生的數(shù)據(jù)挖掘教材,也可作為商業(yè)管理、金融保險、社會教育等行業(yè)進行數(shù)據(jù)挖掘實踐的參考用書。
薛薇,工學碩士,經濟學博士,中國人民大學應用統(tǒng)計學科研究中心副主任,中國人民大學統(tǒng)計學院副教授。主要研究領域:機器學習和文本挖掘、復雜網絡建模等。關注統(tǒng)計和數(shù)據(jù)挖掘算法及軟件應用。涉足企業(yè)客戶終身價值測算,基于文本挖掘的熱點事件主題提取和分類,金融、貿易等復雜網絡動態(tài)建模等方面。主要代表性教材:《SPSS統(tǒng)計分析方法及應用》、《R語言數(shù)據(jù)挖掘方法及應用》、《R語言:大數(shù)據(jù)分析中的統(tǒng)計方法及應用》、《SPSS Modeler數(shù)據(jù)挖掘方法及應用》等。
目 錄
第1章 數(shù)據(jù)挖掘和SPSS Modeler使用概述 1
1.1 數(shù)據(jù)挖掘的產生背景 1
1.1.1 海量大數(shù)據(jù)的分析需求催生數(shù)據(jù)挖掘 1
1.1.2 應用對理論的挑戰(zhàn)催生數(shù)據(jù)挖掘 2
1.2 什么是數(shù)據(jù)挖掘 4
1.2.1 數(shù)據(jù)挖掘和數(shù)據(jù)庫中的知識發(fā)現(xiàn) 5
1.2.2 數(shù)據(jù)挖掘方法論 6
1.2.3 數(shù)據(jù)挖掘的任務和應用 9
1.2.4 數(shù)據(jù)挖掘得到的知識形式 11
1.2.5 數(shù)據(jù)挖掘算法的分類 14
1.3 SPSS Modeler軟件概述 17
1.3.1 SPSS Modeler的數(shù)據(jù)流 17
1.3.2 SPSS Modeler的窗口 19
1.3.3 數(shù)據(jù)流的基本管理 21
1.3.4 緩存節(jié)點和超節(jié)點 24
1.3.5 從一個示例看SPSS Modeler的使用 25
第2章 SPSS Modeler的數(shù)據(jù)讀入和數(shù)據(jù)集成 31
2.1 變量類型 31
2.1.1 從數(shù)據(jù)挖掘角度看變量類型 31
2.1.2 從計算機存儲角度看變量類型 32
2.2 讀入數(shù)據(jù) 32
2.2.1 讀自由格式的文本文件 33
2.2.2 讀Excel電子表格數(shù)據(jù) 36
2.2.3 讀SPSS格式文件 37
2.3 數(shù)據(jù)集成 38
2.3.1 數(shù)據(jù)的縱向合并 38
2.3.2 數(shù)據(jù)的橫向合并 40
2.3.3 數(shù)據(jù)源替換 43
第3章 SPSS Modeler的數(shù)據(jù)理解 45
3.1 變量說明 45
3.1.1 變量的重新實例化 46
3.1.2 有效變量值和無效值調整 47
3.1.3 變量角色的說明 49
3.2 數(shù)據(jù)質量的評估和調整 50
3.2.1 數(shù)據(jù)的基本特征與質量評價報告 50
3.2.2 變量值的調整 53
3.2.3 數(shù)據(jù)質量管理 56
3.3 數(shù)據(jù)的排序 58
3.3.1 單變量排序 58
3.3.2 多重排序 59
3.4 數(shù)據(jù)的分類匯總 60
3.4.1 單變量分類匯總 60
3.4.2 多重分類匯總 61
第4章 SPSS Modeler的數(shù)據(jù)準備 62
4.1 變量變換 62
4.1.1 CLEM表達式 62
4.1.2 變量值的重新計算 65
4.1.3 變量類別值的調整 67
4.2 變量派生 68
4.2.1 生成新變量 68
4.2.2 生成服從正態(tài)分布的新變量 72
4.2.3 派生啞變量 75
4.3 數(shù)據(jù)精簡 76
4.3.1 隨機抽樣 76
4.3.2 根據(jù)條件選取樣本 79
4.4 建模中的數(shù)據(jù)集處理策略 80
4.4.1 樣本的平衡處理 80
4.4.2 樣本子集的劃分 81
第5章 SPSS Modeler的基本分析 85
5.1 數(shù)值型變量的基本分析 85
5.1.1 計算基本描述統(tǒng)計量 85
5.1.2 繪制散點圖 88
5.1.3 繪制線圖 91
5.2 兩分類型變量相關性的研究 93
5.2.1 兩分類型變量相關性的圖形分析 93
5.2.2 兩分類型變量相關性的數(shù)值分析 98
5.3 兩總體的均值比較 102
5.3.1 兩總體均值比較的圖形分析 102
5.3.2 獨立樣本的均值檢驗 104
5.3.3 配對樣本的均值檢驗 108
5.4 RFM分析 110
5.4.1 什么是RFM分析 110
5.4.2 RFM匯總 110
5.4.3 計算RFM得分 112
第6章 SPSS Modeler的數(shù)據(jù)精簡 115
6.1 變量值的離散化處理 115
6.1.1 無監(jiān)督的數(shù)據(jù)分組 115
6.1.2 有監(jiān)督的數(shù)據(jù)分組 116
6.1.3 變量值離散化處理的應用示例 119
6.2 特征選擇 122
6.2.1 特征選擇的一般方法 123
6.2.2 特征選擇的應用示例 124
6.3 因子分析 128
6.3.1 什么是因子分析 128
6.3.2 因子提取和因子載荷矩陣的求解 131
6.3.3 因子的命名解釋 134
6.3.4 計算因子得分 135
6.3.5 因子分析的應用示例 136
第7章 分類預測:SPSS Modeler的決策樹 141
7.1 決策樹算法概述 141
7.1.1 什么是決策樹 141
7.1.2 決策樹的幾何理解 143
7.1.3 決策樹的核心問題 143
7.2 SPSS Modeler的C5.0算法及其應用 146
7.2.1 信息熵和信息增益 146
7.2.2 C5.0決策樹的生長算法 147
7.2.3 C5.0決策樹的剪枝算法 152
7.2.4 C5.0決策樹的基本應用示例 154
7.2.5 C5.0的推理規(guī)則集 158
7.2.6 損失矩陣 163
7.2.7 N折交叉驗證和Boosting技術 165
7.3 SPSS Modeler的分類回歸樹及其應用 169
7.3.1 分類回歸樹的生長過程 169
7.3.2 分類回歸樹的剪枝過程 171
7.3.3 損失矩陣對分類回歸樹的影響 174
7.3.4 分類回歸樹的基本應用示例 174
7.3.5 分類回歸樹的交互建模 178
7.3.6 交互建模中分類回歸樹的評價 180
7.4 SPSS Modeler的CHAID算法及其應用 185
7.4.1 CHAID算法 185
7.4.2 窮舉CHAID算法 186
7.4.3 CHAID算法的剪枝 187
7.4.4 CHAID算法的應用示例 187
7.5 SPSS Modeler的QUEST算法及其應用 189
7.5.1 QUEST算法 189
7.5.2 QUEST算法的應用示例 191
7.6 模型的對比分析 192
7.6.1 不同模型的誤差對比 192
7.6.2 不同模型的收益對比 195
第8章 分類預測:SPSS Modeler的人工神經網絡 198
8.1 人工神經網絡算法概述 198
8.1.1 人工神經網絡的概念和種類 198
8.1.2 人工神經網絡中的節(jié)點和意義 200
8.1.3 人工神經網絡建立的一般步驟 202
8.2 SPSS Modeler的B-P反向傳播網絡 204
8.2.1 感知機模型 204
8.2.2 B-P反向傳播網絡的特點 207
8.2.3 B-P反向傳播算法 209
8.2.4 B-P反向傳播網絡的其他問題 212
8.3 SPSS Modeler的B-P反向傳播網絡的應用 214
8.3.1 基本操作 215
8.3.2 結果說明 215
8.4 SPSS Modeler的徑向基函數(shù)網絡及其應用 216
8.4.1 徑向基函數(shù)網絡中的隱節(jié)點和輸出節(jié)點 217
8.4.2 徑向基函數(shù)網絡的學習過程 217
8.4.3 徑向基函數(shù)網絡的應用示例 219
第9章 分類預測:SPSS Modeler的支持向量機 221
9.1 支持向量分類的基本思路 221
9.1.1 支持向量分類的數(shù)據(jù)和目標 221
9.1.2 支持向量分類的三種情況 223
9.2 線性可分問題下的支持向量分類 224
9.2.1 如何求解超平面 224
9.2.2 如何利用超平面進行分類預測 226
9.3 廣義線性可分下的支持向量分類 227
9.3.1 如何求解超平面 227
9.3.2 可調參數(shù)的意義:把握程度和精度的權衡 228
9.4 線性不可分下的支持向量分類 229
9.4.1 線性不可分的一般解決途徑和維災難問題 229
9.4.2 支持向量分類克服維災難的途徑 230
9.5 支持向量回歸 232
9.5.1 支持向量回歸與一般線性回歸:目標和策略 232
9.5.2 支持向量回歸的基本思路 233
9.6 支持向量機的應用 235
9.6.1 基本操作 235
9.6.2 結果解讀 236
第10章 分類預測:SPSS Modeler的Logistic回歸分析 238
10.1 Logistic回歸分析概述 238
10.2 二項Logistic回歸分析 239
10.2.1 二項Logistic回歸方程 239
10.2.2 二項Logistic回歸方程系數(shù)的含義 241
10.2.3 二項Logistic回歸方程的檢驗 242
10.2.4 二項Logistic回歸分析中的虛擬自變量 246
10.3 二項Logistic回歸分析的應用 246
10.3.1 基本操作 247
10.3.2 結果解讀 249
10.4 多項Logistic回歸分析及其應用 257
10.4.1 多項Logistic回歸分析概述 257
10.4.2 多項Logistic回歸分析的應用示例 257
第11章 分類預測:SPSS Modeler的判別分析 262
11.1 距離判別 262
11.1.1 距離判別的基本思路 262
11.1.2 判別函數(shù)的計算 263
11.2 Fisher判別 264
11.2.1 Fisher判別的基本思路 264
11.2.2 Fisher判別的計算 266
11.3 貝葉斯判別 267
11.3.1 貝葉斯判別的基本思路 267
11.3.2 貝葉斯判別的計算 267
11.4 判別分析的應用 268
11.4.1 基本操作 268
11.4.2 判別分析的準備工作 269
11.4.3 結果解讀 273
第12章 分類預測:SPSS Modeler的貝葉斯網絡 279
12.1 貝葉斯方法基礎 279
12.1.1 貝葉斯概率和貝葉斯公式 279
12.1.2 樸素貝葉斯分類法 280
12.2 貝葉斯網絡概述 282
12.2.1 什么是貝葉斯網絡 282
12.2.2 貝葉斯網絡的組成及構建 283
12.2.3 貝葉斯網絡的分類預測 284
12.3 TAN貝葉斯網絡 285
12.3.1 TAN貝葉斯網絡的結構 285
12.3.2 TAN貝葉斯網絡結構的學習 286
12.3.3 TAN貝葉斯網絡的參數(shù)估計 288
12.4 馬爾科夫毯網絡 290
12.4.1 馬爾科夫毯網絡的基本概念 290
12.4.2 條件獨立檢驗 291
12.4.3 馬爾科夫毯網絡結構的學習 292
12.4.4 馬爾科夫毯網絡的分類預測 293
12.5 貝葉斯網絡的應用 293
12.5.1 基本操作 293
12.5.2 結果解讀 295
第13章 探索內部結構:SPSS Modeler的關聯(lián)分析 299
13.1 簡單關聯(lián)規(guī)則及其有效性 299
13.1.1 簡單關聯(lián)規(guī)則的基本概念 299
13.1.2 簡單關聯(lián)規(guī)則的有效性和實用性 301
13.2 SPSS Modeler的Apriori算法及其應用 305
13.2.1 產生頻繁項集 305
13.2.2 依據(jù)頻繁項集產生簡單關聯(lián)規(guī)則 307
13.2.3 Apriori算法的應用示例 307
13.3 SPSS Modeler的序列關聯(lián)及其應用 312
13.3.1 序列關聯(lián)中的基本概念 312
13.3.2 Sequence算法 313
13.3.3 序列關聯(lián)的時間約束 316
13.3.4 Sequence算法的應用示例 317
第14章 探索內部結構:SPSS Modeler的聚類分析 320
14.1 聚類分析的一般問題 320
14.1.1 聚類分析的提出 320
14.1.2 聚類算法 320
14.2 SPSS Modeler的K-Means聚類及應用 321
14.2.1 K-Means對“親疏程度”的測度 321
14.2.2 K-Means聚類過程 321
14.2.3 K-Means聚類的應用示例 324
14.3 SPSS Modeler的兩步聚類及其應用 327
14.3.1 兩步聚類對“親疏程度”的測度 328
14.3.2 兩步聚類過程 328
14.3.3 聚類數(shù)目的確定 330
14.3.4 兩步聚類的應用示例 332
14.4 SPSS Modeler的Kohonen網絡聚類及其應用 333
14.4.1 Kohonen網絡聚類機理 333
14.4.2 Kohonen網絡聚類過程 335
14.4.3 Kohonen網絡聚類的應用示例 337
14.5 基于聚類分析的離群點探索 342
14.5.1 多維空間基于聚類的離群點診斷方法 343
14.5.2 多維空間基于聚類的離群點診斷應用示例 345