IBM SPSS Modeler 18.0數(shù)據(jù)挖掘權(quán)威指南
定 價(jià):108 元
- 作者:張浩彬 周偉珠
- 出版時(shí)間:2019/4/1
- ISBN:9787115507594
- 出 版 社:人民郵電出版社
- 中圖法分類:C819
- 頁(yè)碼:456
- 紙張:
- 版次:01
- 開本:16開
本書是一本以數(shù)據(jù)挖掘應(yīng)用為主導(dǎo),以SPSS Modeler為實(shí)踐框架的應(yīng)用指南,內(nèi)容涵蓋數(shù)據(jù)挖掘方法論、數(shù)據(jù)讀取、數(shù)據(jù)處理、數(shù)據(jù)可視化、統(tǒng)計(jì)分析與檢驗(yàn)、數(shù)據(jù)挖掘算法、自動(dòng)建模、集成與擴(kuò)展、模型部署以及性能優(yōu)化等,力求幫助讀者全面掌握數(shù)據(jù)挖掘項(xiàng)目的主要內(nèi)容以及實(shí)踐細(xì)節(jié)。
除了操作層面,本書也盡可能地把專業(yè)晦澀的數(shù)據(jù)挖掘知識(shí)及商業(yè)應(yīng)用內(nèi)容以通俗易懂的方式傳遞給讀者,同時(shí)所有場(chǎng)景會(huì)結(jié)合IBM SPSS工具進(jìn)行實(shí)現(xiàn)并提供樣例學(xué)習(xí),方便讀者在學(xué)習(xí)的同時(shí)加深鞏固和理解。
如果你是在校學(xué)生、剛剛從事數(shù)據(jù)分析的大學(xué)畢業(yè)生、數(shù)據(jù)分析愛好者、市場(chǎng)營(yíng)銷人員、產(chǎn)品運(yùn)營(yíng)人員或者數(shù)據(jù)分析師,如果你希望提升自己的數(shù)據(jù)挖掘技術(shù),那么就適合閱讀本書。
聯(lián)袂推薦
暨南大學(xué)教授、博士生導(dǎo)師劉建平,暨南大學(xué)研究生院副院長(zhǎng)、經(jīng)濟(jì)學(xué)院統(tǒng)計(jì)學(xué)系副主任、教授、博士生導(dǎo)師陳光慧,天善智能創(chuàng)始人梁勇,IBM技術(shù)專家劉詠梅,IBM數(shù)據(jù)科學(xué)家鐘云飛,廣東省環(huán)保廳環(huán)境咨詢專家委員會(huì)專家、廣東柯內(nèi)特環(huán)境科技有限公司總經(jīng)理朱斌
本書特色
內(nèi)容全面:涉及數(shù)據(jù)讀取、數(shù)據(jù)處理、數(shù)據(jù)可視化、統(tǒng)計(jì)分析與檢驗(yàn)、數(shù)據(jù)挖掘算法、自動(dòng)建模、集成與擴(kuò)展、模型部署、性能優(yōu)化、數(shù)據(jù)挖掘方法論等諸多內(nèi)容;
講解透徹:既有理論的講解,又涵蓋應(yīng)用的實(shí)踐,而且在工具的介紹上,盡可能包括每一個(gè)選項(xiàng)的內(nèi)容和應(yīng)用形式,力求讓讀者“吃透”每一章節(jié)的內(nèi)容;
突出實(shí)戰(zhàn):集行業(yè)經(jīng)驗(yàn)、項(xiàng)目實(shí)踐、算法剖析、應(yīng)用技巧于一身,配套提供數(shù)據(jù)文件以及數(shù)據(jù)模型文件,方便讀者動(dòng)手實(shí)踐。
張浩彬,
人稱“浩彬老撕”,歷任IBM華南區(qū)SPSS分析工程師,IBM大中華區(qū)認(rèn)知解決方案專家,現(xiàn)任廣東柯內(nèi)特環(huán)境科技有限公司數(shù)據(jù)科學(xué)家。多年來(lái)一直從事數(shù)據(jù)分析、數(shù)據(jù)挖掘的商業(yè)應(yīng)用項(xiàng)目,專注于人工智能的商業(yè)化技術(shù)應(yīng)用,曾與人合著《數(shù)據(jù)實(shí)踐之美》,獨(dú)自創(chuàng)作《小白學(xué)數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí):SPSS Modeler案例篇》。個(gè)人微信公眾號(hào):探數(shù)尋理(wetalkdata),致力于機(jī)器學(xué)習(xí)及應(yīng)用技術(shù)分享。
周偉珠,
曾在IBM華南區(qū)大數(shù)據(jù)分析部門擔(dān)任售前咨詢顧問(wèn),專門負(fù)責(zé)SPSS產(chǎn)品的推廣、培訓(xùn)及方案咨詢,熟悉SPSS Modeler、SPSS Statistics和SPSS Cooperations and deployment services產(chǎn)品的使用及應(yīng)用場(chǎng)景,現(xiàn)任匯豐銀行數(shù)據(jù)分析師。熱愛寫作,曾為IBM大數(shù)據(jù)技術(shù)團(tuán)隊(duì)微信公眾號(hào)原創(chuàng)30多篇文章,與廣大客戶朋友分享SPSS數(shù)據(jù)挖掘技術(shù)及應(yīng)用,并獲得一致好評(píng)。近十幾年一直從事數(shù)據(jù)分析工作,積累了金融、電信、零售、制造、互聯(lián)網(wǎng)、電商、政府等多個(gè)行業(yè)的數(shù)據(jù)分析項(xiàng)目經(jīng)驗(yàn)。
第 1章 IBM SPSS Modeler基本介紹 1
1.1 SPSS簡(jiǎn)介 1
1.2 SPSS Modeler的特點(diǎn) 1
1.3 CRISP-DM方法論 4
1.4 SPSS Modeler 下載與安裝 6
1.5 SPSS Modeler的主界面及基本操作 9
1.5.1 主界面介紹 9
1.5.2 鼠標(biāo)基本操作 15
1.6 SPSS Modeler連接服務(wù)器端 15
1.7 從SPSS Modeler中獲取幫助 17
1.8 實(shí)戰(zhàn)技巧 20
第 2章 數(shù)據(jù)讀取——源節(jié)點(diǎn) 24
2.1 數(shù)據(jù)的身份(存儲(chǔ)類型、測(cè)量級(jí)別和角色) 24
2.1.1 變量的存儲(chǔ)類型 24
2.1.2 變量的測(cè)量級(jí)別 25
2.1.3 變量的角色 26
2.2 數(shù)據(jù)讀取 26
2.2.1 讀取Excel文件數(shù)據(jù) 27
2.2.2 讀取變量文件數(shù)據(jù) 30
2.2.3 讀取SPSS(.sav)文件數(shù)據(jù) 32
2.2.4 讀取數(shù)據(jù)庫(kù)數(shù)據(jù) 36
2.3 實(shí)戰(zhàn)技巧 40
第3章 數(shù)據(jù)整理——關(guān)于數(shù)據(jù)的基本設(shè)定與集成 43
3.1 字段的“類型”功能 43
3.2 字段的“過(guò)濾器”功能 44
3.3 數(shù)據(jù)集成 46
3.3.1 數(shù)據(jù)的記錄集成:追加節(jié)點(diǎn) 46
3.3.2 數(shù)據(jù)的字段集成:合并節(jié)點(diǎn) 49
3.4 實(shí)戰(zhàn)技巧 51
第4章 數(shù)據(jù)整理——關(guān)于行的處理 53
4.1 數(shù)據(jù)“選擇”功能 53
4.1.1 功能介紹 53
4.1.2 實(shí)戰(zhàn)技巧 55
4.2 使用參數(shù)及全局變量實(shí)現(xiàn)數(shù)據(jù)選擇功能 56
4.2.1 參數(shù)功能 56
4.2.2 使用參數(shù)實(shí)例介紹 57
4.2.3 使用全局變量功能介紹 59
4.2.4 使用全局變量實(shí)例介紹 59
4.3 數(shù)據(jù)排序 62
4.4 數(shù)據(jù)區(qū)分 63
4.5 數(shù)據(jù)匯總 68
4.5.1 功能介紹 68
4.5.2 實(shí)戰(zhàn)技巧 72
第5章 數(shù)據(jù)整理——關(guān)于列的處理 73
5.1 導(dǎo)出 73
5.1.1 功能介紹 73
5.1.2 實(shí)例介紹 81
5.2 填充 84
5.3 重新分類 86
5.4 匿名化 89
5.5 分級(jí)化 92
5.6 設(shè)為標(biāo)志 100
5.6.1 功能介紹 100
5.6.2 實(shí)例介紹 100
5.7 重建 103
5.7.1 功能介紹 103
5.7.2 實(shí)例介紹 104
5.8 轉(zhuǎn)置 107
5.8.1 功能介紹 107
5.8.2 實(shí)例介紹 107
5.9 歷史記錄 109
5.9.1 功能介紹 109
5.9.2 實(shí)例介紹 109
5.10 字段重排 113
5.11 時(shí)間間隔 116
5.11.1 功能介紹 116
5.11.2 實(shí)例介紹 116
5.12 自動(dòng)數(shù)據(jù)準(zhǔn)備 121
第6章 圖形可視化——圖形節(jié)點(diǎn) 128
6.1 “散點(diǎn)圖”節(jié)點(diǎn) 128
6.1.1 散點(diǎn)圖 128
6.1.2 線圖 139
6.1.3 多重散點(diǎn)圖 142
6.1.4 時(shí)間散點(diǎn)圖 143
6.2 “條形圖”節(jié)點(diǎn) 145
6.2.1 簡(jiǎn)單條形圖 145
6.2.2 堆積條形圖 147
6.3 “直方圖”節(jié)點(diǎn) 148
6.3.1 直方圖 148
6.3.2 堆積直方圖 149
6.4 “網(wǎng)絡(luò)”節(jié)點(diǎn) 151
6.5 “圖形板”節(jié)點(diǎn) 154
6.5.1 氣泡圖 155
6.5.2 散點(diǎn)圖矩陣 156
6.5.3 箱圖 157
6.5.4 聚類箱圖 159
6.5.5 熱圖 161
6.6 實(shí)戰(zhàn)技巧:圖形的編輯模式 162
第7章 描述性統(tǒng)計(jì)分析 164
7.1 描述性統(tǒng)計(jì)分析概述 164
7.2 數(shù)據(jù)審核,一鍵輸出描述性統(tǒng)計(jì)分析結(jié)果169
7.3 缺失值的定義、檢查和處理 173
7.3.1 缺失值的定義和檢查 173
7.3.2 缺失值的自動(dòng)化處理 177
7.4 實(shí)戰(zhàn)技巧 182
第8章 常用的統(tǒng)計(jì)檢驗(yàn)分析 184
8.1 兩個(gè)連續(xù)型變量的關(guān)系分析——相關(guān)分析 184
8.1.1 相關(guān)分析 184
8.1.2 相關(guān)分析實(shí)踐——“Statistics”節(jié)點(diǎn) 185
8.2 兩個(gè)分類型變量的關(guān)系分析——卡方檢驗(yàn) 187
8.2.1 列聯(lián)表與卡方檢驗(yàn) 188
8.2.2 卡方檢驗(yàn)實(shí)踐——“矩陣”節(jié)點(diǎn) 190
8.3 連續(xù)型變量與分類型變量間的關(guān)系分析——t檢驗(yàn)及卡方分析 193
8.3.1 兩組獨(dú)立樣本均值比較 193
8.3.2 兩組配對(duì)樣本均值比較 194
8.3.3 方差分析 194
8.3.4 均值比較實(shí)踐——“平均值”節(jié)點(diǎn) 195
8.4 實(shí)戰(zhàn)技巧:相關(guān)分析的注意事項(xiàng) 199
第9章 回歸分析 200
9.1 一元線性回歸分析 200
9.2 一元線性回歸實(shí)踐 203
9.3 多元線性回歸分析 206
9.4 多元線性回歸實(shí)踐 210
9.5 逐步回歸分析 216
9.6 逐步回歸實(shí)踐 218
9.7 實(shí)戰(zhàn)技巧 220
第 10章 Logistic回歸分析 222
10.1 Logistic回歸理論概要 222
10.2 Logistic回歸中的檢驗(yàn) 225
10.2.1 方程的顯著性檢驗(yàn) 225
10.2.2 系數(shù)顯著性檢驗(yàn) 225
10.2.3 擬合優(yōu)度檢驗(yàn) 227
10.3 Logistic回歸實(shí)踐案例 228
10.4 實(shí)戰(zhàn)技巧 237
第 11章 建模前的優(yōu)化及準(zhǔn)備工作 241
11.1 樣本管理與分區(qū) 241
11.1.1 數(shù)據(jù)抽樣 241
11.1.2 數(shù)據(jù)分區(qū) 244
11.1.3 數(shù)據(jù)平衡 245
11.2 特征選擇 247
11.3 數(shù)據(jù)變換 253
11.4 實(shí)戰(zhàn)技巧:分區(qū)與平衡的順序 255
第 12章 RFM分析 257
第 13章 決策樹 264
13.1 決策樹概述 264
13.1.1 決策樹的直觀理解 264
13.1.2 決策樹的生長(zhǎng) 265
13.1.3 決策樹的剪枝 266
13.2 C5.0算法 267
13.2.1 C5.0算法的決策樹生長(zhǎng) 267
13.2.2 C5.0算法的決策樹剪枝 270
13.2.3 代價(jià)敏感學(xué)習(xí) 270
13.2.4 C5.0算法實(shí)踐案例 271
13.3 CART算法 277
13.3.1 CART算法的決策樹生長(zhǎng) 277
13.3.2 CART算法的決策樹剪枝 279
13.3.3 先驗(yàn)概率 280
13.3.4 CART算法實(shí)踐案例 281
13.4 實(shí)戰(zhàn)技巧 287
13.4.1 生成規(guī)則集 287
13.4.2 跟蹤規(guī)則 289
第 14章 神經(jīng)網(wǎng)絡(luò) 291
14.1 感知機(jī) 292
14.2 多層感知機(jī)與誤差反向傳播算法 295
14.2.1 隱藏層 295
14.2.2 反向傳播算法 296
14.3 神經(jīng)網(wǎng)絡(luò)實(shí)踐 299
14.4 實(shí)戰(zhàn)技巧:生成“報(bào)告” 305
第 15章 集成學(xué)習(xí)算法 311
15.1 Bagging 311
15.2 Boosting 312
15.3 隨機(jī)森林 314
15.4 集成學(xué)習(xí)算法實(shí)踐 314
15.4.1 Bagging和Boosting實(shí)踐 315
15.4.2 隨機(jī)森林實(shí)踐 320
15.4.3 各個(gè)集成學(xué)習(xí)算法的結(jié)果比較 324
15.5 異質(zhì)集成——“整體”節(jié)點(diǎn) 325
第 16章 聚類分析 330
16.1 聚類方法概述 330
16.2 聚類方法的關(guān)鍵:距離 330
16.3 K-means算法 331
16.3.1 K-means算法原理 331
16.3.2 K-means的其他注意事項(xiàng) 332
16.4 K-means聚類實(shí)踐 335
16.5 實(shí)踐技巧:使用平行圖進(jìn)行比較分析 341
第 17章 KNN分類器 343
17.1 KNN學(xué)習(xí)方法原理 343
17.2 KNN分類實(shí)踐 345
17.2.1 分類預(yù)測(cè) 346
17.2.2 最近鄰識(shí)別 353
第 18章 關(guān)聯(lián)分析 356
18.1 關(guān)聯(lián)分析的基本概念 356
18.2 關(guān)聯(lián)規(guī)則的有效性指標(biāo) 357
18.2.1 關(guān)聯(lián)規(guī)則的基礎(chǔ)評(píng)價(jià)性指標(biāo) 358
18.2.2 關(guān)聯(lián)規(guī)則的實(shí)用性指標(biāo) 359
18.2.3 其他的關(guān)聯(lián)規(guī)則評(píng)估指標(biāo) 360
18.3 Apriori算法 361
18.3.1 生成頻繁項(xiàng)集 361
18.3.2 生成關(guān)聯(lián)規(guī)則 362
18.4 Apriori關(guān)聯(lián)分析實(shí)踐 363
18.5 實(shí)戰(zhàn)技巧:導(dǎo)出生成的關(guān)聯(lián)規(guī)則 367
第 19章 自動(dòng)建!368
19.1 自動(dòng)分類 368
19.1.1 功能介紹 368
19.1.2 實(shí)例介紹 368
19.2 自動(dòng)聚類 375
19.2.1 功能介紹 375
19.2.2 實(shí)例介紹 376
19.3 自動(dòng)數(shù)值 381
19.3.1 功能介紹 381
19.3.2 實(shí)例介紹 381
第 20章 蒙特卡羅模擬法 386
20.1 模擬生成 386
20.1.1 功能介紹 386
20.1.2 實(shí)例介紹 389
20.2 模擬擬合 393
20.2.1 功能介紹 393
20.2.2 實(shí)例介紹 394
20.3 模擬求值 396
20.3.1 功能介紹 396
20.3.2 實(shí)例介紹 396
第 21章 SPSS Modeler的集成與擴(kuò)展 404
21.1 SPSS Modeler與R、Python集成 404
21.1.1 概述 404
21.1.2 SPSS Modeler與R的集成環(huán)境準(zhǔn)備 404
21.1.3 與R的集成功能介紹 407
21.1.4 實(shí)例介紹 408
21.2 定制對(duì)話框?qū)崿F(xiàn)與R、Python的集成 416
21.2.1 定制對(duì)話框簡(jiǎn)介 416
21.2.2 安裝配置自定義節(jié)點(diǎn) 422
21.3 SPSS Modeler擴(kuò)展功能 422
21.3.1 功能介紹 422
21.3.2 獲取天氣數(shù)據(jù)的應(yīng)用分析案例 425
第 22章 SPSS Modeler模型部署 434
22.1 產(chǎn)品架構(gòu) 434
22.2 通過(guò)批處理任務(wù)定時(shí)運(yùn)行模型 435
22.2.1 功能介紹 435
22.2.2 實(shí)例介紹 436
22.3 SPSS Modeler服務(wù)器安裝及管理(For Linux) 438
22.3.1 正常維護(hù)SPSS Modeler服務(wù)器 438
22.3.2 SPSS Modeler 服務(wù)器如何在Linux上安裝及配置 439
22.3.3 配置ODBC連接數(shù)據(jù)庫(kù) 440
22.4 SPSS Modeler官方支持的數(shù)據(jù)庫(kù)和Hadoop平臺(tái) 443
第 23章 性能優(yōu)化 448
23.1 功能介紹 448
23.2 客戶端SQL性能優(yōu)化 451
23.3 數(shù)據(jù)庫(kù)內(nèi)建模 453
23.3.1 功能介紹 453
23.3.2 實(shí)例介紹 453
23.4 使用外部程序批量加載 456