數(shù)據(jù)挖掘與應用:以SAS和R為工具(第二版)
定 價:58 元
叢書名:光華思想力書系·教材領(lǐng)航
- 作者:張俊妮
- 出版時間:2018/10/1
- ISBN:9787301299098
- 出 版 社:北京大學出版社
- 中圖法分類:TP274
- 頁碼:
- 紙張:
- 版次:
- 開本:16開
《數(shù)據(jù)挖掘與應用:以SAS和R為工具(第二版)》是數(shù)據(jù)挖掘領(lǐng)域的經(jīng)典教材,基于北京大學光華管理學院“數(shù)據(jù)挖掘與應用”課程。書中系統(tǒng)、全面地介紹了數(shù)據(jù)挖掘領(lǐng)域的理論、技術(shù)工具以及實踐方法。主要內(nèi)容包括:數(shù)據(jù)挖掘方法論、數(shù)據(jù)理解和數(shù)據(jù)準備、缺失數(shù)據(jù)、關(guān)聯(lián)規(guī)則挖掘、多元統(tǒng)計降維、聚類分析、線性回歸和廣義線性回歸、回歸模型規(guī)則化、神經(jīng)網(wǎng)絡、決策樹、支持向量機、模型評估、模型組合、協(xié)同過濾等。
書中在每種數(shù)據(jù)挖掘技術(shù)后,均輔以大量醫(yī)療、金融、營銷、保險、政府部門等應用案例,并均配有相關(guān)應用的SAS和R語言代碼,以及視頻課程二維碼。
第二版更新:第二版在頭一版的基礎上,增加了缺失數(shù)據(jù)、回歸模型中的規(guī)則化和變量選擇、卷積神經(jīng)網(wǎng)絡、支持向量機、協(xié)同過濾這5章內(nèi)容。在已有各章內(nèi),本書亦增加了新的內(nèi)容和示例。近些年來,R因為其自由、免費、開源,已經(jīng)發(fā)展為數(shù)據(jù)分析領(lǐng)域*強大的軟件之一。因此,本書除了繼續(xù)展示SAS程序,還增加了R程序。
* 數(shù)據(jù)挖掘領(lǐng)域的經(jīng)典教材,基于北京大學光華管理學院“數(shù)據(jù)挖掘與應用”課程。
* “哈佛小魔女”,中科院少年班天才統(tǒng)計學家張俊妮教授十年一劍之作。
* 加入大量醫(yī)療、金融、營銷、保險、政府部門等應用案例。
* 再版加入40余堂視頻課程,以及SAS和R語言代碼,購書掃描二維碼免費觀看下載。
* 可用于高校經(jīng)管、統(tǒng)計、計算機專業(yè),商學院師生教材使用,同時從業(yè)者,以及所有想提高數(shù)據(jù)挖掘技術(shù)的非專業(yè)讀者,可以配合視頻課程自學精進。
張俊妮:美國哈佛大學統(tǒng)計學博士,北京大學光華管理學院商務統(tǒng)計及經(jīng)濟計量系副教授。研究領(lǐng)域包括:貝葉斯分析、因果推斷、數(shù)據(jù)挖掘及文本挖掘。在Journal of American Statistical Association、Statistica Sinica、等期刊上發(fā)表二十余篇論文,出版英文專著。曾獲北京大學教學優(yōu)秀獎、光華管理學院優(yōu)秀課程獎。
前言
第 1 章 數(shù)據(jù)挖掘概述 01
1.1 什么是數(shù)據(jù)挖掘 02
1.2 統(tǒng)計思想在數(shù)據(jù)挖掘中的重要性 02
1.3 數(shù)據(jù)挖掘的應用案例 07
1.4 CRISP-DM 數(shù)據(jù)挖掘方法論 14
1.5 SEMMA 數(shù)據(jù)挖掘方法論 15
第 2 章 數(shù)據(jù)理解和數(shù)據(jù)準備 17
2.1 數(shù)據(jù)理解 19
2.2 數(shù)據(jù)準備 22
2.3 數(shù)據(jù)理解和數(shù)據(jù)準備示例: FNBA 信用卡數(shù)據(jù) 35
第 3 章 缺失數(shù)據(jù) 51
3.1 缺失數(shù)據(jù)模式和缺失數(shù)據(jù)機制 52
3.2 缺失數(shù)據(jù)機制對數(shù)據(jù)分析的影響 53
3.3 缺失值插補 62
3.4 缺失數(shù)據(jù)插補及分析示例:紐約空氣質(zhì)量 64
第 4 章 關(guān)聯(lián)規(guī)則挖掘 73
4.1 關(guān)聯(lián)規(guī)則的實際意義 74
4.2 關(guān)聯(lián)規(guī)則的基本概念及 Apriori 算法 74
4.3 序列關(guān)聯(lián)規(guī)則 80
4.4 關(guān)聯(lián)規(guī)則挖掘示例 81
4.5 關(guān)聯(lián)規(guī)則挖掘的其他討論 85
第 5 章 多元統(tǒng)計中的降維方法 88
5.1 主成分分析 89
5.2 探索性因子分析 97
5.3 多維標度分析 104
第 6 章 聚類分析 111
6.1 距離與相似度的度量 113
6.2 k 均值聚類算法 117
6.3 層次聚類法 122
第 7 章 預測性建模的一些基本方法 130
7.1 判別分析 131
7.2 樸素貝葉斯分類算法 134
7.3 k 近鄰法 137
7.4 線性回歸 141
7.5 廣義線性模型 149
第 8 章 回歸模型中的規(guī)則化和變量選擇 168
8.1 線性回歸中的規(guī)則化和變量選擇 169
8.2 廣義線性模型中的規(guī)則化和變量選擇 181
第 9 章 神經(jīng)網(wǎng)絡的基本方法 184
9.1 神經(jīng)網(wǎng)絡架構(gòu)及基本組成 185
9.2 誤差函數(shù) 190
9.3 神經(jīng)網(wǎng)絡訓練算法 193
9.4 提高神經(jīng)網(wǎng)絡模型的可推廣性 198
9.5 數(shù)據(jù)預處理 200
9.6 神經(jīng)網(wǎng)絡建模示例 201
9.7 自組織圖 222
第 10 章 卷積神經(jīng)網(wǎng)絡 230
10.1 深度神經(jīng)網(wǎng)絡 231
10.2 卷積神經(jīng)網(wǎng)絡架構(gòu) 232
10.3 卷積神經(jīng)網(wǎng)絡示例: Fashion-MNIST 數(shù)據(jù) 239
第 11 章 決策樹方法 245
11.1 決策樹簡介 246
11.2 決策樹的生長與修剪 248
11.3 對缺失數(shù)據(jù)的處理 155
11.4 變量選擇 256
11.5 決策樹的優(yōu)缺點 257
第 12 章 支持向量機 274
12.1 支持向量機用于二分類問題 275
12.2 支持向量機用于多分類問題 284
12.3 支持向量機用于回歸問題 285
第 13 章 模型評估 290
13.1 因變量為二分變量的情形 291
13.2 因變量為多分變量的情形 301
13.3 因變量為連續(xù)變量的情形 303
13.4 模型評估示例:德國信用數(shù)據(jù)的模型評估 304
第 14 章 模型組合與兩階段模型 312
14.1 模型組合 313
14.2 隨機森林 321
14.3 兩階段模型 324
第 15 章 協(xié)同過濾 326
15.1 基于用戶(User-based)的協(xié)同過濾 327
15.2 基于物品(Item-based)的協(xié)同過濾 328
15.3 基于 SVD 的協(xié)同過濾 328
15.4 基于 Funk SVD 的協(xié)同過濾 329
15.5 協(xié)同過濾示例:動漫片推薦 331
參考文獻 337