數(shù)據(jù)科學(xué)家目前是北美十分熱門的職業(yè)之一,平均年薪突破10萬(wàn)美元。但數(shù)據(jù)科學(xué)并不是一個(gè)低門檻的行業(yè),除了對(duì)數(shù)學(xué)、統(tǒng)計(jì)、計(jì)算機(jī)等相關(guān)領(lǐng)域的技術(shù)要求以外,還要相關(guān)應(yīng)用領(lǐng)域的知識(shí)!短茁罚C(jī)器學(xué)習(xí):北美數(shù)據(jù)科學(xué)家的私房課》的寫作對(duì)象是那些現(xiàn)在從事數(shù)據(jù)分析相關(guān)行業(yè),或者之后想從事數(shù)據(jù)分析行業(yè)的人,意在為實(shí)踐者提供數(shù)據(jù)科學(xué)家這門職業(yè)的相關(guān)信息。讀者可以從閱讀中了解到數(shù)據(jù)科學(xué)能解決的問(wèn)題,數(shù)據(jù)科學(xué)家需要的技能,及背后的“分析哲學(xué)”。對(duì)于新手而言,一開(kāi)始就直奔艱深的理論,很容易因?yàn)槔щy而失去興趣然后放棄。因此《套路!機(jī)器學(xué)習(xí):北美數(shù)據(jù)科學(xué)家的私房課》倡導(dǎo)的是一種循序漸進(jìn)的啟發(fā)教學(xué)路徑,著重在于數(shù)據(jù)科學(xué)的實(shí)際應(yīng)用,讓讀者能夠重復(fù)書中的結(jié)果,學(xué)習(xí)數(shù)據(jù)分析技能實(shí)際的方式是實(shí)踐!為了平衡理論和應(yīng)用,書中包括了一些選學(xué)小節(jié),用來(lái)介紹更多的模型數(shù)理背景或給出必要的參考資料來(lái)源。抽絲剝繭介紹技術(shù)內(nèi)核,幫助大家知其然,同時(shí)知其所以然。希望筆者在北美從事數(shù)據(jù)科學(xué)工作多年踏遍大大小小不計(jì)其數(shù)的坑換來(lái)的經(jīng)驗(yàn),能夠幫助讀者更加順利地成為數(shù)據(jù)科學(xué)家!
2013年至今任美國(guó)杜邦公司商業(yè)數(shù)據(jù)科學(xué)家。北京師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院本科,愛(ài)荷華州立大學(xué)統(tǒng)計(jì)學(xué)院碩士和博士。曾任愛(ài)荷華州立大學(xué)獸醫(yī)學(xué)院統(tǒng)計(jì)咨詢師(2009-2013)及商學(xué)院分析咨詢師(2012-2013)。當(dāng)選2017-2018美國(guó)統(tǒng)計(jì)協(xié)會(huì)市場(chǎng)營(yíng)銷統(tǒng)計(jì)項(xiàng)目主席。翻譯出版了《應(yīng)用預(yù)測(cè)建模》和《R語(yǔ)言市場(chǎng)研究分析》。
第1章 白話數(shù)據(jù)科學(xué) 1
1.1 什么是數(shù)據(jù)科學(xué) 3
1.2 什么是數(shù)據(jù)科學(xué)家 5
1.2.1 數(shù)據(jù)科學(xué)家需要的技能 6
1.2.2 數(shù)據(jù)科學(xué)算法總結(jié) 10
1.3 數(shù)據(jù)科學(xué)可以解決什么問(wèn)題 20
1.3.1 前提要求 20
1.3.2 問(wèn)題種類 22
1.4 小結(jié) 25
第2章 數(shù)據(jù)集 26
2.1 服裝消費(fèi)者數(shù)據(jù) 26
2.2 航空公司滿意度調(diào)查 33
2.3 生豬疫情風(fēng)險(xiǎn)預(yù)測(cè)數(shù)據(jù) 37
第3章 數(shù)據(jù)分析流程 41
3.1 從問(wèn)題到數(shù)據(jù) 42
3.2 從數(shù)據(jù)到信息 44
3.3 從信息到行動(dòng) 46
第4章 數(shù)據(jù)預(yù)處理 47
4.1 介紹 47
4.2 數(shù)據(jù)清理 50
4.3 缺失值填補(bǔ) 52
4.3.1 中位數(shù)或眾數(shù)填補(bǔ) 53
4.3.2 K-近鄰填補(bǔ) 54
4.3.3 裝袋樹填補(bǔ) 56
4.4 中心化和標(biāo)量化 56
4.5 有偏分布 59
4.6 處理離群點(diǎn) 63
4.7 共線性 66
4.8 稀疏變量 70
4.9 編碼名義變量 71
4.10 小結(jié) 73
第5章 數(shù)據(jù)操作 75
5.1 數(shù)據(jù)讀寫 76
5.1.1 取代傳統(tǒng)數(shù)據(jù)框的tibble對(duì)象 76
5.1.2 高效數(shù)據(jù)讀寫:readr包 80
5.1.3 數(shù)據(jù)表對(duì)象讀取 83
5.2 數(shù)據(jù)整合 91
5.2.1 base包:apply() 91
5.2.2 plyr包:ddply()函數(shù) 93
5.2.3 dplyr包 96
5.3 數(shù)據(jù)整形 102
5.3.1 reshape2包 102
5.3.2 tidyr包 105
5.4 小結(jié) 107
第6章 基礎(chǔ)建模技術(shù) 109
6.1 有監(jiān)督和無(wú)監(jiān)督 109
6.2 誤差及其來(lái)源 111
6.2.1 系統(tǒng)誤差和隨機(jī)誤差 111
6.2.2 因變量誤差 117
6.2.3 自變量誤差 121
6.3 數(shù)據(jù)劃分和再抽樣 122
6.3.1 劃分訓(xùn)練集和測(cè)試集 123
6.3.2 重抽樣 131
6.4 小結(jié) 135
第7章 模型評(píng)估度量 136
7.1 回歸模型評(píng)估度量 136
7.2 分類模型評(píng)估度量 139
7.2.1 Kappa統(tǒng)計(jì)量 141
7.2.2 ROC曲線 143
7.2.3 提升圖 145
7.3 小結(jié) 146
第8章 特征工程 148
8.1 特征構(gòu)建 149
8.2 特征提取 152
8.2.1 初步探索特征 153
8.2.2 主成分分析 158
8.2.3 探索性因子分析 163
8.2.4 高維標(biāo)度化 167
8.2.5 知識(shí)擴(kuò)展:3種降維特征提取方法的理論 171
8.3 特征選擇 177
8.3.1 過(guò)濾法 178
8.3.2 繞封法 188
8.4 小結(jié) 195
第9章 線性回歸及其衍生 196
9.1 普通線性回歸 197
9.1.1 最小二乘線性模型 197
9.1.2 回歸診斷 201
9.1.3 離群點(diǎn)、高杠桿點(diǎn)和強(qiáng)影響點(diǎn) 204
9.2 收縮方法 205
9.2.1 嶺回歸 205
9.2.2 Lasso 209
9.2.3 彈性網(wǎng)絡(luò) 212
9.3 知識(shí)擴(kuò)展:LASSO的變量選擇功能 213
9.4 主成分和偏最小二乘回歸 215
9.5 小結(jié) 221
第10章 廣義線性模型壓縮方法 222
10.1 初識(shí)GLMNET 223
10.2 收縮線性回歸 227
10.3 邏輯回歸 235
10.3.1 普通邏輯回歸 235
10.3.2 收縮邏輯回歸 236
10.3.3 知識(shí)擴(kuò)展:群組lasso邏輯回歸 239
10.4 收縮多項(xiàng)回歸 243
10.5 泊松收縮回歸 246
10.6 小結(jié) 249
第11章 樹模型 250
11.1 分裂準(zhǔn)則 252
11.2 樹的修剪 256
11.3 回歸樹和決策樹 260
11.4 裝袋樹 268
11.5 隨機(jī)森林 273
11.6 助推法 277
11.7 知識(shí)擴(kuò)展:助推法的可加模型框架 283
11.8 知識(shí)擴(kuò)展:助推樹的數(shù)學(xué)框架 286
11.8.1 數(shù)學(xué)表達(dá) 286
11.8.2 梯度助推數(shù)值優(yōu)化 289
11.9 小結(jié) 290
第12章 神經(jīng)網(wǎng)絡(luò) 292
12.1 投影尋蹤回歸(PROJECTION PURSUIT REGRESSION) 293
12.2 神經(jīng)網(wǎng)絡(luò)(NEURAL NETWORKS) 296
12.3 神經(jīng)網(wǎng)絡(luò)擬合 299
12.4 訓(xùn)練神經(jīng)網(wǎng)絡(luò) 300
12.5 用CARET包訓(xùn)練神經(jīng)網(wǎng)絡(luò) 302
12.6 小結(jié) 311
參考文獻(xiàn) 312