大數(shù)據(jù)分析:理論、方法及應(yīng)用
定 價(jià):129 元
叢書名:數(shù)據(jù)科學(xué)與工程技術(shù)叢書
- 作者:(德)史蒂文·S.斯基納著
- 出版時(shí)間:2022/1/1
- ISBN:9787111703471
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:321頁
- 紙張:膠版紙
- 版次:1
- 開本:16開
本書重點(diǎn)介紹收集、分析和解釋數(shù)據(jù)所需的關(guān)鍵技能, 以及成為優(yōu)秀數(shù)據(jù)科學(xué)家的基本原則, 特別強(qiáng)調(diào)分析數(shù)據(jù)時(shí)什么是真正重要的內(nèi)容。本書從底層邏輯出發(fā), 由淺入深地介紹了數(shù)據(jù)科學(xué)的概念、所需的數(shù)學(xué)基礎(chǔ)、數(shù)據(jù)的整理清洗方法、數(shù)據(jù)分析方法 (包括統(tǒng)計(jì)分析、可視化、數(shù)學(xué)模型、線性回歸、logistic回歸、機(jī)器學(xué)習(xí)算法等) 以及學(xué)習(xí)大數(shù)據(jù)分析的意義。而且作者還結(jié)合應(yīng)用領(lǐng)域的大量數(shù)據(jù)分析案例詳細(xì)解釋大數(shù)據(jù)分析的核心技術(shù)和實(shí)現(xiàn)方法。
史蒂文·S.斯基納, 博士, 石溪大學(xué)的杰出教授, 研究方向是數(shù)據(jù)科學(xué)、自然語言處理和算法。
譯者序
前言
第1章 什么是數(shù)據(jù)科學(xué)1
1.1 計(jì)算機(jī)科學(xué)、數(shù)據(jù)科學(xué)和真正的科學(xué)1
1.2 從數(shù)據(jù)中提出有趣的問題3
1.2.1 棒球百科全書3
1.2.2 互聯(lián)網(wǎng)電影數(shù)據(jù)庫6
1.2.3 Google Ngrams7
1.2.4 紐約出租車記錄9
1.3 數(shù)據(jù)的屬性11
1.3.1 結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)11
1.3.2 定量數(shù)據(jù)與類別數(shù)據(jù)11
1.3.3 大數(shù)據(jù)與小數(shù)據(jù)12
1.4 分類與回歸12
1.5 關(guān)于數(shù)據(jù)科學(xué)的電視節(jié)目:The Quant Shop13
1.6 關(guān)于實(shí)戰(zhàn)故事15
1.7 實(shí)戰(zhàn)故事:回答正確的問題16
1.8 章節(jié)注釋17
1.9 練習(xí)17
*2章 數(shù)學(xué)基礎(chǔ)20
2.1 概率20
2.1.1 概率與統(tǒng)計(jì)21
2.1.2 復(fù)合事件與獨(dú)立事件22
2.1.3 條件概率23
2.1.4 概率分布23
2.2 描述性統(tǒng)計(jì)25
2.2.1 中心性度量25
2.2.2 變異性度量26
2.2.3 解釋方差27
2.2.4 描述分布29
2.3 相關(guān)性分析29
2.3.1 相關(guān)系數(shù):皮爾遜和斯皮爾曼秩30
2.3.2 相關(guān)的強(qiáng)弱與顯著性31
2.3.3 相關(guān)性并不意味著因果關(guān)系33
2.3.4 用自相關(guān)檢測(cè)周期性34
2.4 對(duì)數(shù)35
2.4.1 對(duì)數(shù)與乘法概率35
2.4.2 對(duì)數(shù)和比率35
2.4.3 對(duì)數(shù)與正規(guī)化偏態(tài)分布36
2.5 實(shí)戰(zhàn)故事:契合設(shè)計(jì)師基因37
2.6 章節(jié)注釋39
2.7 練習(xí)39
第3章 數(shù)據(jù)整理42
3.1 數(shù)據(jù)科學(xué)語言42
3.1.1 notebook環(huán)境的重要性44
3.1.2 標(biāo)準(zhǔn)數(shù)據(jù)格式45
3.2 數(shù)據(jù)收集47
3.2.1 搜索47
3.2.2 爬取49
3.2.3 網(wǎng)絡(luò)日志50
3.3 數(shù)據(jù)清洗50
3.3.1 錯(cuò)誤與偽影51
3.3.2 數(shù)據(jù)兼容性52
3.3.3 處理缺失值56
3.3.4 離群值檢測(cè)57
3.4 實(shí)戰(zhàn)故事:打敗市場(chǎng)58
3.5 眾包59
3.5.1 一便士的實(shí)驗(yàn)59
3.5.2 什么時(shí)候有群體智慧60
3.5.3 聚合機(jī)制61
3.5.4 眾包服務(wù)62
3.5.5 游戲化65
3.6 章節(jié)注釋66
3.7 練習(xí)66
第4章 得分和排名69
4.1 體重指數(shù)70
4.2 開發(fā)評(píng)分系統(tǒng)72
4.2.1 黃金標(biāo)準(zhǔn)和代理72
4.2.2 排名與得分72
4.2.3 識(shí)別良好的評(píng)分函數(shù)74
4.3 Z得分和歸一化75
4.4 *級(jí)排名技術(shù)76
4.4.1 Elo排名76
4.4.2 合并排名78
4.4.3 基于有向圖的排名80
4.4.4 PageRank80
4.5 實(shí)戰(zhàn)故事:Clyde的復(fù)仇81
4.6 阿羅不可能性定理83
4.7 實(shí)戰(zhàn)故事:誰更大84
4.8 章節(jié)注釋87
4.9 練習(xí)87
第5章 統(tǒng)計(jì)分析89
5.1 統(tǒng)計(jì)分布90
5.1.1 二項(xiàng)分布90
5.1.2 正態(tài)分布91
5.1.3 正態(tài)分布的含義93
5.1.4 泊松分布93
5.1.5 冪律分布95
5.2 從分布中采樣97
5.3 統(tǒng)計(jì)顯著性99
5.3.1 顯著性的意義100
5.3.2 t檢驗(yàn):比較總體均值101
5.3.3 Kolmogorov-Smirnov檢驗(yàn)102
5.3.4 Bonferroni校正104
5.3.5 錯(cuò)誤發(fā)現(xiàn)率104
5.4 實(shí)戰(zhàn)故事:發(fā)現(xiàn)青春之泉105
5.5 置換檢驗(yàn)與p值106
5.5.1 產(chǎn)生隨機(jī)排列108
5.5.2 迪馬吉奧的連勝紀(jì)錄109
5.6 貝葉斯定理110
5.7 章節(jié)注釋111
5.8 練習(xí)111
第6章 數(shù)據(jù)可視化114
6.1 探索性數(shù)據(jù)分析115
6.1.1 面對(duì)新的數(shù)據(jù)集115
6.1.2 匯總統(tǒng)計(jì)量和Anscombe四重線117
6.1.3 可視化工具119
6.2 發(fā)展可視化美學(xué)119
6.2.1 *大化數(shù)據(jù)墨水比率120
6.2.2 *小化謊言因子121
6.2.3 *大限度地減少圖表垃圾122
6.2.4 恰當(dāng)?shù)目s放和標(biāo)注123
6.2.5 有效使用顏色和陰影124
6.2.6 重復(fù)的力量125
6.3 圖表類型125
6.3.1 表格數(shù)據(jù)127
6.3.2 點(diǎn)狀圖和折線圖128
6.3.3 散點(diǎn)圖131
6.3.4 條形圖和餅圖133
6.3.5 直方圖135
6.3.6 數(shù)據(jù)地圖137
6.4 出色的可視化139
6.4.1 Marey的火車時(shí)刻表139
6.4.2 斯諾的霍亂地圖140
6.4.3 紐約氣象年141
6.5 讀圖141
6.5.1 模糊分布141
6.5.2 過度解釋方差142
6.6 交互式可視化143
6.7 實(shí)戰(zhàn)故事:TextMap144
6.8 章節(jié)注釋146
6.9 練習(xí)146
第7章 數(shù)學(xué)模型149
7.1 建模哲學(xué)149
7.1.1 奧卡姆剃刀原理149
7.1.2 權(quán)衡偏差與方差150
7.1.3 Nate Silver會(huì)怎么做150
7.2 模型分類152
7.2.1 線性模型與非線性模型152
7.2.2 黑盒與描述性模型152
7.2.3 *一原理與數(shù)據(jù)驅(qū)動(dòng)模型153
7.2.4 隨機(jī)模型與確定性模型154
7.2.5 平面模型與分層模型155
7.3 基準(zhǔn)模型155
7.3.1 分類的基準(zhǔn)模型155
7.3.2 價(jià)值預(yù)測(cè)的基準(zhǔn)模型156
7.4 評(píng)估模型157
7.4.1 評(píng)估分類器158
7.4.2 受試者工作特征曲線161
7.4.3 評(píng)估多類系統(tǒng)162
7.4.4 評(píng)估價(jià)值預(yù)測(cè)模型164
7.5 評(píng)估環(huán)境165
7.5.1 數(shù)據(jù)衛(wèi)生評(píng)估167
7.5.2 放大小型評(píng)估集167
7.6 實(shí)戰(zhàn)故事:100%準(zhǔn)確169
7.7 模擬模型170
7.8 實(shí)戰(zhàn)故事:經(jīng)過計(jì)算的賭注170
7.9 章節(jié)注釋173
7.10 練習(xí)173
第8章 線性代數(shù)176
8.1 線性代數(shù)的作用176
8.1.1 解釋線性代數(shù)公式177
8.1.2 幾何和向量178
8.2 矩陣運(yùn)算可視化179
8.2.1 矩陣加法179
8.2.2 矩陣乘法180
8.2.3 矩陣乘法的應(yīng)用181
8.2.4 單位矩陣與求逆184
8.2.5 矩陣求逆與線性系統(tǒng)185
8.2.6 矩陣的秩186
8.3 因式分解矩陣187
8.3.1 為什么是因子特征矩陣187
8.3.2 LU分解與行列式188
8.4 特征值和特征向量189
8.4.1 特征值的性質(zhì)189
8.4.2 計(jì)算特征值189
8.5 特征值分解190
8.5.1 奇異值分解191
8.5.2 主成分分析193
8.6 實(shí)戰(zhàn)故事:人的因素193
8.7 章節(jié)注釋195
8.8 練習(xí)195
第9章 線性回歸和logistic回歸197
9.1 線性回歸197
9.1.1 線性回歸與對(duì)偶198
9.1.2 線性回歸誤差199
9.1.3 尋找*優(yōu)擬合199
9.2 更好的回歸模型200
9.2.1 刪除離群值200
9.2.2 擬合非線性函數(shù)201
9.2.3 特征和目標(biāo)縮放202
9.2.4 處理高度相關(guān)的特征204
9.3 實(shí)戰(zhàn)故事:出租車司機(jī)204
9.4 參數(shù)擬合回歸205
9.4.1 凸參數(shù)空間206
9.4.2 梯度下降法207
9.4.3 什么是正確的學(xué)習(xí)速率208
9.4.4 隨機(jī)梯度下降法210
9.5 通過正則化簡化模型210
9.5.1 嶺回歸211
9.5.2 LASSO回歸211
9.5.3 擬合與復(fù)雜性的權(quán)衡212
9.6 分類與logistic回歸212
9.6.1 分類回歸213
9.6.2 決策邊界214
9.6.3 logistic回歸214
9.7 logistic分類中的幾個(gè)問題216
9.7.1 均衡訓(xùn)練分類216
9.7.2 多類分類218
9.7.3 分層分類219
9.7.4 分拆函數(shù)與多項(xiàng)式回歸220
9.8 章節(jié)注釋220
9.9 練習(xí)220
*10章 距離和網(wǎng)絡(luò)方法222
10.1 測(cè)量距離222
10.1.1 距離度量222
10.1.2 距離度量223
10.1.3 在更高維度上工作224
10.1.4 維度平均225
10.1.5 點(diǎn)與向量226
10.1.6 概率分布之間的距離226
10.2 *近鄰分類227
10.2.1 尋找好的類比228
10.2.2 k*近鄰法229
10.2.3 發(fā)現(xiàn)*近鄰230
10.2.4 局部敏感哈希231
10.3 圖、網(wǎng)絡(luò)和距離232
10.3.1 加權(quán)圖與誘導(dǎo)網(wǎng)絡(luò)233
10.3.2 對(duì)圖的討論234
10.3.3 圖論236
10.4 PageRank236
10.5 聚類239
10.5.1 k均值聚類241
10.5.2 凝聚聚類244
10.5.3 比較聚類248
10.5.4 相似度圖和基于切割的聚類248
10.6 實(shí)戰(zhàn)故事:集群轟炸250
10.7 章節(jié)注釋251
10.8 練習(xí)251
*11章 機(jī)器學(xué)習(xí)254
11.1 樸素貝葉斯256
11.1.1 公式256
11.1.2 處理零計(jì)數(shù)(折扣)257
11.2 決策樹分類258
11.2.1 構(gòu)建決策樹260
11.2.2 實(shí)現(xiàn)異或261
11.2.3 決策樹集合261
11.3 Boosting和集成學(xué)習(xí)262
11.3.1 用分類器投票262
11.3.2 Boosting算法263
11.4 支持向量機(jī)265
11.4.1 線性支持向量機(jī)266
11.4.2 非線性支持向量機(jī)267
11.4.3 核函數(shù)268
11.5 監(jiān)督程度268
11.5.1 監(jiān)督學(xué)習(xí)269
11.5.2 無監(jiān)督學(xué)習(xí)269
11.5.3 半監(jiān)督學(xué)習(xí)270
11.5.4 特征工程271
11.6 深度學(xué)習(xí)272
11.6.1 網(wǎng)絡(luò)和深度273
11.6.2 反向傳播275
11.6.3 文字和圖形的嵌入276
11.7 實(shí)戰(zhàn)故事:名字游戲277
11.8 章節(jié)注釋279
11.9 練習(xí)280
*12章 大數(shù)據(jù):實(shí)現(xiàn)規(guī)模282
12.1 大數(shù)據(jù)是什么282
12.1.1 作為壞數(shù)據(jù)的大數(shù)據(jù)283
12.1.2 3個(gè)V284
12.2 實(shí)戰(zhàn)故事:基礎(chǔ)設(shè)施問題285
12.3 大數(shù)據(jù)算法286
12.3.1 大O分析286
12.3.2 哈希287
12.3.3 利用存儲(chǔ)層次結(jié)構(gòu)289
12.3.4 流式和單通道算法290
12.4 過濾和抽樣291
12.4.1 確定性抽樣算法291
12.4.2 隨機(jī)抽樣和流抽樣292
12.5 并行293
12.5.1 一、二、多293
12.5.2 數(shù)據(jù)并行294
12.5.3 網(wǎng)格搜索295
12.5.4 云計(jì)算服務(wù)295
12.6 MapReduce296
12.6.1 MapReduce編程296
12.6.2 MapReduce的工作原理298
12.7 社會(huì)和倫理影響299
12.8 章節(jié)注釋301
12.9 習(xí)題301
*13章 結(jié)尾303
13.1 找份工作303
13.2 到研究生院去304
13.3 專業(yè)咨詢服務(wù)304
參考文獻(xiàn)305
索引311