本書基于Python語言環(huán)境,從零開始講解數(shù)據(jù)科學(xué)工作,講述數(shù)據(jù)科學(xué)工作所需的技能與訣竅,并帶領(lǐng)讀者熟悉數(shù)據(jù)科學(xué)的核心知識:數(shù)學(xué)與統(tǒng)計(jì)學(xué)。作者借助大量具有現(xiàn)實(shí)意義的實(shí)例詳細(xì)展示了什么是數(shù)據(jù)科學(xué),介紹了從事數(shù)據(jù)科學(xué)工作需要用到的庫,如NumPy、scikit-learn、pandas等,還在每章末尾推薦了很多學(xué)習(xí)資源,幫助你進(jìn)一步鞏固本書所學(xué)。新版基于Python 3.6,重寫了所有示例和代碼,并根據(jù)數(shù)據(jù)科學(xué)近幾年的發(fā)展,新增了關(guān)于深度學(xué)習(xí)、統(tǒng)計(jì)學(xué)和自然語言處理等主題,讓圖書內(nèi)容與時(shí)俱進(jìn)。
1.全能數(shù)據(jù)科學(xué)家成長指南,長居美亞機(jī)器學(xué)習(xí)熱銷榜;
2.新版基于Python 3.6,新引入了類型注釋等許多功能;
3.根據(jù)數(shù)據(jù)科學(xué)近幾年的發(fā)展,新增了關(guān)于深度學(xué)習(xí)、統(tǒng)計(jì)學(xué)和自然語言處理等主題,讓圖書內(nèi)容與時(shí)俱進(jìn)。
- 學(xué)到一堂Python速成課。
- 學(xué)習(xí)線性代數(shù)、統(tǒng)計(jì)學(xué)和概率論的基礎(chǔ)知識,并能將其靈活地用于數(shù)據(jù)科學(xué)項(xiàng)目。
- 掌握如何獲取、探索、清洗、處理和調(diào)整數(shù)據(jù)。
- 深入理解機(jī)器學(xué)習(xí)概念,尤其是深度學(xué)習(xí)概念。
- 運(yùn)用k最近鄰法、樸素貝葉斯、線性回歸、邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)和聚類等算法實(shí)現(xiàn)數(shù)據(jù)模型。
- 探索自然語言處理、網(wǎng)絡(luò)分析、推薦系統(tǒng)、數(shù)據(jù)庫與SQL、MapReduce。
無論你身處哪個(gè)行業(yè),數(shù)據(jù)都能成為你的好幫手。善于從凌亂的數(shù)據(jù)中提取有用的信息,你就能在面對業(yè)務(wù)難題時(shí)游刃有余,用數(shù)據(jù)說話,為決策找到有力的支撐。
歡迎進(jìn)入數(shù)據(jù)科學(xué)世界!在本書中,你將化身為虛構(gòu)公司DataSciencester的員工,從零開始數(shù)據(jù)科學(xué)工作,親手構(gòu)建工具、實(shí)現(xiàn)算法,最終從數(shù)據(jù)科學(xué)新手蛻變?yōu)槿艿臄?shù)據(jù)科學(xué)家。在第1版的基礎(chǔ)上,本書升級了所有代碼示例,并新增了深度學(xué)習(xí)、統(tǒng)計(jì)學(xué)、自然語言處理等相關(guān)內(nèi)容。
喬爾·格魯斯(Joel Grus)
Capital Group公司的首席機(jī)器學(xué)習(xí)工程師,擔(dān)任過艾倫研究所的人工智能研發(fā)工程師以及谷歌公司的軟件工程師,還曾在多家創(chuàng)業(yè)公司擔(dān)任數(shù)據(jù)科學(xué)家。
【譯者簡介】
岳冰
美國西北大學(xué)數(shù)學(xué)碩士,知乎專欄“X-Lab”編輯,參與編撰了《知識圖譜標(biāo)準(zhǔn)化白皮書(2019版)》。深耕圖神經(jīng)網(wǎng)絡(luò)、推薦算法、復(fù)雜關(guān)系網(wǎng)絡(luò)風(fēng)險(xiǎn)挖掘、機(jī)器學(xué)習(xí)等領(lǐng)域。運(yùn)用人工智能算法與工具,長期支持有關(guān)部門用高精尖技術(shù)手段打擊違法犯罪。
高蓉
講師,任教于杭州電子科技大學(xué)經(jīng)濟(jì)學(xué)院金融系。博士和碩士畢業(yè)于南開大學(xué)經(jīng)濟(jì)學(xué)院金融系,本科畢業(yè)于南開大學(xué)數(shù)學(xué)學(xué)院計(jì)算數(shù)學(xué)專業(yè)。研究領(lǐng)域包括數(shù)據(jù)科學(xué)應(yīng)用、資產(chǎn)定價(jià)、金融工程、計(jì)量經(jīng)濟(jì)應(yīng)用等。
韓波
自由譯者、撰稿人,從事信息技術(shù)工作二十余年,主要興趣領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí)、Python等。曾為多家信息技術(shù)媒體撰稿,另譯有《Python數(shù)據(jù)分析》。
第 2版前言 xiii
第 1版前言 xvii
第 1章 導(dǎo)論 1
1.1 數(shù)據(jù)的崛起 1
1.2 什么是數(shù)據(jù)科學(xué) 1
1.3 激勵(lì)假設(shè):DataSciencester 2
1.3.1 尋找關(guān)鍵聯(lián)系人 3
1.3.2 你可能知道的數(shù)據(jù)科學(xué)家 5
1.3.3 工資和工作年限 8
1.3.4 付費(fèi)賬戶 10
1.3.5 感興趣的主題 10
1.3.6 展望 12
第 2章 Python速成 13
2.1 Python之禪 13
2.2 獲取Python 14
2.3 虛擬環(huán)境 14
2.4 空白格式 15
2.5 模塊 16
2.6 函數(shù) 17
2.7 字符串 18
2.8 異!19
2.9 列表 19
2.10 元組 21
2.11 字典 22
2.12 計(jì)數(shù)器 24
2.13 集 24
2.14 控制流 25
2.15 真和假 26
2.16 排序 27
2.17 列表解析 27
2.18 自動化測試和斷言 28
2.19 面向?qū)ο缶幊獭?9
2.20 迭代器和生成器 31
2.21 隨機(jī)性 ..32
2.22 正則表達(dá)式 33
2.23 函數(shù)式編程 34
2.24 壓縮和參數(shù)拆分 34
2.25 args和kwargs 35
2.26 類型注釋 36
2.27 歡迎來到DataSciencester 39
2.28 進(jìn)一步探索 39
第3章 數(shù)據(jù)可視化 40
3.1 matplotlib 40
3.2 條形圖 42
3.3 線圖 45
3.4 散點(diǎn)圖 46
3.5 延伸學(xué)習(xí) 48
第4章 線性代數(shù) 49
4.1 向量 49
4.2 矩陣 53
4.3 延伸學(xué)習(xí) 56
第5章 統(tǒng)計(jì)學(xué) 57
5.1 描述單個(gè)數(shù)據(jù)集 57
5.1.1 中心傾向 59
5.1.2 離散度 61
5.2 相關(guān) 62
5.3 辛普森悖論 64
5.4 相關(guān)系數(shù)的其他注意事項(xiàng) 65
5.5 相關(guān)與因果 66
5.6 延伸學(xué)習(xí) 66
第6章 概率 68
6.1 依賴和獨(dú)立 68
6.2 條件概率 69
6.3 貝葉斯定理 71
6.4 隨機(jī)變量 72
6.5 連續(xù)分布 72
6.6 正態(tài)分布 73
6.7 中心極限定理 76
6.8 延伸學(xué)習(xí) 78
第7章 假設(shè)和推論 79
7.1 統(tǒng)計(jì)假設(shè)檢驗(yàn) 79
7.2 實(shí)例:擲硬幣 79
7.3 p值 82
7.4 置信區(qū)間 84
7.5 p-Hacking 84
7.6 實(shí)例:運(yùn)行A/B 測試 85
7.7 貝葉斯推斷 86
7.8 延伸學(xué)習(xí) 89
第8章 梯度下降 90
8.1 梯度下降的思想 90
8.2 估算梯度 91
8.3 使用梯度 94
8.4 選擇正確步長 94
8.5 使用梯度下降擬合模型 95
8.6 小批次梯度下降和隨機(jī)梯度下降 96
8.7 延伸學(xué)習(xí) 98
第9章 獲取數(shù)據(jù) 99
9.1 stdin和stdout 99
9.2 讀取文件 101
9.2.1 文本文件的基礎(chǔ) 101
9.2.2 限制的文件 102
9.3 網(wǎng)絡(luò)抓取 104
9.4 使用API 106
9.4.1 JSON和XML 106
9.4.2 使用無驗(yàn)證的API 107
9.4.3 尋找API 108
9.5 實(shí)例:使用Twitter API 109
9.6 延伸學(xué)習(xí) 112
第 10章 數(shù)據(jù)工作 113
10.1 探索數(shù)據(jù) 113
10.1.1 探索一維數(shù)據(jù) 113
10.1.2 兩個(gè)維度 115
10.1.3 多維數(shù)據(jù) 116
10.2 使用NamedTuple 18
10.3 數(shù)據(jù)類 119
10.4 清洗和修改 120
10.5 數(shù)據(jù)處理 122
10.6 數(shù)據(jù)調(diào)整 25
10.7 題外話:tqdm 126
10.8 降維 127
10.9 延伸學(xué)習(xí) 133
第 11章 機(jī)器學(xué)習(xí) 134
11.1 建!134
11.2 什么是機(jī)器學(xué)習(xí) 135
11.3 過擬合與欠擬合 135
11.4 正確性 138
11.5 偏差–方差權(quán)衡 140
11.6 特征提取與選擇 141
11.7 延伸學(xué)習(xí) 142
第 12章 k最近鄰法 143
12.1 模型 143
12.2 實(shí)例:鳶尾花數(shù)據(jù)集 145
12.3 維數(shù)災(zāi)難 148
12.4 進(jìn)一步探索 152
第 13章 樸素貝葉斯算法 153
13.1 一個(gè)簡易的垃圾郵件過濾器 153
13.2 一個(gè)復(fù)雜的垃圾郵件過濾器 154
13.3 算法實(shí)現(xiàn) 155
13.4 測試模型 157
13.5 使用模型 158
13.6 延伸學(xué)習(xí) 161
第 14章 簡單線性回歸 162
14.1 模型 162
14.2 使用梯度下降法 165
14.3 最大似然估計(jì) 166
14.4 延伸學(xué)習(xí) 166
第 15章 多元回歸 167
15.1 模型 167
15.2 最小二乘模型的進(jìn)一步假設(shè) 168
15.3 擬合模型 169
15.4 解釋模型 171
15.5 擬合優(yōu)度 171
15.6 題外話:Bootstrap 172
15.7 回歸系數(shù)的標(biāo)準(zhǔn)誤差 173
15.8 正則化 175
15.9 延伸學(xué)習(xí) 177
第 16章 邏輯回歸 178
16.1 問題 178
16.2 logistic函數(shù) 180
16.3 應(yīng)用模型 183
16.4 擬合優(yōu)度 184
16.5 支持向量機(jī) 185
16.6 延伸學(xué)習(xí) 188
第 17章 決策樹 89
17.1 什么是決策樹 189
17.2 熵 191
17.3 分割的熵 193
17.4 創(chuàng)建決策樹 194
17.5 綜合運(yùn)用 196
17.6 隨機(jī)森林 199
17.7 延伸學(xué)習(xí) 199
第 18章 神經(jīng)網(wǎng)絡(luò) 200
18.1 感知器 200
18.2 前饋神經(jīng)網(wǎng)絡(luò) 202
18.3 反向傳播 205
18.4 實(shí)例:Fizz Buzz 207
18.5 延伸學(xué)習(xí) 210
第 19章 深度學(xué)習(xí) 211
19.1 張量 211
19.2 層抽象 213
19.3 線性層 215
19.4 把神經(jīng)網(wǎng)絡(luò)作為層序列 218
19.5 損失函數(shù)與優(yōu)化器 219
19.6 實(shí)例:重新設(shè)計(jì)異或網(wǎng)絡(luò) 221
19.7 其他激活函數(shù) 222
19.8 實(shí)例:重新解決Fizz Buzz問題 223
19.9 softmax函數(shù)和交叉熵 224
19.10 丟棄 227
19.11 實(shí)例:MNIST 227
19.12 保存和加載模型 231
19.13 延伸學(xué)習(xí) 232
第 20章 聚類分析 233
20.1 原理 233
20.2 模型 234
20.3 實(shí)例:聚會 236
20.4 選擇聚類數(shù)目k 238
20.5 實(shí)例:色彩聚類 239
20.6 自下而上的分層聚類 241
20.7 延伸學(xué)習(xí) 246
第 21章 自然語言處理 247
21.1 詞云 247
21.2 n-gram 語言模型 249
21.3 語法 252
21.4 題外話:吉布斯采樣 254
21.5 主題建模 255
21.6 詞向量 260
21.7 遞歸神經(jīng)網(wǎng)絡(luò) 268
21.8 實(shí)例:使用字符級RNN 271
21.9 延伸學(xué)習(xí) 274
第 22章 網(wǎng)絡(luò)分析 275
22.1 中介中心性 275
22.2 特征向量中心性 280
22.2.1 矩陣乘法 280
22.2.2 中心性 282
22.3 有向圖與PageRank 283
22.4 延伸學(xué)習(xí) 286
第 23章 推薦系統(tǒng) 287
23.1 人工管理 288
23.2 推薦流行事務(wù) 288
23.3 基于用戶的協(xié)同過濾 289
23.4 基于項(xiàng)目的協(xié)同過濾 292
23.5 矩陣分解 294
23.6 延伸學(xué)習(xí) 298
第 24章 數(shù)據(jù)庫與SQL 299
24.1 CREATE TABLE與INSERT 299
24.2 UPDATE 302
24.3 DELETE 303
24.4 SELECT 304
24.5 GROUP BY 306
24.6 ORDER BY 308
24.7 JOIN 309
24.8 子查詢 311
24.9 索引 312
24.10 查詢優(yōu)化 312
24.11 NoSQL 313
24.12 延伸學(xué)習(xí) 313
第 25章 MapReduce 314
25.1 實(shí)例:單詞計(jì)數(shù) 315
25.2 為什么是MapReduce 316
25.3 更一般化的MapReduce 317
25.4 實(shí)例:狀態(tài)分析更新 318
25.5 實(shí)例:矩陣乘法 320
25.6 題外話:組合器 321
25.7 延伸學(xué)習(xí) 322
第 26章 數(shù)據(jù)倫理 323
26.1 什么是數(shù)據(jù)倫理 323
26.2 講真的,什么是數(shù)據(jù)倫理 324
26.3 是否應(yīng)該關(guān)注數(shù)據(jù)倫理 324
26.4 建立不良數(shù)據(jù)產(chǎn)品 325
26.5 精確與公平之間的較量 325
26.6 合作 327
26.7 可解釋性 327
26.8 推薦 327
26.9 異常數(shù)據(jù) 328
26.10 數(shù)據(jù)保護(hù) 329
26.11 小結(jié) 329
26.12 延伸學(xué)習(xí) 329
第 27章 數(shù)據(jù)科學(xué)前瞻 330
27.1 IPython 330
27.2 數(shù)學(xué) 331
27.3 不從零開始 331
27.3.1 NumPy 331
27.3.2 pandas 331
27.3.3 scikit-learn 331
27.3.4 可視化 332
27.3.5 R 332
27.3.6 深度學(xué)習(xí) 332
27.4 尋找數(shù)據(jù) 333
27.5 從事數(shù)據(jù)科學(xué)工作 333
27.5.1 Hacker News 333
27.5.2 消防車 333
27.5.3 T恤 334
27.5.4 地球儀上的推文 334
27.5.5 你的發(fā)現(xiàn) 335
關(guān)于作者 336
關(guān)于封面 336