Python大數(shù)據(jù)分析與機(jī)器學(xué)習(xí)商業(yè)案例實(shí)戰(zhàn)
定 價(jià):99.8 元
- 作者:王宇韜 錢(qián)妍竹 等
- 出版時(shí)間:2020/5/1
- ISBN:9787111654711
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP311.561
- 頁(yè)碼:0
- 紙張:
- 版次:1
- 開(kāi)本:16K
大數(shù)據(jù)分析與機(jī)器學(xué)習(xí)技術(shù)已成為各行各業(yè)實(shí)現(xiàn)數(shù)字化變革的關(guān)鍵驅(qū)動(dòng)力。本書(shū)以功能強(qiáng)大且較易上手的Python語(yǔ)言為編程環(huán)境,全面講解了大數(shù)據(jù)分析與機(jī)器學(xué)習(xí)技術(shù)的商業(yè)應(yīng)用實(shí)戰(zhàn)。
全書(shū)共16章,講解了線性回歸模型、邏輯回歸模型、決策樹(shù)模型、樸素貝葉斯模型、K近鄰算法模型、隨機(jī)森林模型、AdaBoost與GBDT模型、XGBoost與LightGBM模型、PCA(主成分分析)模型、聚類與分群模型(KMeans與DBSCAN算法)、協(xié)同過(guò)濾算法模型、Apriori關(guān)聯(lián)分析模型、神經(jīng)網(wǎng)絡(luò)模型等十余種機(jī)器學(xué)習(xí)模型的原理和代碼實(shí)現(xiàn),每種模型都配有一到兩個(gè)典型案例,涵蓋金融、營(yíng)銷、醫(yī)療、社會(huì)科學(xué)、企業(yè)辦公與管理等多個(gè)領(lǐng)域。
本書(shū)適合具備一定數(shù)學(xué)知識(shí)和編程基礎(chǔ)、希望快速在工作中應(yīng)用大數(shù)據(jù)分析與機(jī)器學(xué)習(xí)技術(shù)的讀者閱讀,也適合Python編程愛(ài)好者或?qū)Υ髷?shù)據(jù)分析與機(jī)器學(xué)習(xí)技術(shù)感興趣的讀者參考。
前言
如何獲取學(xué)習(xí)資源
第1章 Python與數(shù)據(jù)科學(xué)
1.1 大數(shù)據(jù)分析與機(jī)器學(xué)習(xí)概述13
1.1.1 大數(shù)據(jù)分析與機(jī)器學(xué)習(xí)的應(yīng)用領(lǐng)域13
1.1.2 機(jī)器學(xué)習(xí)的基本概念14
1.1.3 Python在數(shù)據(jù)科學(xué)中的作用16
1.2 Python編程環(huán)境部署與基本操作16
1.2.1 Python的安裝16
1.2.2 Pycharm的安裝與設(shè)置18
1.2.3 Jupyter Notebook的使用22
1.3 Python基礎(chǔ)知識(shí)概要28
第2章 數(shù)據(jù)分析利器:NumPy、pandas與Matplotlib庫(kù)
2.1 NumPy庫(kù)基礎(chǔ)29
2.1.1 NumPy庫(kù)與數(shù)組29
2.1.2 數(shù)組與列表的區(qū)別30
2.1.3 創(chuàng)建數(shù)組的幾種方式31
2.2 pandas庫(kù)基礎(chǔ)33
2.2.1 二維數(shù)據(jù)表格DataFrame的創(chuàng)建33
2.2.2 Excel工作簿等文件的讀取和寫(xiě)入38
2.2.3 數(shù)據(jù)的選取與處理41
2.2.4 數(shù)據(jù)表拼接47
2.3 Matplotlib庫(kù)基礎(chǔ)51
2.3.1 基本圖表繪制51
2.3.2 數(shù)據(jù)可視化常用技巧56
2.4 案例實(shí)戰(zhàn):股票數(shù)據(jù)讀取與K線圖繪制61
2.4.1 初步嘗試:股票數(shù)據(jù)讀取與可視化62
2.4.2 進(jìn)階實(shí)戰(zhàn):股票K線圖繪制65
第3章 線性回歸模型
3.1 一元線性回歸73
3.1.1 一元線性回歸的數(shù)學(xué)原理73
3.1.2 一元線性回歸的代碼實(shí)現(xiàn)75
3.1.3 案例實(shí)戰(zhàn):不同行業(yè)工齡與薪水的線性回歸模型77
3.2 線性回歸模型評(píng)估83
3.2.1 模型評(píng)估的編程實(shí)現(xiàn)83
3.2.2 模型評(píng)估的數(shù)學(xué)原理84
3.3 多元線性回歸87
3.3.1 多元線性回歸的數(shù)學(xué)原理和代碼實(shí)現(xiàn)87
3.3.2 案例實(shí)戰(zhàn):客戶價(jià)值預(yù)測(cè)模型88
第4章 邏輯回歸模型
4.1 邏輯回歸模型的算法原理92
4.1.1 邏輯回歸模型的數(shù)學(xué)原理92
4.1.2 邏輯回歸模型的代碼實(shí)現(xiàn)94
4.1.3 邏輯回歸模型的深入理解95
4.2 案例實(shí)戰(zhàn):客戶流失預(yù)警模型98
4.2.1 案例背景98
4.2.2 數(shù)據(jù)讀取與變量劃分98
4.2.3 模型的搭建與使用99
4.3 模型評(píng)估方法:ROC曲線與KS曲線104
4.3.1 ROC曲線的基本原理105
4.3.2 案例實(shí)戰(zhàn):用ROC曲線評(píng)估客戶流失預(yù)警模型108
4.3.3 KS曲線的基本原理111
4.3.4 案例實(shí)戰(zhàn):用KS曲線評(píng)估客戶流失預(yù)警模型112
第5章 決策樹(shù)模型
5.1 決策樹(shù)模型的基本原理115
5.1.1 決策樹(shù)模型簡(jiǎn)介115
5.1.2 決策樹(shù)模型的建樹(shù)依據(jù)116
5.1.3 決策樹(shù)模型的代碼實(shí)現(xiàn)119
5.2 案例實(shí)戰(zhàn):?jiǎn)T工離職預(yù)測(cè)模型123
5.2.1 模型搭建123
5.2.2 模型預(yù)測(cè)及評(píng)估126
5.2.3 決策樹(shù)模型可視化呈現(xiàn)及決策樹(shù)要點(diǎn)理解131
5.3 參數(shù)調(diào)優(yōu):K折交叉驗(yàn)證與GridSearch網(wǎng)格搜索138
5.3.1 K折交叉驗(yàn)證138
5.3.2 GridSearch網(wǎng)格搜索139
第6章 樸素貝葉斯模型
6.1 樸素貝葉斯模型的算法原理145
6.1.1 一維特征變量下的貝葉斯模型145
6.1.2 二維特征變量下的貝葉斯模型146
6.1.3 n維特征變量下的貝葉斯模型147
6.1.4 樸素貝葉斯模型的簡(jiǎn)單代碼實(shí)現(xiàn)147
6.2 案例實(shí)戰(zhàn):腫瘤預(yù)測(cè)模型148
6.2.1 案例背景148
6.2.2 數(shù)據(jù)讀取與劃分148
6.2.3 模型的搭建與使用149
第7章 K近鄰算法
7.1 K近鄰算法的原理和代碼實(shí)現(xiàn)152
7.1.1 K近鄰算法的基本原理152
7.1.2 K近鄰算法的計(jì)算步驟153
7.1.3 K近鄰算法的代碼實(shí)現(xiàn)155
7.2 案例實(shí)戰(zhàn):手寫(xiě)數(shù)字識(shí)別模型157
7.2.1 案例背景157
7.2.2 手寫(xiě)數(shù)字識(shí)別的原理157
7.2.3 手寫(xiě)數(shù)字識(shí)別的代碼實(shí)現(xiàn)159
7.3 圖像識(shí)別原理詳解162
第8章 隨機(jī)森林模型
8.1 隨機(jī)森林模型的原理和代碼實(shí)現(xiàn)166
8.1.1 集成模型簡(jiǎn)介166
8.1.2 隨機(jī)森林模型的基本原理167
8.1.3 隨機(jī)森林模型的代碼實(shí)現(xiàn)168
8.2 案例實(shí)戰(zhàn):股票漲跌預(yù)測(cè)模型170
8.2.1 股票基本數(shù)據(jù)獲取170
8.2.2 股票衍生變量生成173
8.2.3 多因子模型搭建181
8.2.4 模型使用與評(píng)估184
8.2.5 參數(shù)調(diào)優(yōu)186
8.2.6 收益回測(cè)曲線繪制188
第9章 AdaBoost與GBDT模型
9.1 AdaBoost算法原理190
9.1.1 AdaBoost算法的核心思想190
9.1.2 AdaBoost算法的數(shù)學(xué)原理概述191
9.1.3 AdaBoost算法的數(shù)學(xué)原理舉例194
9.1.4 AdaBoost算法的簡(jiǎn)單代碼實(shí)現(xiàn)200
9.2 AdaBoost算法案例實(shí)戰(zhàn):信用卡精準(zhǔn)營(yíng)銷模型201
9.2.1 案例背景201
9.2.2 模型搭建201
9.2.3 模型預(yù)測(cè)及評(píng)估202
9.2.4 模型參數(shù)介紹205
9.3 GBDT算法原理206
9.3.1 GBDT算法的核心思想206
9.3.2 GBDT算法的數(shù)學(xué)原理概述208
9.3.3 GBDT算法的數(shù)學(xué)原理舉例208
9.3.4 GBDT算法的簡(jiǎn)單代碼實(shí)現(xiàn)213
9.4 GBDT算法案例實(shí)戰(zhàn):產(chǎn)品定價(jià)模型214
9.4.1 案例背景214
9.4.2 模型搭建214
9.4.3 模型預(yù)測(cè)及評(píng)估217
9.4.4 模型參數(shù)介紹219
第10章 機(jī)器學(xué)習(xí)神器:XGBoost與LightGBM算法
10.1 XGBoost算法原理223
10.1.1 XGBoost算法的核心思想224
10.1.2 XGBoost算法的數(shù)學(xué)原理概述224
10.1.3 XGBoost算法的簡(jiǎn)單代碼實(shí)現(xiàn)225
10.2 XGBoost算法案例實(shí)戰(zhàn)1:金融反欺詐模型226
10.2.1 案例背景226
10.2.2 模型搭建226
10.2.3 模型預(yù)測(cè)及評(píng)估228
10.2.4 模型參數(shù)調(diào)優(yōu)230
10.3 XGBoost算法案例實(shí)戰(zhàn)2:信用評(píng)分卡模型233
10.3.1 案例背景233
10.3.2 多元線性回歸模型234
10.3.3 GBDT回歸模型235
10.3.4 XGBoost回歸模型237
10.4 LightGBM算法原理241
10.4.1 LightGBM算法的核心思想241
10.4.2 LightGBM算法的數(shù)學(xué)原理概述241
10.4.3 LightGBM算法的簡(jiǎn)單代碼實(shí)現(xiàn)244
10.5 LightGBM算法案例實(shí)戰(zhàn)1:客戶違約預(yù)測(cè)模型245
10.5.1 案例背景245
10.5.2 模型搭建245
10.5.3 模型預(yù)測(cè)及評(píng)估247
10.5.4 模型參數(shù)調(diào)優(yōu)249
10.6 LightGBM算法案例實(shí)戰(zhàn)2:廣告收益回歸預(yù)測(cè)模型251
10.6.1 案例背景251
10.6.2 模型搭建251
10.6.3 模型預(yù)測(cè)及評(píng)估253
10.6.4 模型參數(shù)調(diào)優(yōu)254
第11章 特征工程之?dāng)?shù)據(jù)預(yù)處理
11.1 非數(shù)值類型數(shù)據(jù)處理256
11.1.1 Get_dummies啞變量處理256
11.1.2 Label Encoding編號(hào)處理259
11.2 重復(fù)值、缺失值及異常值處理261
11.2.1 重復(fù)值處理261
11.2.2 缺失值處理262
11.2.3 異常值處理265
11.3 數(shù)據(jù)標(biāo)準(zhǔn)化268
11.3.1 min-max標(biāo)準(zhǔn)化268
11.3.2 Z-score標(biāo)準(zhǔn)化269
11.4 數(shù)據(jù)分箱270
11.5 特征篩選:WOE值與IV值272
11.5.1 WOE值的定義與計(jì)算272
11.5.2 IV值的定義與計(jì)算275
11.5.3 WOE值與IV值的代碼實(shí)現(xiàn)276
11.5.4 案例實(shí)戰(zhàn):客戶流失預(yù)警模型的IV值計(jì)算281
11.6 多重共線性的分析與處理283
11.6.1 多重共線性的定義283
11.6.2 多重共線性的分析與檢驗(yàn)284
11.7 過(guò)采樣和欠采樣287
11.7.1 過(guò)采樣287
11.7.2 欠采樣290
第12章 數(shù)據(jù)降維之PCA
12.1 數(shù)據(jù)降維292
12.1.1 PCA的基本原理292
12.1.2 PCA的代碼實(shí)現(xiàn)295
12.2 案例實(shí)戰(zhàn):人臉識(shí)別模型299
12.2.1 案例背景299
12.2.2 人臉數(shù)據(jù)讀取、處理與變量提取299
12.2.3 數(shù)據(jù)劃分與降維304
12.2.4 模型的搭建與使用306
12.3 人臉識(shí)別外部接口調(diào)用308
12.3.1 baidu-aip庫(kù)安裝308
12.3.2 調(diào)用接口進(jìn)行人臉識(shí)別和打分308
第13章 數(shù)據(jù)聚類與分群分析
13.1 KMeans算法314
13.1.1 KMeans算法的基本原理314
13.1.2 KMeans算法的代碼實(shí)現(xiàn)315
13.1.3 案例實(shí)戰(zhàn):銀行客戶分群模型318
13.2 DBSCAN算法321
13.2.1 DBSCAN算法的基本原理322
13.2.2 DBSCAN算法的代碼實(shí)現(xiàn)323
13.2.3 KMeans算法與DBSCAN算法的對(duì)比326
13.3 案例實(shí)戰(zhàn):新聞聚類分群模型327
13.3.1 案例背景327
13.3.2 文本數(shù)據(jù)的讀取與處理327
13.3.3 模型的搭建與使用335
13.3.4 模型優(yōu)化337
第14章 智能推薦系統(tǒng)
14.1 智能推薦系統(tǒng)的基本原理348
14.1.1 智能推薦系統(tǒng)的應(yīng)用場(chǎng)景348
14.1.2 智能推薦系統(tǒng)的基礎(chǔ):協(xié)同過(guò)濾算法348
14.2 計(jì)算相似度的常用方法349
14.2.1 歐氏距離350
14.2.2 余弦相似度351
14.2.3 皮爾遜相關(guān)系數(shù)352
14.3 案例實(shí)戰(zhàn):電影智能推薦系統(tǒng)354
14.3.1 案例背景354
14.3.2 數(shù)據(jù)讀取與處理354
14.3.3 系統(tǒng)搭建358
第15章 關(guān)聯(lián)分析:Apriori算法
15.1 關(guān)聯(lián)分析的基本概念和Apriori算法363
15.1.1 關(guān)聯(lián)分析的基本概念363
15.1.2 Apriori算法的數(shù)學(xué)演示364
15.1.3 Apriori算法的代碼實(shí)現(xiàn)368
15.2 案例實(shí)戰(zhàn):病癥關(guān)聯(lián)規(guī)則分析374
15.2.1 案例背景374
15.2.2 數(shù)據(jù)讀取與處理374
15.2.3 關(guān)聯(lián)規(guī)則分析376
第16章 深度學(xué)習(xí)初窺之神經(jīng)網(wǎng)絡(luò)模型
16.1 深度學(xué)習(xí)基礎(chǔ):神經(jīng)網(wǎng)絡(luò)模型380
16.1.1 神經(jīng)網(wǎng)絡(luò)模型的基本原理380
16.1.2 神經(jīng)網(wǎng)絡(luò)模型的簡(jiǎn)單代碼實(shí)現(xiàn)383
16.2 案例實(shí)戰(zhàn):用戶評(píng)論情感分析模型385
16.2.1 案例背景385
16.2.2 數(shù)據(jù)讀取、中文分詞、文本向量化385
16.2.3 神經(jīng)網(wǎng)絡(luò)模型的搭建與使用389