本書主要圍繞整個數據分析方法論的常規(guī)流程,介紹了Python常用的工具包,包括科學計算庫Numpy、數據分析庫Pandas、數據挖掘庫Scikit-Learn,以及數據可視化庫Matplotlib和Seaborn的基本知識,并從數據分析挖掘的實際業(yè)務應用出發(fā),講解了互聯(lián)網、金融及零售等行業(yè)的真實案例,比如客戶分群、產品精準營銷、房價預測、特征降維等,深入淺出、循序漸進地介紹了Python數據分析的全過程。
本書內容精煉、重點突出、案例豐富,適合在企業(yè)中從事數據分析、數據挖掘、機器學習等工作的人員學習使用,同樣適合想從事數據分析挖掘工作的各大中專院校的學生與教師,以及其他對數據分析挖掘技術領域有興趣愛好的各類人員。
尚濤,畢業(yè)于上海交通大學數學系,擁有數學碩士學位,研究方向為數據挖掘及機器學習領域,曾任職于支付寶、平安科技、易方達基金,F任職于南方基金,專注于信用風險評分、精準營銷、推薦系統(tǒng)等領域的數據挖掘項目的研發(fā)工作,擁有超過10年的數據挖掘和優(yōu)化建模經驗,以及多年使用Python、SAS、R等軟件的經驗。在從業(yè)經歷中,為所在公司的業(yè)務方成功實施了眾多深受好評的數據挖掘項目,取得了較好的業(yè)務價值。
第一章 數據分析方法
11.1 什么是數據分析2
1.2 數據分析標準流程2
1.3 數據清洗7
1.4 數據探索8
1.5 模型開發(fā)10
1.6 模型應用11
第二章 初識Python12
2.1 Python基本概述13
2.2 Python編程語法基礎14
2.3 數據分析常用Python庫22
2.4 第三方Python庫介紹23
第三章 NumPy數組與矩陣25
3.1 Ndarray對象26
3.2 數據類型27
3.3 數組屬性28
3.4 創(chuàng)建數組30
3.5 數據索引與切片34
3.6 數組操作37
3.7 數組排序51
3.8 函數54
3.9 矩陣62
第四章 Pandas數據分析65
4.1 系列(Series)66
4.2 數據幀(DataFrame)68
4.3 基本功能介紹70
4.4 讀取和寫入數據78
4.5 索引和選擇數據84
4.6 數據合并87
4.7 累計與分組91
4.8 時間序列處理96
4.9 缺失數據處理101
4.10 函數107
4.11 描述性統(tǒng)計115
4.12 繪制圖形118
第五章 Scikit-Learn數據挖掘126
5.1 機器學習問題127
5.2 機器學習的基本流程127
5.3 數據處理128
5.4 特征選擇131
5.5 模型調用135
5.6 模型參數說明138
5.7 交叉驗證148
5.8 模型部署151
第六章 數據可視化153
6.1 Matplotlib繪制圖形154
6.2 Seaborn繪制圖形163
6.3 重要類型圖形的繪制184
第七章 數據導入與導出192
7.1 連接數據庫193
7.2 讀取外部數據194
7.3 導出數據201
第八章 數據預處理203
8.1 數據去重204
8.2 缺失值處理205
8.3 變量操作210
8.4 樣本選擇217
8.5 數據集操作220
第九章 數據探索226
9.1 集中趨勢227
9.2 離散程度230
9.3 分布狀態(tài)234
9.4 相關分析236
第十章 線性回歸分析241
10.1 線性回歸模型242
10.2 最小二乘估計243
10.3 顯著性檢驗244
10.4 預測245
10.5 相關性246
10.6 共線性247
10.7 案例分析——波士頓地區(qū)房價預測247
第十一章 Logistic回歸分析260
11.1 邏輯回歸模型介紹261
11.2 案例分析——泰坦尼克生存預測262
第十二章 決策樹275
12.1 決策樹介紹276
12.2 案例分析——金融產品推薦277
第十三章 主成分分析292
13.1 主成分分析的數學模型293
13.2 PCA函數說明294
13.3 案例分析——數據降維295
第十四章 聚類分析304
14.1 距離305
14.2 聚類方法306
14.3 確定聚類數309
14.4 聚類的分析步驟311
14.5 案例分析——客戶群聚類分析312
第十五章 時間序列分析323
15.1 時間序列的組成部分324
15.2 確定性的時間序列模型325
15.3 隨機時間序列模型325
15.4 ARMA模型的識別327
15.5 時間序列的分析步驟329
15.6 模型參數的估計329
15.7 案例分析——大氣二氧化碳濃度預測331