Python數(shù)據(jù)分析與應(yīng)用(第2版)(微課版)
定 價:59.8 元
- 作者:曾文權(quán),張良均
- 出版時間:2022/8/1
- ISBN:9787115575586
- 出 版 社:人民郵電出版社
- 中圖法分類:TP311.561
- 頁碼:0
- 紙張:
- 版次:02
- 開本:16開
本書以任務(wù)為導(dǎo)向,全面地介紹數(shù)據(jù)分析的流程和Python數(shù)據(jù)分析庫的應(yīng)用,詳細(xì)講解利用Python解決企業(yè)實際問題的方法。全書共10章,第1章介紹數(shù)據(jù)分析的概念等相關(guān)知識;第2~6章介紹Python數(shù)據(jù)分析的常用庫及其應(yīng)用,涵蓋NumPy數(shù)組計算,pandas統(tǒng)計分析,使用pandas進(jìn)行數(shù)據(jù)預(yù)處理,Matplotlib、seaborn與pyecharts數(shù)據(jù)可視化,以及使用scikit-learn構(gòu)建模型,較為全面地闡述Python數(shù)據(jù)分析方法;第7~9章結(jié)合之前所學(xué)的數(shù)據(jù)分析技術(shù),進(jìn)行企業(yè)綜合案例數(shù)據(jù)分析;第10章基于去編程化的TipDM大數(shù)據(jù)挖掘建模平臺實現(xiàn)客戶流失預(yù)測。除第1章外,本書各章都包含實訓(xùn)與課后習(xí)題,通過練習(xí)和操作實踐,幫助讀者鞏固所學(xué)的內(nèi)容。
本書可以用于“1+X”證書制度試點工作中的大數(shù)據(jù)應(yīng)用開發(fā)(Python)職業(yè)技能等級(中級)證書相關(guān)知識的教學(xué)和培訓(xùn),也可以作為高校大數(shù)據(jù)技術(shù)相關(guān)專業(yè)的教材和大數(shù)據(jù)技術(shù)愛好者的自學(xué)用書。
1. 全書緊扣任務(wù)需求展開,不堆積知識點
2. 隨書附帶Python源碼,微課視頻,方便讀者系統(tǒng)學(xué)習(xí)并動手實踐
3. 實戰(zhàn)案例豐富
4. “1+X”大數(shù)據(jù)應(yīng)用開發(fā)(Python)職業(yè)技能等級證書(中級)配套教材
曾文權(quán),廣東科學(xué)技術(shù)職業(yè)學(xué)院計算機學(xué)院院長、教授,教育部計算機職業(yè)教育教學(xué)指導(dǎo)委員會委員、中國計算機學(xué)會職業(yè)教育發(fā)展委員會副主席、國家課程思政教學(xué)名師、國家軟件技術(shù)高水平專業(yè)群建設(shè)負(fù)責(zé)人、國家教學(xué)創(chuàng)新團(tuán)隊帶頭人、廣東省千百十人才工程省級培養(yǎng)對象、廣東省移動應(yīng)用開發(fā)專業(yè)領(lǐng)軍人才;獲國家教學(xué)成果獎1項、省級教學(xué)成果獎3項;主持國家和省級教科研項目20余項、主編出版專著1部、教材8部,發(fā)表論文30余篇。
張良均
資深大數(shù)據(jù)專家,廣東泰迪智能科技股份有限公司董事長,國家科技部入庫技術(shù)專家,教育部全國專業(yè)學(xué)位水平評估專家,工信部教育與考試中心入庫專家,中國工業(yè)與應(yīng)用數(shù)學(xué)學(xué)會理事,廣東省工業(yè)與應(yīng)用數(shù)學(xué)學(xué)會副理事長,廣東省高等職業(yè)教育教學(xué)指導(dǎo)委員會委員,華南師范大學(xué)、中南財經(jīng)政法大學(xué)等40余所高校校外碩導(dǎo)或兼職教授,泰迪杯全國數(shù)據(jù)挖掘挑戰(zhàn)賽發(fā)起人。
曾在國內(nèi)外重要學(xué)術(shù)刊物上發(fā)表學(xué)術(shù)論文10余篇,主導(dǎo)編寫圖書專著60余部,其中獲普通高等教育“十一五”規(guī)劃教材一部,“十三五”職業(yè)教育國家規(guī)劃教材一部;參與標(biāo)準(zhǔn)建設(shè)4項,主持國家級課題1項、省部級課題4項。獲得SAS、SPSS數(shù)據(jù)挖掘認(rèn)證及Hadoop開發(fā)工程師證書,具有信訪、電力、電信、銀行、制造企業(yè)、電子商務(wù)和電子政務(wù)的項目經(jīng)驗和行業(yè)背景,并榮獲中國產(chǎn)學(xué)研合作促進(jìn)獎
第 1章 Python數(shù)據(jù)分析概述 1
任務(wù)1.1 認(rèn)識數(shù)據(jù)分析 2
1.1.1 掌握數(shù)據(jù)分析的概念 2
1.1.2 掌握數(shù)據(jù)分析的流程 3
1.1.3 了解數(shù)據(jù)分析的應(yīng)用場景 4
任務(wù)1.2 熟悉Python數(shù)據(jù)分析的工具 6
1.2.1 了解數(shù)據(jù)分析常用工具 6
1.2.2 了解Python數(shù)據(jù)分析的優(yōu)勢 7
1.2.3 了解Python數(shù)據(jù)分析常用庫 7
任務(wù)1.3 安裝Python的Anaconda發(fā)行版 9
1.3.1 了解Python的Anaconda發(fā)行版 10
1.3.2 在Windows系統(tǒng)中安裝Anaconda發(fā)行版 10
1.3.3 在Linux系統(tǒng)中安裝Anaconda發(fā)行版 13
任務(wù)1.4 掌握J(rèn)upyter Notebook常用功能 15
1.4.1 掌握J(rèn)upyter Notebook的基本功能 15
1.4.2 掌握J(rèn)upyter Notebook的高級功能 17
小結(jié) 20
課后習(xí)題 21
第 2章 NumPy數(shù)組計算基礎(chǔ) 23
任務(wù)2.1 掌握NumPy數(shù)組對象ndarray 24
2.1.1 創(chuàng)建數(shù)組對象 24
2.1.2 生成隨機數(shù) 30
2.1.3 通過索引訪問數(shù)組 31
2.1.4 變換數(shù)組的形狀 33
任務(wù)2.2 掌握NumPy矩陣與通用函數(shù) 37
2.2.1 創(chuàng)建NumPy矩陣 37
2.2.2 掌握ufunc函數(shù) 39
任務(wù)2.3 利用NumPy進(jìn)行統(tǒng)計分析 43
2.3.1 讀/寫文件 43
2.3.2 使用函數(shù)進(jìn)行簡單的統(tǒng)計分析 45
小結(jié) 50
實訓(xùn) 50
實訓(xùn)1 使用數(shù)組比較運算對超市牛奶價格進(jìn)行對比 50
實訓(xùn)2 創(chuàng)建6×6的簡單數(shù)獨游戲矩陣 51
課后習(xí)題 51
第3章 pandas統(tǒng)計分析基礎(chǔ) 53
任務(wù)3.1 讀/寫不同數(shù)據(jù)源的數(shù)據(jù) 54
3.1.1 認(rèn)識pandas庫 54
3.1.2 讀/寫文本文件 54
3.1.3 讀/寫Excel文件 58
3.1.4 讀/寫數(shù)據(jù)庫 60
任務(wù)3.2 掌握DataFrame的常用操作 62
3.2.1 查看DataFrame的常用屬性 63
3.2.2 查、改、增、刪DataFrame數(shù)據(jù) 64
3.2.3 描述分析DataFrame數(shù)據(jù) 70
任務(wù)3.3 轉(zhuǎn)換與處理時間序列數(shù)據(jù) 73
3.3.1 轉(zhuǎn)換時間字符串為標(biāo)準(zhǔn)時間 73
3.3.2 提取時間序列數(shù)據(jù)信息 75
3.3.3 加減時間數(shù)據(jù) 76
任務(wù)3.4 使用分組聚合進(jìn)行組內(nèi)計算 78
3.4.1 使用groupby()方法拆分?jǐn)?shù)據(jù) 78
3.4.2 使用agg()方法聚合數(shù)據(jù) 80
3.4.3 使用apply()方法聚合數(shù)據(jù) 82
3.4.4 使用transform()方法聚合數(shù)據(jù) 83
任務(wù)3.5 創(chuàng)建透視表與交叉表 84
3.5.1 使用pivot_table函數(shù)創(chuàng)建透視表 85
3.5.2 使用crosstab函數(shù)創(chuàng)建交叉表 87
小結(jié) 88
實訓(xùn) 89
實訓(xùn)1 讀取并查看某地區(qū)房屋銷售數(shù)據(jù)的基本信息 89
實訓(xùn)2 提取房屋售出時間信息并描述房屋價格信息 89
實訓(xùn)3 使用分組聚合方法分析房屋銷售情況 90
實訓(xùn)4 分析房屋地區(qū)、配套房間數(shù)和房屋價格的關(guān)系 90
課后習(xí)題 91
第4章 使用pandas進(jìn)行數(shù)據(jù)預(yù)處理 93
任務(wù)4.1 合并數(shù)據(jù) 93
4.1.1 堆疊合并數(shù)據(jù) 94
4.1.2 主鍵合并數(shù)據(jù) 97
4.1.3 重疊合并數(shù)據(jù) 99
任務(wù)4.2 清洗數(shù)據(jù) 100
4.2.1 檢測與處理重復(fù)值 100
4.2.2 檢測與處理缺失值 104
4.2.3 檢測與處理異常值 108
任務(wù)4.3 標(biāo)準(zhǔn)化數(shù)據(jù) 110
4.3.1 離差標(biāo)準(zhǔn)化數(shù)據(jù) 110
4.3.2 標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化數(shù)據(jù) 111
4.3.3 小數(shù)定標(biāo)標(biāo)準(zhǔn)化數(shù)據(jù) 111
任務(wù)4.4 變換數(shù)據(jù) 112
4.4.1 啞變量處理類別型數(shù)據(jù) 112
4.4.2 離散化連續(xù)型數(shù)據(jù) 114
小結(jié) 117
實訓(xùn) 117
實訓(xùn)1 合并年齡、平均血糖和中風(fēng)患者信息數(shù)據(jù) 117
實訓(xùn)2 刪除年齡異常的數(shù)據(jù) 118
實訓(xùn)3 離散化年齡特征 118
課后習(xí)題 119
第5章 Matplotlib、seaborn、pyecharts數(shù)據(jù)可視化基礎(chǔ) 121
任務(wù)5.1 掌握Matplotlib基礎(chǔ)繪圖 122
5.1.1 熟悉pyplot繪圖基礎(chǔ)語法與常用參數(shù) 122
5.1.2 使用Matplotlib繪制進(jìn)階圖形 128
任務(wù)5.2 掌握seaborn基礎(chǔ)繪圖 137
5.2.1 熟悉seaborn繪圖基礎(chǔ) 137
5.2.2 使用seaborn繪制基礎(chǔ)圖形 153
任務(wù)5.3 掌握pyecharts基礎(chǔ)繪圖 162
5.3.1 熟悉pyecharts繪圖基礎(chǔ) 162
5.3.2 使用pyecharts繪制交互式圖形 166
小結(jié) 171
實訓(xùn) 172
實訓(xùn)1 分析學(xué)生考試成績特征的分布與分散情況 172
實訓(xùn)2 分析學(xué)生考試成績與各個特征之間的關(guān)系 172
實訓(xùn)3 分析各空氣質(zhì)量指數(shù)之間的相關(guān)關(guān)系 173
實訓(xùn)4 繪制交互式基礎(chǔ)圖形 174
課后習(xí)題 174
第6章 使用scikit-learn構(gòu)建模型 177
任務(wù)6.1 使用sklearn轉(zhuǎn)換器處理數(shù)據(jù) 178
6.1.1 加載datasets模塊中的數(shù)據(jù)集 178
6.1.2 將數(shù)據(jù)集劃分為訓(xùn)練集和測試集 180
6.1.3 使用sklearn轉(zhuǎn)換器進(jìn)行數(shù)據(jù)預(yù)處理 182
任務(wù)6.2 構(gòu)建并評價聚類模型 184
6.2.1 使用sklearn估計器構(gòu)建聚類模型 185
6.2.2 評價聚類模型 187
任務(wù)6.3 構(gòu)建并評價分類模型 189
6.3.1 使用sklearn估計器構(gòu)建分類模型 190
6.3.2 評價分類模型 192
任務(wù)6.4 構(gòu)建并評價回歸模型 194
6.4.1 使用sklearn估計器構(gòu)建線性回歸模型 194
6.4.2 評價回歸模型 197
小結(jié) 198
實訓(xùn) 198
實訓(xùn)1 使用sklearn處理競標(biāo)行為數(shù)據(jù)集 198
實訓(xùn)2 構(gòu)建基于競標(biāo)行為數(shù)據(jù)集的K-Means聚類模型 199
實訓(xùn)3 構(gòu)建基于競標(biāo)行為數(shù)據(jù)集的支持向量機分類模型 200
實訓(xùn)4 構(gòu)建基于競標(biāo)行為數(shù)據(jù)集的回歸模型 200
課后習(xí)題 200
第7章 競賽網(wǎng)站用戶行為分析 202
任務(wù)7.1 了解競賽網(wǎng)站用戶行為分析的背景和方法 203
7.1.1 了解競賽網(wǎng)站背景 203
7.1.2 認(rèn)識用戶行為分析 204
7.1.3 熟悉競賽網(wǎng)站用戶行為分析的步驟與流程 204
任務(wù)7.2 預(yù)處理競賽網(wǎng)站用戶訪問數(shù)據(jù) 205
7.2.1 特征值變換 205
7.2.2 用戶識別 207
7.2.3 數(shù)據(jù)清洗 208
7.2.4 網(wǎng)頁分類 211
7.2.5 構(gòu)造特征 213
任務(wù)7.3 對競賽網(wǎng)站用戶進(jìn)行分群 214
7.3.1 了解K-Means聚類算法 214
7.3.2 使用K-Means聚類算法進(jìn)行用戶分群 215
7.3.3 模型應(yīng)用 217
小結(jié) 218
實訓(xùn) 218
實訓(xùn)1 處理某App用戶信息數(shù)據(jù)集 218
實訓(xùn)2 構(gòu)建與用戶使用信息相關(guān)的 特征 219
實訓(xùn)3 構(gòu)建K-Means聚類模型 219
課后習(xí)題 219
第8章 企業(yè)所得稅預(yù)測分析 221
任務(wù)8.1 了解企業(yè)所得稅預(yù)測的背景與方法 222
8.1.1 分析企業(yè)所得稅預(yù)測背景 222
8.1.2 了解企業(yè)所得稅預(yù)測的方法 223
8.1.3 熟悉企業(yè)所得稅預(yù)測的步驟與流程 224
任務(wù)8.2 分析企業(yè)所得稅數(shù)據(jù)特征的相關(guān)性 224
8.2.1 了解相關(guān)性分析 225
8.2.2 計算Pearson相關(guān)系數(shù) 225
任務(wù)8.3 使用Lasso回歸選取企業(yè)所得稅預(yù)測的關(guān)鍵特征 227
8.3.1 了解Lasso回歸方法 227
8.3.2 選取關(guān)鍵特征 228
任務(wù)8.4 使用灰色預(yù)測算法和SVR算法構(gòu)建企業(yè)所得稅預(yù)測模型 229
8.4.1 了解灰色預(yù)測算法 230
8.4.2 了解SVR算法 231
8.4.3 預(yù)測企業(yè)所得稅 232
小結(jié) 236
實訓(xùn) 236
實訓(xùn)1 處理英雄聯(lián)盟游戲數(shù)據(jù)集 236
實訓(xùn)2 構(gòu)建游戲勝負(fù)預(yù)測關(guān)鍵特征 237
實訓(xùn)3 構(gòu)建SVR模型 238
課后習(xí)題 238
第9章 餐飲企業(yè)客戶流失預(yù)測 240
任務(wù)9.1 了解餐飲企業(yè)客戶分析需求 241
9.1.1 了解餐飲企業(yè)客戶流失預(yù)測背景 241
9.1.2 認(rèn)識餐飲企業(yè)客戶流失預(yù)測 243
9.1.3 熟悉餐飲企業(yè)客戶流失預(yù)測的步驟與流程 243
任務(wù)9.2 預(yù)處理餐飲企業(yè)數(shù)據(jù) 244
9.2.1 數(shù)據(jù)探索 244
9.2.2 查看重復(fù)值 246
9.2.3 處理異常值 246
9.2.4 處理缺失值 247
9.2.5 構(gòu)建客戶流失特征 248
任務(wù)9.3 使用決策樹算法和支持向量機算法進(jìn)行餐飲企業(yè)客戶流失預(yù)測 250
9.3.1 了解決策樹算法 250
9.3.2 了解支持向量機算法 252
9.3.3 預(yù)測餐飲企業(yè)客戶流失 253
小結(jié) 255
實訓(xùn) 256
實訓(xùn)1 預(yù)處理尺碼信息數(shù)據(jù) 256
實訓(xùn)2 構(gòu)建支持向量機分類模型預(yù)測客戶
服裝尺寸 256
課后習(xí)題 257
第 10章 基于TipDM大數(shù)據(jù)挖掘建模平臺實現(xiàn)客戶流失預(yù)測 259
任務(wù)10.1 了解平臺的相關(guān)概念、特點和功能 260
10.1.1 了解平臺的界面、訪問方式和特點 260
10.1.2 了解“實訓(xùn)庫”模塊的功能 261
10.1.3 了解“數(shù)據(jù)連接”模塊的功能 261
10.1.4 了解“實訓(xùn)數(shù)據(jù)”模塊的功能 262
10.1.5 了解“我的實訓(xùn)”模塊的功能 262
10.1.6 了解“系統(tǒng)算法”模塊的功能 263
10.1.7 了解“個人算法”模塊的功能 265
任務(wù)10.2 使用平臺實現(xiàn)客戶流失預(yù)測 265
10.2.1 掌握使用平臺配置客戶流失預(yù)測案例的步驟和流程 265
10.2.2 數(shù)據(jù)源配置 266
10.2.3 數(shù)據(jù)預(yù)處理 268
10.2.4 構(gòu)建模型 273
小結(jié) 275
實訓(xùn) 275
實訓(xùn) 預(yù)測客戶服裝尺寸 275
課后習(xí)題 276