大數(shù)據(jù)分析原理和應(yīng)用
定 價(jià):59 元
- 作者:海沫
- 出版時(shí)間:2023/4/1
- ISBN:9787121453113
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP274
- 頁(yè)碼:248
- 紙張:
- 版次:01
- 開本:16開
本書從大數(shù)據(jù)分析的原理、技術(shù)和應(yīng)用的角度,圍繞著大數(shù)據(jù)分析的基礎(chǔ)知識(shí)、大數(shù)據(jù)分析平臺(tái)的核心原理、大數(shù)據(jù)分析的關(guān)鍵技術(shù)、大數(shù)據(jù)分析的應(yīng)用四個(gè)方面進(jìn)行講述,使學(xué)生能掌握大數(shù)據(jù)分析的基本原理和核心技術(shù),同時(shí)通過(guò)大數(shù)據(jù)分析在上市公司信用風(fēng)險(xiǎn)預(yù)測(cè)研究中的應(yīng)用案例使學(xué)生熟悉大數(shù)據(jù)分析的原理和技術(shù)的實(shí)際應(yīng)用,并能搭建大數(shù)據(jù)分析平臺(tái)分析大規(guī)模數(shù)據(jù)集。其中,大數(shù)據(jù)分析的基礎(chǔ)知識(shí)包括:大數(shù)據(jù)產(chǎn)生的背景、大數(shù)據(jù)的概念、特點(diǎn)、價(jià)值、大數(shù)據(jù)帶來(lái)的思維變革;大數(shù)據(jù)分析平臺(tái)的核心原理包括:兩種常用開源大數(shù)據(jù)分析平臺(tái)——Hadoop和Spark的起源、發(fā)展及應(yīng)用現(xiàn)狀,理解兩種平臺(tái)各自的體系架構(gòu)、基本運(yùn)行機(jī)制及適用范圍,掌握其安裝部署過(guò)程及基本使用方法,為大數(shù)據(jù)分析的應(yīng)用打下基礎(chǔ);大數(shù)據(jù)分析的關(guān)鍵技術(shù)包括:Hadoop分布式文件系統(tǒng)、MapReduce并行編程模型、Hadoop 2.0的資源管理調(diào)度框架——YARN、大數(shù)據(jù)的獲取和預(yù)處理、大數(shù)據(jù)的聚類和分類算法。
海沫,博士。中央財(cái)經(jīng)大學(xué)信息學(xué)院副教授,碩士生導(dǎo)師,校級(jí)精品慕課《大數(shù)據(jù)分析原理與應(yīng)用》負(fù)責(zé)人,CCF高級(jí)會(huì)員。2008年7月畢業(yè)于中科院計(jì)算所,獲工學(xué)博士學(xué)位。2013年獲北京市青年英才計(jì)劃資助。2017年9月至2018年9月在美國(guó)加州大學(xué)爾灣分校Donald Bren School of Information and Computer Science訪學(xué)。主要從事對(duì)等網(wǎng)絡(luò)、分布式算法、大數(shù)據(jù)處理、社交網(wǎng)絡(luò)分析、區(qū)塊鏈網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)等領(lǐng)域的研究,在國(guó)內(nèi)外核心期刊和國(guó)際會(huì)議上發(fā)表學(xué)術(shù)論文60余篇。近年來(lái)積極探索教學(xué)改革,主持或參與教改項(xiàng)目5項(xiàng),發(fā)表教改論文5篇,參編教材3部。
第4章 MapReduce并行編程模型 83
4.1 MapReduce的概述 83
4.1.1 分布式并行編程 83
4.1.2 MapReduce的簡(jiǎn)介 84
4.1.3 Map函數(shù)和Reduce函數(shù) 86
4.2 MapReduce的體系結(jié)構(gòu) 87
4.2.1 MapReduce 1.0體系結(jié)構(gòu)的總體框架 87
4.2.2 Hadoop 2.0的體系結(jié)構(gòu) 88
4.2.3 MapReduce的容錯(cuò)性 89
4.3 MapReduce的工作流程 89
4.3.1 MapReduce工作流程的概述 89
4.3.2 MapReduce的執(zhí)行過(guò)程 90
4.3.3 Shuffle過(guò)程詳解 93
4.4 MapReduce的實(shí)例分析 99
4.4.1 WordCount 99
4.4.2 倒排索引 102
4.4.3 Top-K 106
4.5 MapReduce的編程實(shí)踐 107
4.5.1 任務(wù)要求 107
4.5.2 編寫Map處理邏輯 107
4.5.3 編寫Reduce處理邏輯 108
4.5.4 編寫main方法 109
4.5.5 實(shí)驗(yàn)過(guò)程 109
4.6 MapReduce的優(yōu)缺點(diǎn)分析 113
4.6.1 MapReduce的優(yōu)點(diǎn) 113
4.6.2 MapReduce的缺點(diǎn) 113
4.7 本章小結(jié) 114
4.8 本章習(xí)題 114
第5章 Hadoop 2.0的資源管理調(diào)度框架——YARN 117
5.1 YARN的產(chǎn)生背景 117
5.1.1 MapReduce 1.0中存在的問(wèn)題 117
5.1.2 YARN的產(chǎn)生 118
5.2 YARN的設(shè)計(jì)思路 119
5.3 YARN的體系結(jié)構(gòu) 120
5.3.1 YARN的體系結(jié)構(gòu)總體框架 120
5.3.2 YARN各組件功能的介紹 121
5.3.3 YARN的容錯(cuò)性 122
5.4 YARN的工作流程 123
5.5 YARN的優(yōu)缺點(diǎn)分析 124
5.5.1 YARN的優(yōu)點(diǎn) 124
5.5.2 YARN的缺點(diǎn) 126
5.6 本章小結(jié) 126
5.7 本章習(xí)題 127
第6章 大數(shù)據(jù)的獲取和預(yù)處理 130
6.1 大數(shù)據(jù)的獲取 130
6.1.1 爬蟲的基礎(chǔ)知識(shí) 130
6.1.2 Scrapy爬蟲的原理與流程 139
6.1.3 Scrapy的爬蟲實(shí)例 141
6.2 數(shù)據(jù)清洗 146
6.2.1 數(shù)據(jù)清洗的概述 146
6.2.2 數(shù)據(jù)清洗的原理 146
6.2.3 數(shù)據(jù)清洗的流程 147
6.2.4 Pandas數(shù)據(jù)清洗的實(shí)例 148
6.3 數(shù)據(jù)歸約 153
6.3.1 維歸約 154
6.3.2 屬性選擇 154
6.3.3 離散化方法 155
6.3.4 PCA的實(shí)例 155
6.4 數(shù)據(jù)標(biāo)準(zhǔn)化 158
6.4.1 數(shù)據(jù)標(biāo)準(zhǔn)化的概念 158
6.4.2 數(shù)據(jù)標(biāo)準(zhǔn)化的方法 158
6.4.3 數(shù)據(jù)標(biāo)準(zhǔn)化的實(shí)例 159
6.5 本章小結(jié) 161
6.6 習(xí)題 162
第7章 大數(shù)據(jù)分析算法 163
7.1 聚類算法 163
7.1.1 經(jīng)典聚類算法 163
7.1.2 大數(shù)據(jù)聚類算法的應(yīng)用 184
7.2 分類算法 188
7.2.1 經(jīng)典分類算法 188
7.2.2 大數(shù)據(jù)分類算法的應(yīng)用 215
7.3 本章小結(jié) 219
7.4 習(xí)題 220
第8章 大數(shù)據(jù)分析的應(yīng)用案例 221
8.1 案例背景 221
8.2 數(shù)據(jù)獲取和預(yù)處理 222
8.2.1 獲取來(lái)源 222
8.2.2 數(shù)據(jù)說(shuō)明 222
8.2.3 數(shù)據(jù)預(yù)處理 223
8.3 評(píng)價(jià)指標(biāo)說(shuō)明 226
8.4 基于Python的實(shí)現(xiàn) 227
8.4.1 基于Python的邏輯回歸 227
8.4.2 基于Python的SVM 229
8.4.3 基于Python的樸素貝葉斯 231
8.4.4 基于Python的決策樹 232
8.4.5 基于Python的隨機(jī)森林 234
8.5 基于Spark的實(shí)現(xiàn) 236
8.5.1 基于Spark的邏輯回歸 236
8.5.2 基于Spark的SVM 237
8.6 實(shí)驗(yàn)結(jié)果分析 238
8.7 本章小結(jié) 239
8.8 習(xí)題 239