大數(shù)據(jù)應(yīng)用技術(shù)與實(shí)踐(微課版)
定 價(jià):42 元
叢書名:工業(yè)和信息化精品系列教材——大數(shù)據(jù)技術(shù)
- 作者:于麗娜李瑋左楠
- 出版時(shí)間:2024/3/1
- ISBN:9787115620965
- 出 版 社:人民郵電出版社
- 中圖法分類:TP274
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:128開
本書依托一個(gè)大數(shù)據(jù)綜合項(xiàng)目—電影市場的預(yù)測,按照大數(shù)據(jù)技術(shù)在該項(xiàng)目開發(fā)中的應(yīng)用過程,將本書內(nèi)容分為10個(gè)工作任務(wù),包括初識Hadoop、搭建Hadoop集群、數(shù)據(jù)上傳、配置Hadoop高可用、數(shù)據(jù)清洗、使用MapReduce統(tǒng)計(jì)電影上映情況與排序、數(shù)據(jù)建倉、數(shù)據(jù)分析、數(shù)據(jù)遷移和數(shù)據(jù)可視化。書中的具體工作任務(wù)有助于讀者綜合運(yùn)用大數(shù)據(jù)知識及各種工具軟件,實(shí)現(xiàn)大數(shù)據(jù)項(xiàng)目整體過程的操作。
本書附有配套資源,包括源代碼、教學(xué)設(shè)計(jì)、教學(xué)課件等。
本書可作為高等院校本、?拼髷(shù)據(jù)相關(guān)專業(yè)的教材,也可供大數(shù)據(jù)相關(guān)從業(yè)人員參考。
本書是作者將軟件公司任職時(shí)的項(xiàng)目開發(fā)與職業(yè)院校多年教學(xué)經(jīng)驗(yàn)的總結(jié)。與目前市面上的大部分大數(shù)據(jù)技術(shù)相關(guān)圖書相比,本書通過一個(gè)項(xiàng)目的完整實(shí)現(xiàn)過程,展示了大數(shù)據(jù)各技術(shù)的應(yīng)用過程,更側(cè)重對學(xué)生實(shí)操性的指導(dǎo)
劉志勇,研究生學(xué)歷,高級工程師,河北工業(yè)職業(yè)技術(shù)大學(xué)骨干教師,主要研究方向是裝備信息化、大數(shù)據(jù)及其應(yīng)用,教授:大數(shù)據(jù)導(dǎo)論、大數(shù)據(jù)存儲與管理、大數(shù)據(jù)處理與分析等課程,出版教材兩部,包括《大數(shù)據(jù)存儲》《武器裝備供應(yīng)商關(guān)系管理》和《預(yù)先維修理論與技術(shù)》。
工作任務(wù)1
初識Hadoop 1
任務(wù)概述 1
學(xué)習(xí)目標(biāo) 1
任務(wù)1.1 了解大數(shù)據(jù) 1
【知識鏈接】 1
1.1.1 什么是大數(shù)據(jù) 1
1.1.2 大數(shù)據(jù)的特征 2
1.1.3 研究大數(shù)據(jù)的意義 3
任務(wù)1.2 了解大數(shù)據(jù)的應(yīng)用場景 4
【知識鏈接】 4
1.2.1 醫(yī)療行業(yè)的應(yīng)用 4
1.2.2 金融行業(yè)的應(yīng)用 5
1.2.3 零售行業(yè)的應(yīng)用 5
任務(wù)1.3 了解Hadoop 6
【知識鏈接】 6
1.3.1 Hadoop的發(fā)展歷程 6
1.3.2 Hadoop的優(yōu)勢 7
1.3.3 Hadoop的生態(tài)體系 8
1.3.4 Hadoop的版本 10
任務(wù)小結(jié) 12
課后習(xí)題 12
相關(guān)閱讀—“第七次全國人口普查”中的
大數(shù)據(jù)技術(shù)應(yīng)用 13
工作任務(wù)2
搭建Hadoop集群 14
任務(wù)概述 14
學(xué)習(xí)目標(biāo) 14
預(yù)備知識—集群和虛擬機(jī) 14
任務(wù)2.1 安裝虛擬機(jī) 16
【任務(wù)描述】 16
【知識鏈接】 16
2.1.1 VMware軟件 16
2.1.2 Linux操作系統(tǒng) 16
2.1.3 Hadoop集群 17
【任務(wù)實(shí)施】 17
任務(wù)2.2 克隆虛擬機(jī) 23
【任務(wù)描述】 23
【知識鏈接】 23
2.2.1 克隆和備份的區(qū)別 23
2.2.2 VMware的克隆類型 24
【任務(wù)實(shí)施】 24
任務(wù)2.3 網(wǎng)絡(luò)配置 25
【任務(wù)描述】 25
【知識鏈接】 26
【任務(wù)實(shí)施】 26
任務(wù)2.4 SSH服務(wù)配置 29
【任務(wù)描述】 29
【知識鏈接】 29
【任務(wù)實(shí)施】 29
任務(wù)2.5 Hadoop集群搭建 32
【任務(wù)描述】 32
【知識鏈接】 32
【任務(wù)實(shí)施】 32
任務(wù)小結(jié) 37
課后習(xí)題 38
相關(guān)閱讀—名副其實(shí)的“網(wǎng)絡(luò)大國” 39
工作任務(wù)3
數(shù)據(jù)上傳 40
任務(wù)概述 40
學(xué)習(xí)目標(biāo) 40
預(yù)備知識—HDFS概述 40
任務(wù)3.1 使用Shell命令將電影數(shù)據(jù)上傳
到Hadoop 42
【任務(wù)描述】 42
【知識鏈接】 42
3.1.1 HDFS架構(gòu)組成 42
3.1.2 HDFS的Shell操作 43
【任務(wù)實(shí)施】 45
任務(wù)3.2 使用Java API上傳電影數(shù)據(jù) 46
【任務(wù)描述】 46
【知識鏈接】 46
3.2.1 HDFS寫數(shù)據(jù)流程 46
3.2.2 HDFS讀數(shù)據(jù)流程 47
3.2.3 NameNode和Secondary
NameNode工作機(jī)制 47
3.2.4 DataNode工作機(jī)制 49
【任務(wù)實(shí)施】 49
任務(wù)小結(jié) 51
課后習(xí)題 51
相關(guān)閱讀—根服務(wù)器 52
工作任務(wù)4
配置Hadoop高可用 53
任務(wù)概述 53
學(xué)習(xí)目標(biāo) 53
預(yù)備知識—服務(wù)器的可用性和高可用性 53
任務(wù)4.1 配置ZooKeeper集群 54
【任務(wù)描述】 54
【知識鏈接】 54
4.1.1 Hadoop中的單點(diǎn)故障 54
4.1.2 ZooKeeper組件 54
【任務(wù)實(shí)施】 55
任務(wù)4.2 配置HDFS-HA集群 57
【任務(wù)描述】 57
【知識鏈接】 57
【任務(wù)實(shí)施】 58
任務(wù)4.3 配置HDFS-HA集群自動故障
轉(zhuǎn)移 61
【任務(wù)描述】 61
【知識鏈接】 61
4.3.1 自動故障轉(zhuǎn)移機(jī)制概述 61
4.3.2 ZKFC 62
【任務(wù)實(shí)施】 63
任務(wù)小結(jié) 64
課后習(xí)題 65
相關(guān)閱讀—航天裝備的高可用 65
工作任務(wù)5
數(shù)據(jù)清洗 66
任務(wù)概述 66
學(xué)習(xí)目標(biāo) 66
預(yù)備知識—數(shù)據(jù)清洗概述 66
任務(wù)5.1 清洗電影數(shù)據(jù) 67
【任務(wù)描述】 67
【知識鏈接】 67
5.1.1 MapReduce組件 67
5.1.2 MapReduce編程思想 68
5.1.3 Hadoop序列化 70
【任務(wù)實(shí)施】 71
任務(wù)5.2 數(shù)據(jù)分區(qū) 78
【任務(wù)描述】 78
【知識鏈接】 78
5.2.1 切片與MapTask并行度決定
機(jī)制 78
5.2.2 MapReduce工作流程 79
【任務(wù)實(shí)施】 81
任務(wù)小結(jié) 82
課后習(xí)題 82
相關(guān)閱讀—深度學(xué)習(xí)開源平臺飛槳 83
工作任務(wù)6
使用MapReduce統(tǒng)計(jì)電影上映情況與排序 84
任務(wù)概述 84
學(xué)習(xí)目標(biāo) 84
預(yù)備知識—數(shù)據(jù)統(tǒng)計(jì)概述 84
任務(wù)6.1 統(tǒng)計(jì)每部電影上映的次數(shù) 85
【任務(wù)描述】 85
【任務(wù)實(shí)施】 85
任務(wù)6.2 統(tǒng)計(jì)每部電影的上映天數(shù)和平均
票房 88
【任務(wù)描述】 88
【任務(wù)實(shí)施】 88
任務(wù)6.3 按平均票房降序排列 90
【任務(wù)描述】 90
【任務(wù)實(shí)施】 91
任務(wù)小結(jié) 94
課后習(xí)題 94
相關(guān)閱讀—許寶?J,中國統(tǒng)計(jì)學(xué)家的
先驅(qū) 94
工作任務(wù)7
數(shù)據(jù)建倉 96
任務(wù)概述 96
學(xué)習(xí)目標(biāo) 96
預(yù)備知識—數(shù)據(jù)庫與數(shù)據(jù)倉庫 96
任務(wù)7.1 安裝與配置Hive 97
【任務(wù)描述】 97
【知識鏈接】 97
7.1.1 Hive概述 97
7.1.2 Hive和數(shù)據(jù)庫比較 98
7.1.3 Hive架構(gòu)原理 99
【任務(wù)實(shí)施】 101
任務(wù)7.2 將元數(shù)據(jù)遷移到MySQL 101
【任務(wù)描述】 101
【任務(wù)實(shí)施】 102
任務(wù)7.3 使用Hive進(jìn)行數(shù)據(jù)建倉 104
【任務(wù)描述】 104
【知識鏈接】 104
7.3.1 HQL的數(shù)據(jù)類型 104
7.3.2 HQL的數(shù)據(jù)定義語言 106
7.3.3 HQL的數(shù)據(jù)操作語言 109
【任務(wù)實(shí)施】 110
任務(wù)小結(jié) 111
課后習(xí)題 111
相關(guān)閱讀—數(shù)據(jù)庫泄露 111
工作任務(wù)8
數(shù)據(jù)分析 112
任務(wù)概述 112
學(xué)習(xí)目標(biāo) 112
預(yù)備知識—數(shù)據(jù)分析概述 112
任務(wù)8.1 查詢某年全年電影數(shù)據(jù) 113
【任務(wù)描述】 113
【知識鏈接】 113
8.1.1 Hive數(shù)據(jù)導(dǎo)出 113
8.1.2 Hive查詢 113
【任務(wù)實(shí)施】 120
任務(wù)8.2 統(tǒng)計(jì)周平均票房 121
【任務(wù)描述】 121
【知識鏈接】 121
【任務(wù)實(shí)施】 121
任務(wù)8.3 統(tǒng)計(jì)北京和上海某年一季度票房
收入 122
【任務(wù)描述】 122
【任務(wù)實(shí)施】 122
任務(wù)小結(jié) 127
課后習(xí)題 127
相關(guān)閱讀—誠信意識 127
工作任務(wù)9
數(shù)據(jù)遷移 128
任務(wù)概述 128
學(xué)習(xí)目標(biāo) 128
預(yù)備知識—數(shù)據(jù)遷移概述 128
任務(wù)9.1 安裝和配置Sqoop 129
【任務(wù)描述】 129
【知識鏈接】 129
【任務(wù)實(shí)施】 130
任務(wù)9.2 遷移清洗后的電影數(shù)據(jù) 131
【任務(wù)描述】 131
【知識鏈接】 131
9.2.1 導(dǎo)入數(shù)據(jù) 131
9.2.2 導(dǎo)出數(shù)據(jù) 133
【任務(wù)實(shí)施】 133
任務(wù)9.3 遷移日平均票房數(shù)據(jù) 134
【任務(wù)描述】 134
【任務(wù)實(shí)施】 134
任務(wù)9.4 遷移周平均票房數(shù)據(jù) 135
【任務(wù)描述】 135
【任務(wù)實(shí)施】 135
任務(wù)9.5 遷移北京和上海某年一季度票房
數(shù)據(jù) 136
【任務(wù)描述】 136
【任務(wù)實(shí)施】 136
任務(wù)小結(jié) 137
課后習(xí)題 137
相關(guān)閱讀—刪庫事件 138
工作任務(wù)10
數(shù)據(jù)可視化 139
任務(wù)概述 139
學(xué)習(xí)目標(biāo) 139
預(yù)備知識—數(shù)據(jù)可視化概述 139
任務(wù)10.1 使用Spring Boot搭建Web
系統(tǒng) 140
【任務(wù)描述】 140
【任務(wù)實(shí)施】 140
任務(wù)10.2 顯示全部電影數(shù)據(jù) 143
【任務(wù)描述】 143
【任務(wù)實(shí)施】 144
任務(wù)10.3 使用柱狀圖顯示電影的日平均
票房 146
【任務(wù)描述】 146
【任務(wù)實(shí)施】 146
任務(wù)10.4 使用餅圖顯示電影的周平均
票房 150
【任務(wù)描述】 150
【任務(wù)實(shí)施】 150
任務(wù)10.5 使用折線圖顯示北京和上海
某年一季度電影票房走勢 153
【任務(wù)描述】 153
【任務(wù)實(shí)施】 153
任務(wù)小結(jié) 157
課后習(xí)題 157
相關(guān)閱讀—中華人民共和國2022年國民
經(jīng)濟(jì)和社會發(fā)展統(tǒng)計(jì)公報(bào) 158