定 價:42 元
叢書名:工業(yè)和信息化精品系列教材——大數(shù)據(jù)技術
- 作者:于麗娜李瑋左楠
- 出版時間:2024/3/1
- ISBN:9787115620965
- 出 版 社:人民郵電出版社
- 中圖法分類:TP274
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:128開
本書依托一個大數(shù)據(jù)綜合項目—電影市場的預測,按照大數(shù)據(jù)技術在該項目開發(fā)中的應用過程,將本書內容分為10個工作任務,包括初識Hadoop、搭建Hadoop集群、數(shù)據(jù)上傳、配置Hadoop高可用、數(shù)據(jù)清洗、使用MapReduce統(tǒng)計電影上映情況與排序、數(shù)據(jù)建倉、數(shù)據(jù)分析、數(shù)據(jù)遷移和數(shù)據(jù)可視化。書中的具體工作任務有助于讀者綜合運用大數(shù)據(jù)知識及各種工具軟件,實現(xiàn)大數(shù)據(jù)項目整體過程的操作。
本書附有配套資源,包括源代碼、教學設計、教學課件等。
本書可作為高等院校本、?拼髷(shù)據(jù)相關專業(yè)的教材,也可供大數(shù)據(jù)相關從業(yè)人員參考。
本書是作者將軟件公司任職時的項目開發(fā)與職業(yè)院校多年教學經(jīng)驗的總結。與目前市面上的大部分大數(shù)據(jù)技術相關圖書相比,本書通過一個項目的完整實現(xiàn)過程,展示了大數(shù)據(jù)各技術的應用過程,更側重對學生實操性的指導
劉志勇,研究生學歷,高級工程師,河北工業(yè)職業(yè)技術大學骨干教師,主要研究方向是裝備信息化、大數(shù)據(jù)及其應用,教授:大數(shù)據(jù)導論、大數(shù)據(jù)存儲與管理、大數(shù)據(jù)處理與分析等課程,出版教材兩部,包括《大數(shù)據(jù)存儲》《武器裝備供應商關系管理》和《預先維修理論與技術》。
工作任務1
初識Hadoop 1
任務概述 1
學習目標 1
任務1.1 了解大數(shù)據(jù) 1
【知識鏈接】 1
1.1.1 什么是大數(shù)據(jù) 1
1.1.2 大數(shù)據(jù)的特征 2
1.1.3 研究大數(shù)據(jù)的意義 3
任務1.2 了解大數(shù)據(jù)的應用場景 4
【知識鏈接】 4
1.2.1 醫(yī)療行業(yè)的應用 4
1.2.2 金融行業(yè)的應用 5
1.2.3 零售行業(yè)的應用 5
任務1.3 了解Hadoop 6
【知識鏈接】 6
1.3.1 Hadoop的發(fā)展歷程 6
1.3.2 Hadoop的優(yōu)勢 7
1.3.3 Hadoop的生態(tài)體系 8
1.3.4 Hadoop的版本 10
任務小結 12
課后習題 12
相關閱讀—“第七次全國人口普查”中的
大數(shù)據(jù)技術應用 13
工作任務2
搭建Hadoop集群 14
任務概述 14
學習目標 14
預備知識—集群和虛擬機 14
任務2.1 安裝虛擬機 16
【任務描述】 16
【知識鏈接】 16
2.1.1 VMware軟件 16
2.1.2 Linux操作系統(tǒng) 16
2.1.3 Hadoop集群 17
【任務實施】 17
任務2.2 克隆虛擬機 23
【任務描述】 23
【知識鏈接】 23
2.2.1 克隆和備份的區(qū)別 23
2.2.2 VMware的克隆類型 24
【任務實施】 24
任務2.3 網(wǎng)絡配置 25
【任務描述】 25
【知識鏈接】 26
【任務實施】 26
任務2.4 SSH服務配置 29
【任務描述】 29
【知識鏈接】 29
【任務實施】 29
任務2.5 Hadoop集群搭建 32
【任務描述】 32
【知識鏈接】 32
【任務實施】 32
任務小結 37
課后習題 38
相關閱讀—名副其實的“網(wǎng)絡大國” 39
工作任務3
數(shù)據(jù)上傳 40
任務概述 40
學習目標 40
預備知識—HDFS概述 40
任務3.1 使用Shell命令將電影數(shù)據(jù)上傳
到Hadoop 42
【任務描述】 42
【知識鏈接】 42
3.1.1 HDFS架構組成 42
3.1.2 HDFS的Shell操作 43
【任務實施】 45
任務3.2 使用Java API上傳電影數(shù)據(jù) 46
【任務描述】 46
【知識鏈接】 46
3.2.1 HDFS寫數(shù)據(jù)流程 46
3.2.2 HDFS讀數(shù)據(jù)流程 47
3.2.3 NameNode和Secondary
NameNode工作機制 47
3.2.4 DataNode工作機制 49
【任務實施】 49
任務小結 51
課后習題 51
相關閱讀—根服務器 52
工作任務4
配置Hadoop高可用 53
任務概述 53
學習目標 53
預備知識—服務器的可用性和高可用性 53
任務4.1 配置ZooKeeper集群 54
【任務描述】 54
【知識鏈接】 54
4.1.1 Hadoop中的單點故障 54
4.1.2 ZooKeeper組件 54
【任務實施】 55
任務4.2 配置HDFS-HA集群 57
【任務描述】 57
【知識鏈接】 57
【任務實施】 58
任務4.3 配置HDFS-HA集群自動故障
轉移 61
【任務描述】 61
【知識鏈接】 61
4.3.1 自動故障轉移機制概述 61
4.3.2 ZKFC 62
【任務實施】 63
任務小結 64
課后習題 65
相關閱讀—航天裝備的高可用 65
工作任務5
數(shù)據(jù)清洗 66
任務概述 66
學習目標 66
預備知識—數(shù)據(jù)清洗概述 66
任務5.1 清洗電影數(shù)據(jù) 67
【任務描述】 67
【知識鏈接】 67
5.1.1 MapReduce組件 67
5.1.2 MapReduce編程思想 68
5.1.3 Hadoop序列化 70
【任務實施】 71
任務5.2 數(shù)據(jù)分區(qū) 78
【任務描述】 78
【知識鏈接】 78
5.2.1 切片與MapTask并行度決定
機制 78
5.2.2 MapReduce工作流程 79
【任務實施】 81
任務小結 82
課后習題 82
相關閱讀—深度學習開源平臺飛槳 83
工作任務6
使用MapReduce統(tǒng)計電影上映情況與排序 84
任務概述 84
學習目標 84
預備知識—數(shù)據(jù)統(tǒng)計概述 84
任務6.1 統(tǒng)計每部電影上映的次數(shù) 85
【任務描述】 85
【任務實施】 85
任務6.2 統(tǒng)計每部電影的上映天數(shù)和平均
票房 88
【任務描述】 88
【任務實施】 88
任務6.3 按平均票房降序排列 90
【任務描述】 90
【任務實施】 91
任務小結 94
課后習題 94
相關閱讀—許寶?J,中國統(tǒng)計學家的
先驅 94
工作任務7
數(shù)據(jù)建倉 96
任務概述 96
學習目標 96
預備知識—數(shù)據(jù)庫與數(shù)據(jù)倉庫 96
任務7.1 安裝與配置Hive 97
【任務描述】 97
【知識鏈接】 97
7.1.1 Hive概述 97
7.1.2 Hive和數(shù)據(jù)庫比較 98
7.1.3 Hive架構原理 99
【任務實施】 101
任務7.2 將元數(shù)據(jù)遷移到MySQL 101
【任務描述】 101
【任務實施】 102
任務7.3 使用Hive進行數(shù)據(jù)建倉 104
【任務描述】 104
【知識鏈接】 104
7.3.1 HQL的數(shù)據(jù)類型 104
7.3.2 HQL的數(shù)據(jù)定義語言 106
7.3.3 HQL的數(shù)據(jù)操作語言 109
【任務實施】 110
任務小結 111
課后習題 111
相關閱讀—數(shù)據(jù)庫泄露 111
工作任務8
數(shù)據(jù)分析 112
任務概述 112
學習目標 112
預備知識—數(shù)據(jù)分析概述 112
任務8.1 查詢某年全年電影數(shù)據(jù) 113
【任務描述】 113
【知識鏈接】 113
8.1.1 Hive數(shù)據(jù)導出 113
8.1.2 Hive查詢 113
【任務實施】 120
任務8.2 統(tǒng)計周平均票房 121
【任務描述】 121
【知識鏈接】 121
【任務實施】 121
任務8.3 統(tǒng)計北京和上海某年一季度票房
收入 122
【任務描述】 122
【任務實施】 122
任務小結 127
課后習題 127
相關閱讀—誠信意識 127
工作任務9
數(shù)據(jù)遷移 128
任務概述 128
學習目標 128
預備知識—數(shù)據(jù)遷移概述 128
任務9.1 安裝和配置Sqoop 129
【任務描述】 129
【知識鏈接】 129
【任務實施】 130
任務9.2 遷移清洗后的電影數(shù)據(jù) 131
【任務描述】 131
【知識鏈接】 131
9.2.1 導入數(shù)據(jù) 131
9.2.2 導出數(shù)據(jù) 133
【任務實施】 133
任務9.3 遷移日平均票房數(shù)據(jù) 134
【任務描述】 134
【任務實施】 134
任務9.4 遷移周平均票房數(shù)據(jù) 135
【任務描述】 135
【任務實施】 135
任務9.5 遷移北京和上海某年一季度票房
數(shù)據(jù) 136
【任務描述】 136
【任務實施】 136
任務小結 137
課后習題 137
相關閱讀—刪庫事件 138
工作任務10
數(shù)據(jù)可視化 139
任務概述 139
學習目標 139
預備知識—數(shù)據(jù)可視化概述 139
任務10.1 使用Spring Boot搭建Web
系統(tǒng) 140
【任務描述】 140
【任務實施】 140
任務10.2 顯示全部電影數(shù)據(jù) 143
【任務描述】 143
【任務實施】 144
任務10.3 使用柱狀圖顯示電影的日平均
票房 146
【任務描述】 146
【任務實施】 146
任務10.4 使用餅圖顯示電影的周平均
票房 150
【任務描述】 150
【任務實施】 150
任務10.5 使用折線圖顯示北京和上海
某年一季度電影票房走勢 153
【任務描述】 153
【任務實施】 153
任務小結 157
課后習題 157
相關閱讀—中華人民共和國2022年國民
經(jīng)濟和社會發(fā)展統(tǒng)計公報 158