大數(shù)據(jù)技術(shù)基礎(chǔ)與實戰(zhàn)
定 價:59.8 元
叢書名:高等學(xué)校信息技術(shù)人才能力培養(yǎng)系列教材
- 作者:薛志東 張雙雙 盧?Z祥 等
- 出版時間:2021/9/1
- ISBN:9787115567192
- 出 版 社:人民郵電出版社
- 中圖法分類:TP274
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:128開
本書從技術(shù)實戰(zhàn)的角度,帶領(lǐng)讀者一步一步掌握大數(shù)據(jù)的相關(guān)技能。本書不僅提供相應(yīng)命令、配置文件,還提供模擬環(huán)境演示等,并盡可能通過案例和實操降低大數(shù)據(jù)學(xué)習(xí)的門檻,力求讓讀者學(xué)以致用。
本書主要內(nèi)容包括大數(shù)據(jù)技術(shù)概述、Linux基礎(chǔ)與集群搭建、Hadoop集群配置、HDFS、MapReduce分布式編程、Hive大數(shù)據(jù)倉庫、HBase數(shù)據(jù)庫部署與操作、數(shù)據(jù)獲取與Flume應(yīng)用、基于Spark的內(nèi)存計算,以及利用大數(shù)據(jù)平臺處理圖像及視頻。
1.全書通過實踐操作講解大數(shù)據(jù)開發(fā)的基礎(chǔ)知識,不僅提供相應(yīng)命令、配置文件,還提供模擬環(huán)境演示等,盡可能通過案例和實操,降低大數(shù)據(jù)學(xué)習(xí)的門檻,力求讓讀者學(xué)以致用。
2.內(nèi)容全:大數(shù)據(jù)技術(shù)概述、Linux基礎(chǔ)與集群搭建、Hadoop集群配置、Hadoop分布式文件系統(tǒng)、MapReduce分布式編程、Hive大數(shù)據(jù)倉庫、HBase數(shù)據(jù)庫部署與操作、數(shù)據(jù)獲取與采集、基于Spark的內(nèi)存計算以及利用大數(shù)據(jù)平臺處理圖像及視頻
薛志東,博士,研究員,現(xiàn)在華中科技大學(xué)軟件學(xué)院工作,長期從事大數(shù)據(jù)相關(guān)教學(xué)與科研工作。先后講授多門本科生、研究生課程,承擔多項國家自然科學(xué)基金、湖北省自然科學(xué)基金、華為技術(shù)公司委托等重要項目。目前的研究主要涉及大數(shù)據(jù)處理相關(guān)領(lǐng)域等,如基于云計算的圖像與視頻等信息處理技術(shù)、醫(yī)學(xué)與生物信息處理與分析、文本挖掘、深度學(xué)習(xí)、GPU開發(fā)等;同時對移動應(yīng)用、康復(fù)游戲、無人機、機器人應(yīng)用軟件開發(fā)等有濃厚的興趣。
第1章 大數(shù)據(jù)技術(shù)概述 1
1.1 大數(shù)據(jù)的概念與基本特性 1
1.2 大數(shù)據(jù)處理流程 2
1.3 Hadoop大數(shù)據(jù)技術(shù) 3
1.3.1 Hadoop簡介 3
1.3.2 Hadoop的發(fā)行版本 5
1.4 實踐環(huán)境準備 7
習(xí)題 15
第2章 Linux基礎(chǔ)與集群搭建 16
2.1 Linux常用命令 16
2.1.1 用戶和用戶組 16
2.1.2 文件與目錄 18
2.1.3 主機名 24
2.1.4 分區(qū)管理 25
2.2 網(wǎng)絡(luò)配置 27
2.2.1 基本網(wǎng)絡(luò)配置 27
2.2.2 集群網(wǎng)絡(luò)配置 28
2.3 Linux集群配置 31
2.3.1 SSH免密碼登錄 31
2.3.2 Java環(huán)境安裝 33
2.3.3 MySQL服務(wù) 34
2.3.4 配置時鐘同步 35
2.4 快速配置Linux集群 37
2.4.1 導(dǎo)入虛擬機 37
2.4.2 快速配置 39
習(xí)題 42
第3章 Hadoop集群配置 43
3.1 Hadoop集群安裝 43
3.1.1 基礎(chǔ)環(huán)境準備 43
3.1.2 配置Java環(huán)境 49
3.1.3 安裝Hadoop 51
3.1.4 啟動Hadoop 58
3.2 Hadoop集群初始化和日志查看 62
3.2.1 初始化文件系統(tǒng) 62
3.2.2 集群的啟動與停止 62
3.2.3 查看日志 63
習(xí)題 64
第4章 HDFS 65
4.1 HDFS簡介 65
4.1.1 HDFS的基本概念 65
4.1.2 HDFS文件的讀取 66
4.1.3 HDFS文件的寫入 67
4.1.4 HDFS 數(shù)據(jù)備份 68
4.2 HDFS基本命令 69
4.3 HDFS數(shù)據(jù)平衡優(yōu)化 72
4.3.1 編程原則 73
4.3.2 平衡邏輯 73
4.3.3 數(shù)據(jù)平衡案例 74
4.4 HDFS API的使用方法 75
習(xí)題 81
第5章 MapReduce分布式編程
82
5.1 MapReduce簡介 82
5.2 詞頻統(tǒng)計編程實例 83
5.3 MapReduce Shuffle過程開發(fā) 89
5.3.1 MapReduce數(shù)據(jù)類型 90
5.3.2 Partitioner負載平衡編程 90
5.3.3 Sort排序編程 92
5.3.4 Combiner減少中間數(shù)據(jù)編程 93
5.4 MapReduce的性能優(yōu)化 94
5.4.1 Hadoop配置參數(shù)調(diào)優(yōu) 94
5.4.2 使用合適的數(shù)據(jù)類型 95
5.4.3 基準性能測試工具 96
5.5 YARN數(shù)據(jù)處理框架 99
5.5.1 YARN常用命令 100
5.5.2 使用Web GUI監(jiān)控實例 102
5.6 MapReduce實戰(zhàn):繪制頻度分布 104
5.6.1 實戰(zhàn)概述 104
5.6.2 實戰(zhàn)步驟 104
5.6.3 源碼分析 109
習(xí)題 114
第6章 Hive大數(shù)據(jù)倉庫 115
6.1 Hive簡介 115
6.2 Hive安裝及配置 116
6.3 從創(chuàng)建數(shù)據(jù)庫到創(chuàng)建表 118
6.3.1 數(shù)據(jù)類型 118
6.3.2 創(chuàng)建數(shù)據(jù)庫 119
6.3.3 創(chuàng)建表 119
6.3.4 刪除表 121
6.3.5 修改表 121
6.4 數(shù)據(jù)查詢及自定義函數(shù)運算 123
6.4.1 HiveQL操作 123
6.4.2 JOIN語句 124
6.4.3 內(nèi)置操作符和函數(shù) 125
6.5 Hive自定義函數(shù)編程 128
6.5.1 數(shù)據(jù)準備 128
6.5.2 編程實現(xiàn) 129
6.5.3 使用自定義函數(shù) 130
6.6 Hive實戰(zhàn) 132
6.6.1 數(shù)據(jù)準備 133
6.6.2 實戰(zhàn)步驟 133
習(xí)題 136
第7章 HBase數(shù)據(jù)庫部署與操作
138
7.1 HBase簡介 138
7.1.1 HBase表 138
7.1.2 HBase基本知識 138
7.2 HBase的安裝 139
7.2.1 必要條件 139
7.2.2 安裝配置HBase 140
7.2.3 啟動HBase 142
7.3 HBase Shell操作 143
7.3.1 普通命令 145
7.3.2 DDL操作 146
7.3.3 DML操作 148
7.3.4 工具命令 150
7.3.5 復(fù)制命令 151
7.4 HBase客戶端API 151
7.4.1 CRUD操作 151
7.4.2 批量處理 155
7.4.3 行鎖 156
7.4.4 掃描 157
7.4.5 數(shù)據(jù)過濾 158
7.5 HBase客戶端選擇及配置優(yōu)化 159
7.6 HBase與MapReduce集成 159
7.7 HBase集群監(jiān)控 160
7.8 HBase實戰(zhàn):公有云網(wǎng)盤系統(tǒng)管理 164
7.8.1 部署公有云網(wǎng)盤 165
7.8.2 網(wǎng)盤核心代碼分析 168
習(xí)題 171
第8章 數(shù)據(jù)獲取與Flume應(yīng)用 172
8.1 公開數(shù)據(jù)資源獲取 172
8.2 使用網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù) 173
8.2.1 爬蟲的工作原理 173
8.2.2 爬蟲的搜索策略 174
8.2.3 爬蟲的簡單應(yīng)用 175
8.3 使用Flume獲取數(shù)據(jù) 177
8.3.1 Flume簡介 177
8.3.2 Flume運行機制 177
8.3.3 Flume安裝部署 179
8.3.4 Flume簡單應(yīng)用 180
8.4 綜合案例 182
習(xí)題 186
第9章 基于Spark的內(nèi)存計算 187
9.1 Spark簡介 187
9.2 Spark快速部署 188
9.2.1 Spark單機模式部署 188
9.2.2 Spark分布式集群部署 189
9.3 Spark程序 192
9.3.1 Spark Shell 192
9.3.2 在IDEA中編寫詞頻統(tǒng)計 193
9.4 Spark RDD編程 197
9.4.1 RDD簡介 197
9.4.2 RDD的操作算子 198
9.4.3 RDD的持久化 204
9.5 Spark生態(tài)系統(tǒng) 205
9.5.1 Spark Core 206
9.5.2 Spark SQL 206
9.5.3 Spark Streaming 206
9.5.4 MLlib 206
9.5.5 GraphX 207
9.6 Spark應(yīng)用案例 207
9.6.1 案例概述 207
9.6.2 代碼實現(xiàn) 208
9.6.3 運行結(jié)果 208
習(xí)題 209
第10章 利用大數(shù)據(jù)平臺處理圖像
210
10.1 圖像的基本概念 210
10.2 Hadoop處理圖像的問題與對策 211
10.2.1 Hadoop直接處理圖像存在
的問題 211
10.2.2 解決途徑 212
10.3 HIPI安裝與部署 212
10.4 使用HIPI進行圖像處理 214
10.5 HIPI工具hibDownload 222
10.5.1 編譯hibDownload 222
10.5.2 hibDownload的使用方法 222
10.5.3 hibDownload的工作原理 222
10.5.4 hibDownload的使用示例 230
習(xí)題 235
參考文獻 236