本書從大數(shù)據(jù)的概念和特征開始講起,首先讓讀者對大數(shù)據(jù)有一個(gè)感性的認(rèn)識;然后結(jié)合大數(shù)據(jù)平臺的各個(gè)模塊,詳細(xì)介紹了大數(shù)據(jù)的存儲、處理、分析、可視化等方面的原理和操作;最后介紹了大數(shù)據(jù)在各行業(yè)中的應(yīng)用,讓讀者更加充分地感受到大數(shù)據(jù)技術(shù)的優(yōu)勢,以及大數(shù)據(jù)應(yīng)用的價(jià)值。 本書適合高等院校相關(guān)專業(yè)的學(xué)生使用,也適合參加大數(shù)據(jù)技術(shù)培訓(xùn)課程的人員使用,還可以作為從事ICT行業(yè)相關(guān)工作的人員和大數(shù)據(jù)技術(shù)愛好者的參考書。
1.淺入深出地介紹基礎(chǔ)理論,易于讀者學(xué)習(xí)、理解和掌握,保障基礎(chǔ)讀者無障礙理解。
2.本書的大綱結(jié)構(gòu)和文字描述由業(yè)內(nèi)專家執(zhí)筆,且內(nèi)容經(jīng)過多方專家反復(fù)論證推敲,力求嚴(yán)謹(jǐn)準(zhǔn)確。
3.摒棄了以清單羅列知識點(diǎn)的生硬做法,按照大數(shù)據(jù)處理平臺、關(guān)鍵技術(shù)、計(jì)算框架、使用工具、應(yīng)用案例的順序展開,以大數(shù)據(jù)技術(shù)的基本理論為起點(diǎn),逐漸深入介紹常用技術(shù)。
4.內(nèi)容完整性經(jīng)過反復(fù)推敲,涵蓋具有級職稱的讀者應(yīng)該掌握的技術(shù)知識。
5.以大數(shù)據(jù)技術(shù)、軟件、框架為模塊,逐步深入,介紹相關(guān)理論和應(yīng)用。
6.結(jié)合實(shí)際應(yīng)用,引用大數(shù)據(jù)在金融、電信、制造業(yè)、能源、醫(yī)療等行業(yè)的應(yīng)用案例,加深讀者的理解。
7.各章配有學(xué)習(xí)目標(biāo)、總結(jié)、練習(xí)題及其答案,供讀者快速歸納、復(fù)習(xí)和檢驗(yàn)本章所學(xué)內(nèi)容。
8.配套資源豐富,包含實(shí)驗(yàn)手冊、視頻講解、授課課件(PPT)、綜合實(shí)訓(xùn)。
黃史浩
多年的Hadoop大數(shù)據(jù)平臺企業(yè)業(yè)務(wù)應(yīng)用實(shí)踐,具有豐富的Hadoop平臺運(yùn)維,開發(fā)與分析實(shí)戰(zhàn)經(jīng)驗(yàn) 2. 主導(dǎo)過多個(gè)大型大數(shù)據(jù)項(xiàng)目的開發(fā),如維達(dá)國際大數(shù)據(jù)平臺、中國商品進(jìn)出口交易中心ETL日志分析大數(shù)據(jù)平臺 3、多年大數(shù)據(jù)與數(shù)據(jù)挖掘等IT領(lǐng)域技術(shù)培訓(xùn)經(jīng)驗(yàn),豐富的課程設(shè)計(jì)和授課經(jīng)驗(yàn)。
第 1 章 大數(shù)據(jù)概述 0
11 大數(shù)據(jù)的概念與價(jià)值 2
111 大數(shù)據(jù)的基本概念 2
112 大數(shù)據(jù)的來源 4
113 大數(shù)據(jù)的價(jià)值 5
114 挖掘企業(yè)大數(shù)據(jù)價(jià)值的方式 7
12 大數(shù)據(jù)的關(guān)鍵技術(shù) 7
121 大數(shù)據(jù)采集、預(yù)處理、存儲與管理 8
122 大數(shù)據(jù)分析與挖掘 8
123 大數(shù)據(jù)可視化 9
13 大數(shù)據(jù)產(chǎn)業(yè) 9
131 數(shù)據(jù)提供 9
132 技術(shù)提供 10
133 服務(wù)提供 10
14 大數(shù)據(jù)應(yīng)用場景 11
15 本章總結(jié) 11
練習(xí)題 12
第 2 章 Hadoop 大數(shù)據(jù)處理平臺 14
21 Hadoop 平臺概述 16
211 Hadoop 起源及發(fā)展 16
212 Hadoop 特性 17
213 Hadoop 應(yīng)用現(xiàn)狀 17
214 Hadoop 版本及相關(guān)平臺 18
22 Hadoop 生態(tài)系統(tǒng) 18
221 HDFS 和 HBase 18
222 MapReduce 和 YARN 19
223 Hive 20
224 Sqoop 和 Flume 20
225 ZooKeeper 和 Oozie 20
226 Kerberos 和 LDAP 21
227 Impala 和 Solr 21
228 Kafka 21
23 Hadoop 安裝部署 22
231 Hadoop 規(guī)劃部署 22
232 Hadoop 的安裝方式 23
24 華為 FusionInsight HD 安裝部署 27
241 FusionInsight HD 簡介 27
242 FusionInsight HD 集成設(shè)計(jì) 29
243 FusionInsight HD 安裝部署 35
244 FusionInsight HD 重要參數(shù)配置 44
25 本章總結(jié) 45
練習(xí)題 45
第 3 章 HDFS 48
31 概述 50
311 DFS 的概念與作用 51
312 HDFS 概述 51
32 HDFS 的相關(guān)概念 52
321 HDFS 塊 52
322 NameNode 53
323 Secondary NameNode 54
324 DataNode 55
33 HDFS 體系架構(gòu)與原理 56
331 HDFS 體系架構(gòu) 56
332 HDFS 的高可用機(jī)制 56
333 HDFS 的目錄結(jié)構(gòu) 58
334 HDFS 的數(shù)據(jù)讀寫過程 61
34 HDFS 接口及其在 FusionInsight HD 編程中的實(shí)踐 63
341 HDFS 常用的 Shell 命令 63
342 HDFS 的 Web 界面 65
343 HDFS 的 Java API 及應(yīng)用實(shí)例 66
35 本章總結(jié) 72
練習(xí)題 73
第 4 章 MapReduce 和 YARN 76
41 MapReduce 技術(shù)原理 78
411 MapReduce 概述 79
412 Map 函數(shù)與 Reduce 函數(shù) 79
42 YARN 技術(shù)原理 80
421 YARN 的概述與應(yīng)用 80
422 YARN 的架構(gòu) 81
423 MapReduce 的計(jì)算過程 82
424 YARN 的資源調(diào)度 84
43 FusionInsight HD 中 MapReduce 的應(yīng)用 85
431 WordCount 實(shí)例分析 85
432 MapReduce 編程實(shí)踐 86
44 本章總結(jié) 93
練習(xí)題 93
第 5 章 HBase 96
51 HBase 概述與應(yīng)用 98
511 HBase 簡介 98
512 HBase 的特性 99
513 HBase 與關(guān)系數(shù)據(jù)庫的區(qū)別 100
514 HBase 的應(yīng)用場景 100
52 HBase 的架構(gòu)原理 101
521 HBase 的數(shù)據(jù)模型 101
522 表和 Region 102
523 HBase 的系統(tǒng)架構(gòu)與功能組件 103
524 HBase 的讀寫流程 104
525 HBase 的 Compaction 過程 106
53 FusionInsight HD 中 HBase 的編程實(shí)踐 107
531 FusionInsight HD 中 HBase 的常用參數(shù)配置 107
532 HBase 常用的 Shell 命令 109
533 HBase 常用的 Java API 及應(yīng)用實(shí)例 112
54 本章總結(jié) 131
練習(xí)題 131
第 6 章 Hive 134
61 Hive 概述 136
611 Hive 的基本概念及應(yīng)用 136
612 Hive 的特性 137
613 Hive 與傳統(tǒng)數(shù)據(jù)倉庫的區(qū)別 138
62 Hive 的架構(gòu)和數(shù)據(jù)存儲 138
621 Hive 的架構(gòu)原理 139
622 Hive 的數(shù)據(jù)存儲模型 141
623 HiveQL 編程 142
63 FusionInsight HD 中 Hive 的應(yīng)用實(shí)踐 148
631 FusionInsight HD 中 Hive 的常用參數(shù)配置 148
632 加載數(shù)據(jù)到 Hive 149
633 使用 HiveQL 進(jìn)行數(shù)據(jù)分析 151
64 本章總結(jié) 156
練習(xí)題 156
第 7 章 Sqoop 和 Loader 158
71 Sqoop 概述 160
711 Sqoop 簡介與應(yīng)用 161
712 Sqoop 的功能與特性 161
713 Sqoop 與傳統(tǒng) ETL 的區(qū)別 162
72 FusionInsight HD 中 Loader 的應(yīng)用實(shí)踐 162
721 FusionInsight HD 中 Loader 與 Sqoop 的對比 163
722 FusionInsight HD 中 Loader 的參數(shù)配置 164
723 使用 Loader 進(jìn)行數(shù)據(jù)轉(zhuǎn)換 165
724 Loader 常用的 Shell 命令 166
725 Loader 應(yīng)用實(shí)踐 168
73 本章總結(jié) 170
練習(xí)題 170
第 8 章 Flume 172
81 Flume 概述 174
811 Flume 簡介 174
812 Flume 的功能與特性 177
813 Flume 與其他主流開源日志收集系統(tǒng)的區(qū)別 178
82 FusionInsight HD 中 Flume 的應(yīng)用實(shí)踐 178
821 FusionInsight HD 中 Flume 的常用參數(shù)配置 179
822 Flume 常用的 Shell 命令 180
823 Flume 與 Kafka 結(jié)合進(jìn)行日志處理 181
83 本章總結(jié) 184
練習(xí)題 185
第 9 章 Spark 186
91 Spark 概述 188
911 Spark 的概述與應(yīng)用 189
912 Scala 語言介紹 190
913 Spark 生態(tài)系統(tǒng)組件 190
914 Spark 與 Hadoop 的對比 191
92 Spark 技術(shù)架構(gòu) 192
921 Spark 的運(yùn)行原理 192
922 RDD 概念與原理 194
923 Spark 的 3 種部署方式 196
924 使用開發(fā)工具測試 Spark 198
93 FusionInsight HD 中 Spark 的應(yīng)用實(shí)踐 199
931 運(yùn)行 Spark Shell 199
932 進(jìn)行 Spark RDD 操作 200
933 使用 Spark 客戶端工具運(yùn)行 Spark 程序 202
94 Spark Streaming 206
941 Spark Streaming 的設(shè)計(jì)思想 206
942 Spark Streaming 的應(yīng)用實(shí)例 206
95 Spark SQL 210
951 Spark SQL 的功能 210
952 FusionInsight HD 中 Spark SQL 的應(yīng)用實(shí)例 210
96 Spark MLlib 212
961 機(jī)器學(xué)習(xí)簡介 212
962 Spark MLlib 的功能 213
97 Spark GraphX 213
971 圖計(jì)算簡介 213
972 Spark GraphX 功能簡介 214
98 本章總結(jié) 214
練習(xí)題 215
第 10 章 大數(shù)據(jù)流計(jì)算 216
101 流計(jì)算概述 218
1011 靜態(tài)數(shù)據(jù)和流數(shù)據(jù)的概念 219
1012 流計(jì)算的概念 219
1013 MapReduce 和流計(jì)算 220
1014 流計(jì)算框架 220
102 流計(jì)算的處理流程 221
1021 數(shù)據(jù)實(shí)時(shí)采集 221
1022 數(shù)據(jù)實(shí)時(shí)計(jì)算 221
1023 數(shù)據(jù)實(shí)時(shí)查詢 222
103 Streaming 流計(jì)算 222
1031 Streaming 簡介 222
1032 Streaming 的特點(diǎn) 225
1033 Streaming 中 FusionInsight HD 的應(yīng)用實(shí)踐 226
1034 Spark Streaming 與 Streaming 的差異 231
104 本章總結(jié) 232
練習(xí)題 233
第 11 章 數(shù)據(jù)可視化 234
111 可視化概述 236
1111 數(shù)據(jù)可視化簡介 237
1112 數(shù)據(jù)可視化的重要性 237
1113 可視化的發(fā)展歷程 238
1114 數(shù)據(jù)可視化的實(shí)現(xiàn)過程 239
112 可視化工具 240
1121 入門級工具(Excel) 240
1122 普通工具(R 語言) 240
1123 高級工具(Tableau 和 QlikView) 241
113 可視化的典型應(yīng)用 241
1131 可視化在醫(yī)學(xué)上的應(yīng)用 241
1132 可視化在工程中的應(yīng)用 242
1133 可視化在互聯(lián)網(wǎng)中的應(yīng)用 243
114 本章總結(jié) 243
練習(xí)題 244
第 12 章 大數(shù)據(jù)行業(yè)應(yīng)用 246
121 大數(shù)據(jù)在金融行業(yè)中的應(yīng)用 248
122 大數(shù)據(jù)在電信行業(yè)中的應(yīng)用 250
123 大數(shù)據(jù)在互聯(lián)網(wǎng)行業(yè)中的應(yīng)用 253
124 本章總結(jié) 254
練習(xí)題 255
術(shù)語表 256
參考文獻(xiàn) 268