實戰(zhàn)大數據(Hadoop+Spark+Flink)——從平臺構建到交互式數據分析(離線/實時)
定 價:99 元
- 作者:楊俊
- 出版時間:2021/6/1
- ISBN:9787111679660
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:236
- 紙張:
- 版次:
- 開本:16開
《實戰(zhàn)大數據(Hadoop+Spark+Flink)——從平臺構建到交互式數據分析(離線/實時)》詳細介紹了大數據工程師在實際工作中應該熟練掌握的大數據技術。全書共8章,分別是大數據技術概述、搭建IDEA開發(fā)環(huán)境及Linux虛擬機、基于Hadoop構建大數據平臺、基于HBase和Kafka構建海量數據存儲與交換系統(tǒng)、用戶行為離線分析—構建日志采集和分析平臺、基于Spark的用戶行為實時分析、基于Flink的用戶行為實時分析、用戶行為數據可視化。本書以一個完整的大數據項目為主線,涵蓋Hadoop、Spark、Flink等主流大數據技術,按照大數據工程師的項目開發(fā)流程,理論與實踐結合,逐步推進,使讀者在學習大數據核心技術的同時,也能掌握開發(fā)大數據項目的完整流程,從而獲得大數據項目開發(fā)經驗。
《實戰(zhàn)大數據(Hadoop+Spark+Flink)——從平臺構建到交互式數據分析(離線/實時)》既可以作為大數據工程師的必備開發(fā)手冊,也可以作為高校大數據及相關專業(yè)的教材或實驗手冊。
目錄
前言
第1章 大數據技術概述1
1.1 什么是大數據1
1.2 大數據平臺架構1
1.2.1 數據獲取2
1.2.2 數據存儲2
1.2.3 數據處理3
1.2.4 交互式分析3
1.2.5 機器學習與數據挖掘4
1.2.6 資源管理4
1.3 大數據工程師的技能樹4
1.3.1 大數據主流開發(fā)語言5
1.3.2 大數據平臺的構建5
1.3.3 大數據采集5
1.3.4 大數據存儲與交換5
1.3.5 大數據離線計算5
1.3.6 大數據實時計算6
1.4 大數據項目需求分析與設計6
1.4.1 項目需求分析6
1.4.2 系統(tǒng)架構設計7
1.4.3 離線和實時計算數據流程設計8
1.4.4 大數據平臺規(guī)劃8
1.5 本章小結9
第2章 搭建IDEA開發(fā)環(huán)境及Linux
虛擬機10
2.1 搭建IDEA開發(fā)環(huán)境10
2.1.1 JDK 的安裝與配置10
2.1.2 Maven 的安裝與配置12
2.1.3 IDEA 的安裝與配置13
2.1.4 使用IDEA構建Maven項目17
2.2 搭建Linux虛擬機19
2.2.1 安裝Linux系統(tǒng)19
2.2.2 配置Linux靜態(tài)IP19
2.2.3 Linux主機名和IP映射20
2.2.4 關閉Linux防火墻20
2.2.5 創(chuàng)建Linux用戶和用戶組20
2.2.6 Linux SSH免密登錄21
2.3 本章小結22
第3章 基于Hadoop構建大數據
平臺23
3.1 Zookeeper分布式協(xié)調服務23
3.1.1 Zookeeper架構設計及原理23
3.1.2 Zookeeper集群安裝前的準備
工作26
3.1.3 Zookeeper集群的安裝部署29
3.1.4 Zookeeper shell的操作32
3.2 HDFS分布式文件系統(tǒng)34
3.2.1 HDFS架構設計及原理34
3.2.2 HDFS的高可用(HA)42
3.2.3 HDFS聯邦機制44
3.3 YARN資源管理系統(tǒng)44
3.3.1 YARN架構設計及原理45
3.3.2 MapReduce on YARN工作流程48
3.3.3 YARN的容錯性49
3.3.4 YARN的高可用(HA)49
3.3.5 YARN的調度器及使用50
3.4 Hadoop分布式集群的構建53
3.4.1 HDFS分布式集群的構建53
3.4.2 YARN分布式集群的構建58
3.4.3 Hadoop集群運行測試61
3.4.4 Hadoop集群調優(yōu)62
3.5 MapReduce分布式計算框架64
3.5.1 MapReduce概述64
3.5.2 MapReduce編程模型67
3.5.3 MapReduce應用示例68
3.5.4 WordCount代碼實現70
3.6 本章小結72
第4章 基于HBase和Kafka構建
海量數據存儲與交換系統(tǒng)73
4.1 構建HBase分布式實時
數據庫73
4.1.1 HBase概述73
4.1.2 HBase架構設計76
4.1.3 HBase分布式集群的構建78
4.1.4 HBase性能調優(yōu)82
4.1.5 HBase新聞業(yè)務表建模86
4.2 搭建Kafka分布式消息系統(tǒng)86
4.2.1 Kafka概述86
4.2.2 Kafka架構設計87
4.2.3 Kafka分布式集群的構建89
4.2.4 Kafka集群監(jiān)控92
4.3 本章小結94
第5章 用戶行為離線分析——構建
日志采集和分析平臺95
5.1 搭建Flume日志采集系統(tǒng)95
5.1.1 Flume概述95
5.1.2 Flume架構設計96
5.1.3 Flume環(huán)境的搭建98
5.1.4 構建Flume集群100
5.2 使用Flume采集用戶行為
數據102
5.2.1 Flume與Kafka集成102
5.2.2 Flume與HBase集成104
5.2.3 Flume與Kafka、HBase集成109
5.3 基于Hive的離線大數據分析112
5.3.1 Hive概述112
5.3.2 Hive架構設計112
5.3.3 Hive的安裝部署117
5.3.4 Hive在大數據倉庫中的應用120
5.3.5 Hive與HBase集成121
5.4 基于Hive 的用戶行為數據
離線分析122
5.4.1 離線項目架構設計122
5.4.2 用戶行為離線分析123
5.5 本章小結126
第6章 基于Spark的用戶行為實時
分析127
6.1 Spark快速入門127
6.1.1 Spark概述127
6.1.2 Spark的最簡安裝128
6.1.3 Spark實現WordCount129
6.2 Spark Core的核心功能131
6.2.1 Spark架構的原理131
6.2.2 彈性分布式數據集RDD132
6.2.3 Spark 算子133
6.2.4 Pair RDD及算子135
6.3 Spark分布式集群的構建135
6.3.1 Spark的運行模式135
6.3.2 Standalone模式集群的構建136
6.3.3 Spark on YARN模式集群的
構建139
6.4 基于Spark Streaming的新聞
項目實時分析140
6.4.1 Spark Streaming概述140
6.4.2 Spark Streaming的運行原理141
6.4.3 Spark Streaming編程模型142
6.4.4 Spark Streaming實時分析用戶
行為144
6.5 基于Spark SQL的新聞項目
離線分析157
6.5.1 Spark SQL架構的原理157
6.5.2 Spark SQL與Hive、MySQL、
HBase集成158
6.5.3 Spark SQL用戶行為離線分析162
6.6 基于Spark Structured Streaming
的新聞項目實時分析167
6.6.1 Structured Streaming概述167
6.6.2 Structured Streaming編程模型168
6.6.3 基于Structured Streaming的用戶
行為實時分析168
6.7 本章小結173
第7章 基于Flink的用戶行為實時
分析174
7.1 Flink快速入門174
7.1.1 Flink概述174
7.1.2 Flink的最簡安裝176
7.1.3 Flink實現WordCount177
7.2 Flink分布式集群的構建181
7.2.1 Flink的運行模式181
7.2.2 Flink Standalone模式集群的
構建181
7.2.3 Flink on YARN模式集群的構建184
7.3 基于Flink DataStream的新聞
項目實時分析187
7.3.1 Flink DataStream概述187
7.3.2 Flink DataStream 編程模型188
7.3.3 Flink DataStream用戶行為實時
分析190
7.4 基于Flink DataSet的新聞項目
離線分析198
7.4.1 Flink DataSet的運行原理198
7.4.2 Flink DataSet 編程模型199
7.4.3 Flink DataSet用戶行為離線
分析200
7.5 本章小結205
第8章 用戶行為數據可視化206
8.1 構建Java Web系統(tǒng)查詢用戶
行為206
8.1.1 基于Java Web的系統(tǒng)架構206
8.1.2 構建并部署Java Web項目208
8.1.3 用戶行為查詢代碼開發(fā)217
8.2 用戶行為數據展示與分析229
8.2.1 項目打包發(fā)布229
8.2.2 項目整體聯調231
8.2.3 數據大屏展示與用戶行為分析235
8.3 本章小結236