實戰(zhàn)大數(shù)據(jù)—— 分布式大數(shù)據(jù)分析處理系統(tǒng)開發(fā)與應(yīng)用
定 價:79.9 元
- 作者:井超 楊俊 喬鋼柱
- 出版時間:2023/2/1
- ISBN:9787111720652
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:230
- 紙張:
- 版次:
- 開本:16
實戰(zhàn)大數(shù)據(jù)——分布式大數(shù)據(jù)分析處理系統(tǒng)開發(fā)與應(yīng)用,從大數(shù)據(jù)技術(shù)基礎(chǔ)概念出發(fā),介紹了大數(shù)據(jù)分析的流程和大數(shù)據(jù)分析處理系統(tǒng)的組成,以及大數(shù)據(jù)集群的搭建,并在此基礎(chǔ)上講解了多種不同技術(shù)構(gòu)成的離線/實時數(shù)據(jù)分析系統(tǒng)實戰(zhàn)項目。全書共10章,包括大數(shù)據(jù)概述、大數(shù)據(jù)分析的基本流程與工具、分布式大數(shù)據(jù)分析處理系統(tǒng)概述、構(gòu)建大數(shù)據(jù)集群環(huán)境、構(gòu)建基于LayUI的集群管理系統(tǒng)、基于HBase的大數(shù)據(jù)離線分析系統(tǒng)、基于Hive+Hadoop+Spark的大數(shù)據(jù)離線分析系統(tǒng)、基于MySQL+Spark的大數(shù)據(jù)離線分析系統(tǒng)、基于Redis+Kafka+Spark的大數(shù)據(jù)實時分析系統(tǒng)、基于Flume+Kafka+Flink的大數(shù)據(jù)實時分析系統(tǒng)。
實戰(zhàn)大數(shù)據(jù)—— 分布式大數(shù)據(jù)分析處理系統(tǒng)開發(fā)與應(yīng)用,適合從事大數(shù)據(jù)系統(tǒng)搭建與運維、大數(shù)據(jù)分析等崗位的技術(shù)人員閱讀,也適合高等院校大數(shù)據(jù)相關(guān)專業(yè)的學(xué)生使用。
前言
第1章 大數(shù)據(jù)概述1
1.1 大數(shù)據(jù)的基本概念1
1.1.1 何謂大數(shù)據(jù)1
1.1.2 大數(shù)據(jù)的產(chǎn)生階段2
1.1.3 大數(shù)據(jù)的核心技術(shù)和計算模式2
1.2 大數(shù)據(jù)的應(yīng)用2
1.2.1 大數(shù)據(jù)的應(yīng)用場景2
1.2.2 大數(shù)據(jù)系統(tǒng)的作用2
1.3 大數(shù)據(jù)技術(shù)生態(tài)圈3
1.3.1 Linux操作系統(tǒng)3
1.3.2 Hadoop生態(tài)系統(tǒng)6
1.3.3 Spark對Hadoop的完善8
1.4 大數(shù)據(jù)技術(shù)的新發(fā)展9
1.4.1 Hadoop 3.0的新特性9
1.4.2 大數(shù)據(jù)引擎Flink10
1.4.3 智能化大數(shù)據(jù)分析處理11
本章小結(jié)12
第2章 大數(shù)據(jù)分析的基本流程與工具13
2.1 數(shù)據(jù)采集13
2.1.1 網(wǎng)絡(luò)爬蟲采集數(shù)據(jù)13
2.1.2 使用Excel爬取數(shù)據(jù)14
2.2 數(shù)據(jù)存儲16
2.2.1 關(guān)系型數(shù)據(jù)的存儲—基于MySQL16
2.2.2 非關(guān)系型數(shù)據(jù)的存儲—基于
Redis、HBase17
2.3 數(shù)據(jù)分析與數(shù)據(jù)處理18
2.3.1 數(shù)據(jù)分析常用工具—pandas19
2.3.2 分布式計算框架19
2.3.3 分布式數(shù)據(jù)挖掘和深度學(xué)習(xí)20
2.4 數(shù)據(jù)可視化22
2.4.1 Python數(shù)據(jù)可視化庫Matplotlib22
2.4.2 Python數(shù)據(jù)可視化庫pyecharts22
2.4.3 數(shù)據(jù)可視化圖表庫ECharts23
2.4.4 數(shù)據(jù)可視化工具Apache Superset24
本章小結(jié)24
第3章 分布式大數(shù)據(jù)分析處理系統(tǒng)
概述25
3.1 什么是分布式大數(shù)據(jù)分析處理
系統(tǒng)25
3.2 分布式大數(shù)據(jù)分析處理系統(tǒng)的
作用26
3.3 分布式大數(shù)據(jù)分析處理系統(tǒng)的
應(yīng)用場景26
3.4 分布式大數(shù)據(jù)分析處理系統(tǒng)的
構(gòu)成30
3.4.1 數(shù)據(jù)采集子系統(tǒng)30
3.4.2 數(shù)據(jù)存儲系統(tǒng)30
3.4.3 數(shù)據(jù)分析處理系統(tǒng)31
3.4.4 數(shù)據(jù)可視化系統(tǒng)32
3.5 分布式大數(shù)據(jù)分析處理系統(tǒng)的
實現(xiàn)32
3.5.1 系統(tǒng)前端—HTML、CSS、jQuery32
3.5.2 系統(tǒng)后端—SpringBoot、SSM33
3.5.3 Web服務(wù)器端—Tomcat35
本章小結(jié)35
第4章 構(gòu)建大數(shù)據(jù)集群環(huán)境36
4.1 部署大數(shù)據(jù)處理環(huán)境36
4.1.1 搭建Hadoop集群36
4.1.2 ZooKeeper的安裝部署42
4.1.3 Kafka的安裝部署45
4.1.4 Spark集群搭建47
4.2 部署大數(shù)據(jù)存儲環(huán)境49
4.2.1 MySQL的安裝部署49
4.2.2 Hive的安裝部署50
4.2.3 HBase的安裝部署51
4.2.4 Redis的安裝部署55
本章小結(jié)57
第5章 構(gòu)建基于LayUI的集群管理
系統(tǒng)58
5.1 集群管理系統(tǒng)概述58
5.1.1 需求分析58
5.1.2 系統(tǒng)架構(gòu)—系統(tǒng)+集群+UI59
5.2 系統(tǒng)開發(fā)的前期準(zhǔn)備操作60
5.2.1 本機環(huán)境配置60
5.2.2 集群環(huán)境配置62
5.2.3 構(gòu)建項目工程結(jié)構(gòu)74
5.3 系統(tǒng)的代碼實現(xiàn)75
5.3.1 Controller層實現(xiàn)75
5.3.2 構(gòu)造系統(tǒng)所需工具包90
5.3.3 核心類實現(xiàn)97
5.4 構(gòu)造系統(tǒng)UI界面—基于
LayUI100
本章小結(jié)105
第6章 基于HBase的大數(shù)據(jù)離線分析
系統(tǒng)106
6.1 系統(tǒng)架構(gòu)概述106
6.1.1 需求分析106
6.1.2 系統(tǒng)架構(gòu)—HBase+SpringBoot+
ECharts107
6.2 采集股份轉(zhuǎn)讓數(shù)據(jù)108
6.2.1 使用爬蟲抓取數(shù)據(jù)108
6.2.2 數(shù)據(jù)采集模塊測試111
6.3 數(shù)據(jù)存儲和處理模塊實現(xiàn)113
6.3.1 數(shù)據(jù)庫設(shè)計113
6.3.2 使用HBase存儲并處理數(shù)據(jù)114
6.3.3 數(shù)據(jù)存儲和處理模塊測試119
6.4 數(shù)據(jù)可視化模塊實現(xiàn)120
6.4.1 數(shù)據(jù)可視化模塊后端設(shè)計—
基于SpringBoot120
6.4.2 數(shù)據(jù)可視化模塊前端設(shè)計—
基于ECharts122
6.4.3 數(shù)據(jù)可視化頁面展示125
本章小結(jié)126
第7章 基于Hive+Hadoop+Spark的
大數(shù)據(jù)離線分析系統(tǒng)127
7.1 系統(tǒng)架構(gòu)概述127
7.1.1 需求分析127
7.1.2 數(shù)據(jù)存儲—Hive+Hadoop129
7.1.3 數(shù)據(jù)處理與可視化—
Spark+SSM+ECharts129
7.2 采集旅游相關(guān)數(shù)據(jù)130
7.2.1 使用爬蟲采集城市、景點數(shù)據(jù)130
7.2.2 數(shù)據(jù)采集模塊測試133
7.3 數(shù)據(jù)存儲模塊實現(xiàn)135
7.3.1 數(shù)據(jù)庫設(shè)計135
7.3.2 使用HDFS和Hive存儲數(shù)據(jù)137
7.3.3 數(shù)據(jù)存儲模塊測試138
7.4 數(shù)據(jù)分析處理模塊實現(xiàn)139
7.4.1 Spark處理數(shù)據(jù)139
7.4.2 分詞處理和情感分析—
基于jieba+SnowNLP庫139
7.4.3 數(shù)據(jù)分析處理模塊測試142
7.5 數(shù)據(jù)可視化模塊實現(xiàn)143
7.5.1 數(shù)據(jù)可視化模塊后端設(shè)計—
基于SSM143
7.5.2 數(shù)據(jù)可視化模塊前端設(shè)計—
基于ECharts154
7.5.3 數(shù)據(jù)可視化頁面展示161
本章小結(jié)167
第8章 基于MySQL+Spark的大數(shù)據(jù)
離線分析系統(tǒng)168
8.1 系統(tǒng)架構(gòu)概述168
8.1.1 需求分析168
8.1.2 數(shù)據(jù)存儲—MySQL170
8.1.3 數(shù)據(jù)處理與可視化—
Spark Streaming +Apache Superset170
8.2 采集電商數(shù)據(jù)170
8.2.1 使用爬蟲爬取商品信息170
8.2.2 數(shù)據(jù)采集模塊測試182
8.3 數(shù)據(jù)分析處理模塊實現(xiàn)183
8.3.1 數(shù)據(jù)庫設(shè)計183
8.3.2 Spark處理商品數(shù)據(jù)185
8.3.3 數(shù)據(jù)分析處理模塊測試192
8.4 數(shù)據(jù)可視化模塊實現(xiàn)193
8.4.1 使用Apache Superset繪制數(shù)據(jù)
可視化圖表193
8.4.2 數(shù)據(jù)可視化頁面展示193
本章小結(jié)196
第9章 基于Redis+Kafka+Spark的
大數(shù)據(jù)實時分析系統(tǒng)197
9.1 系統(tǒng)架構(gòu)概述197
9.1.1 需求分析197
9.1.2 數(shù)據(jù)存儲—Redis198
9.1.3 數(shù)據(jù)處理與可視化—Kafka+
Spark Streaming+SSM+ECharts199
9.2 采集汽車網(wǎng)站數(shù)據(jù)199
9.2.1 使用爬蟲獲取汽車和用戶
數(shù)據(jù)199
9.2.2 數(shù)據(jù)采集模塊測試201
9.3 數(shù)據(jù)存儲模塊實現(xiàn)201
9.3.1 數(shù)據(jù)庫設(shè)計201
9.3.2 使用MySQL存儲汽車
數(shù)據(jù)202
9.3.3 數(shù)據(jù)存儲模塊測試202
9.4 數(shù)據(jù)分析處理模塊實現(xiàn)202
9.4.1 實時發(fā)送數(shù)據(jù)至Kafka203
9.4.2 Spark處理汽車數(shù)據(jù)203
9.4.3 Redis數(shù)據(jù)庫存儲處理結(jié)果204
9.4.4 數(shù)據(jù)分析處理模塊測試204
9.5 數(shù)據(jù)可視化模塊205
9.5.1 數(shù)據(jù)可視化模塊后端設(shè)計—
基于SSM206
9.5.2 數(shù)據(jù)可視化模塊前端設(shè)計—
基于ECharts208
9.5.3 數(shù)據(jù)可視化頁面展示209
本章小結(jié)212
第10章 基于Flume+Kafka+Flink的
大數(shù)據(jù)實時分析系統(tǒng)213
10.1 系統(tǒng)架構(gòu)概述213
10.1.1 需求分析213
10.1.2 數(shù)據(jù)存儲—MySQL214
10.1.3 數(shù)據(jù)處理與可視化—Kafka+
Flink +SpringBoot+ECharts215
10.2 采集直播審計數(shù)據(jù)215
10.2.1 模擬直播審計數(shù)據(jù)215
10.2.2 使用Flume采集直播審計數(shù)據(jù)217
10.2.3 數(shù)據(jù)采集模塊測試219
10.3 數(shù)據(jù)分析處理模塊實現(xiàn)219
10.3.1 實時發(fā)送數(shù)據(jù)至Kafka220
10.3.2 Flink處理直播審計數(shù)據(jù)220
10.3.3 MySQL數(shù)據(jù)庫存儲處理結(jié)果222
10.3.4 數(shù)據(jù)分析處理模塊測試223
10.4 數(shù)據(jù)可視化模塊224
10.4.1 數(shù)據(jù)可視化模塊后端設(shè)計—
基于SpringBoot224
10.4.2 數(shù)據(jù)可視化模塊前端設(shè)計—
基于ECharts226
10.4.3 數(shù)據(jù)可視化頁面展示230
本章小結(jié)230