大數(shù)據(jù)平臺(tái)運(yùn)維(中級(jí))
定 價(jià):69.8 元
- 作者:新華三技術(shù)有限公司
- 出版時(shí)間:2021/4/1
- ISBN:9787121410307
- 出 版 社:電子工業(yè)出版社
- 中圖法分類(lèi):TP274
- 頁(yè)碼:292
- 紙張:
- 版次:01
- 開(kāi)本:16開(kāi)
本書(shū)為“1+X”職業(yè)技能等級(jí)證書(shū)配套教材,按國(guó)家1+X 證書(shū)制度試點(diǎn)大數(shù)據(jù)平臺(tái)運(yùn)維職業(yè)技能等級(jí)標(biāo)準(zhǔn)編寫(xiě)。本書(shū)從大數(shù)據(jù)平臺(tái)運(yùn)維工程師的角度,由淺入深、全方位地介紹了大數(shù)據(jù)平臺(tái)運(yùn)維的相關(guān)實(shí)踐知識(shí)和核心實(shí)操。本書(shū)共六部分,包括21章:第一部分,大數(shù)據(jù)平臺(tái)架構(gòu),涉及大數(shù)據(jù)的特點(diǎn)及發(fā)展趨勢(shì)、大數(shù)據(jù)的實(shí)施和運(yùn)維流程、大數(shù)據(jù)的應(yīng)用場(chǎng)景與案例;第二部分,大數(shù)據(jù)平臺(tái)高可用(HA)集群部署,涉及Hadoop集群基礎(chǔ)環(huán)境的配置、Hadoop HA集群的配置、Hadoop HA集群的啟動(dòng);第三部分,大數(shù)據(jù)組件的維護(hù),涉及HBase組件的維護(hù)、Hive組件的維護(hù)、ZooKeeper組件的維護(hù)、ETL組件的維護(hù)、Spark組件的維護(hù);第四部分,大數(shù)據(jù)平臺(tái)優(yōu)化,涉及Linux系統(tǒng)優(yōu)化、HDFS配置優(yōu)化、MapReduce配置優(yōu)化、Spark配置優(yōu)化;第五部分,大數(shù)據(jù)平臺(tái)的診斷與處理,涉及Hadoop及生態(tài)圈組件負(fù)載均衡的診斷與處理、集群節(jié)點(diǎn)故障的診斷與處理、集群組件服務(wù)故障的診斷與處理;第六部分,大數(shù)據(jù)平臺(tái)項(xiàng)目綜合案例,涉及數(shù)據(jù)倉(cāng)庫(kù)運(yùn)維項(xiàng)目實(shí)戰(zhàn)、金融行業(yè)運(yùn)維項(xiàng)目實(shí)戰(zhàn)、典型大數(shù)據(jù)平臺(tái)監(jiān)控運(yùn)維項(xiàng)目實(shí)戰(zhàn)。本書(shū)可作為中職院校和高職院校大數(shù)據(jù)及計(jì)算機(jī)類(lèi)相關(guān)專(zhuān)業(yè)的教材,也可作為大數(shù)據(jù)平臺(tái)運(yùn)維人員的參考用書(shū)。
紫光股份旗下新華三集團(tuán)作為數(shù)字化解決方案領(lǐng)導(dǎo)者,致力于成為客戶(hù)業(yè)務(wù)創(chuàng)新、數(shù)字化轉(zhuǎn)型最可信賴(lài)的合作伙伴。新華三擁有計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、5G、安全等全方位的數(shù)字化基礎(chǔ)設(shè)施整體能力,提供云計(jì)算、大數(shù)據(jù)、人工智能、工業(yè)互聯(lián)網(wǎng)、信息安全、智能聯(lián)接、新安防、邊緣計(jì)算等在內(nèi)的一站式數(shù)字化解決方案,以及端到端的技術(shù)服務(wù)。同時(shí),新華三也是HPE?服務(wù)器、存儲(chǔ)和技術(shù)服務(wù)的中國(guó)獨(dú)家提供商。
目錄
第一部分 大數(shù)據(jù)平臺(tái)架構(gòu)
第1章 大數(shù)據(jù)的特點(diǎn)及發(fā)展趨勢(shì) 2
1.1 大數(shù)據(jù)平臺(tái)架構(gòu)概述 2
1.1.1 大數(shù)據(jù)的概念 2
1.1.2 大數(shù)據(jù)的特征 3
1.1.3 大數(shù)據(jù)的處理流程及相關(guān)
技術(shù) 4
1.1.4 大數(shù)據(jù)平臺(tái)架構(gòu)的特點(diǎn) 5
1.2 大數(shù)據(jù)平臺(tái)架構(gòu)的原理 5
1.3 大數(shù)據(jù)的發(fā)展歷程 6
1.3.1 大數(shù)據(jù)的具體發(fā)展過(guò)程 6
1.3.2 大數(shù)據(jù)技術(shù)的具體發(fā)展歷程 7
1.4 大數(shù)據(jù)的發(fā)展趨勢(shì) 8
1.4.1 大數(shù)據(jù)技術(shù)面臨的挑戰(zhàn) 8
1.4.2 大數(shù)據(jù)應(yīng)用的發(fā)展趨勢(shì) 10
1.5 本章小結(jié) 11
第2章 大數(shù)據(jù)的實(shí)施和運(yùn)維流程 12
2.1 大數(shù)據(jù)實(shí)施和運(yùn)維工程師的
工作職責(zé) 12
2.1.1 大數(shù)據(jù)職位體系 12
2.1.2 大數(shù)據(jù)實(shí)施工程師的
工作職責(zé) 14
2.1.3 大數(shù)據(jù)運(yùn)維工程師的
工作職責(zé) 15
2.2 大數(shù)據(jù)實(shí)施和運(yùn)維工程師的
工作能力素養(yǎng)要求 15
2.2.1 大數(shù)據(jù)實(shí)施工程師的
工作能力素養(yǎng)要求 15
2.2.2 大數(shù)據(jù)運(yùn)維工程師的
工作能力素養(yǎng)要求 16
2.3 大數(shù)據(jù)項(xiàng)目實(shí)施的工作流程 18
2.3.1 大數(shù)據(jù)項(xiàng)目規(guī)劃階段 18
2.3.2 大數(shù)據(jù)項(xiàng)目數(shù)據(jù)治理階段 19
2.3.3 大數(shù)據(jù)項(xiàng)目設(shè)計(jì)階段 20
2.3.4 大數(shù)據(jù)項(xiàng)目數(shù)據(jù)應(yīng)用階段 21
2.3.5 大數(shù)據(jù)項(xiàng)目迭代實(shí)施與
應(yīng)用推廣階段 22
2.4 大數(shù)據(jù)運(yùn)維的日常工作 23
2.4.1 應(yīng)急處置 23
2.4.2 故障報(bào)告 24
2.4.3 故障檢查 24
2.4.4 故障診斷 25
2.4.5 故障測(cè)試與修復(fù) 25
2.5 本章小結(jié) 26
第3章 大數(shù)據(jù)的應(yīng)用場(chǎng)景與案例 27
3.1 大數(shù)據(jù)平臺(tái)架構(gòu)的典型
行業(yè)應(yīng)用場(chǎng)景 27
3.1.1 醫(yī)療行業(yè)的應(yīng)用 27
3.1.2 金融行業(yè)的應(yīng)用 28
3.1.3 零售行業(yè)的應(yīng)用 29
3.1.4 地產(chǎn)行業(yè)的應(yīng)用 29
3.1.5 農(nóng)業(yè)的應(yīng)用 30
3.1.6 政務(wù)和智慧城市的應(yīng)用 30
3.1.7 教育行業(yè)的應(yīng)用 30
3.1.8 環(huán)境行業(yè)的應(yīng)用 30
3.2 大數(shù)據(jù)平臺(tái)架構(gòu)的典型
企業(yè)應(yīng)用場(chǎng)景 30
3.2.1 輿情分析 31
3.2.2 商業(yè)智能 31
3.3 Hadoop生態(tài)圈中行業(yè)應(yīng)用的
典型實(shí)戰(zhàn)案例 32
3.3.1 電信行業(yè)——中國(guó)移動(dòng)
基于Hadoop的大數(shù)據(jù)應(yīng)用 32
3.3.2 金融行業(yè)——VISA公司
的Hadoop應(yīng)用案例 33
3.3.3 電商行業(yè)——eBay網(wǎng)站
的Hadoop應(yīng)用案例 33
3.4 Hadoop生態(tài)圈中企業(yè)應(yīng)用的
典型實(shí)戰(zhàn)案例 33
3.4.1 新華三大數(shù)據(jù)集成平臺(tái)
在大地影院的應(yīng)用案例背景 33
3.4.2 大地的應(yīng)用案例的用戶(hù)
痛點(diǎn)分析 34
3.4.3 大地的應(yīng)用案例的項(xiàng)目需求 34
3.4.4 大地的應(yīng)用案例的數(shù)據(jù)構(gòu)成 34
3.4.5 大地的應(yīng)用案例的技術(shù)
方案設(shè)計(jì)與實(shí)現(xiàn) 34
3.4.6 大地的應(yīng)用案例系統(tǒng)核心組件
(H3C數(shù)據(jù)集成組件)簡(jiǎn)介 36
3.4.7 大地的應(yīng)用案例的系統(tǒng)
優(yōu)勢(shì)及成效 36
3.5 本章小結(jié) 36
第二部分 大數(shù)據(jù)平臺(tái)高可用(HA)集群部署
第4章 Hadoop集群基礎(chǔ)環(huán)境的配置 38
4.1 Hadoop集群概述 38
4.1.1 Hadoop集群的核心組件 38
4.1.2 Hadoop集群的網(wǎng)絡(luò)拓?fù)?br>結(jié)構(gòu) 40
4.2 平臺(tái)系統(tǒng)的環(huán)境設(shè)置 41
4.2.1 Linux系統(tǒng)環(huán)境配置 41
4.2.2 創(chuàng)建hadoop用戶(hù) 43
4.3 Linux防火墻 43
4.3.1 Linux防火墻的種類(lèi)與特點(diǎn) 44
4.3.2 Linux防火墻管理 45
4.4 SELinux 47
4.4.1 SELinux簡(jiǎn)介 47
4.4.2 SELinux的功能 47
4.4.3 SELinux的配置 47
4.4.4 關(guān)閉集群中的SELinux 47
4.5 配置集群主機(jī)之間時(shí)鐘同步 48
4.5.1 直接同步 48
4.5.2 平滑同步 49
4.6 SSH無(wú)密碼登錄 50
4.6.1 生成SSH密鑰 50
4.6.2 交換SSH密鑰 51
4.6.3 驗(yàn)證SSH無(wú)密碼登錄 52
4.7 Java環(huán)境變量配置 52
4.7.1 JDK功能簡(jiǎn)介 52
4.7.2 下載JDK安裝包 53
4.7.3 JDK的安裝與環(huán)境變量配置 53
4.8 Hadoop的安裝與配置 54
4.8.1 獲取Hadoop安裝包 54
4.8.2 安裝Hadoop軟件 54
4.9 本章小結(jié) 55
第5章 Hadoop HA集群的配置 56
5.1 Hadoop HA集群的特點(diǎn) 56
5.2 Hadoop HA集群的實(shí)現(xiàn)原理 57
5.2.1 HDFS HA的實(shí)現(xiàn)原理 57
5.2.2 YARN HA的實(shí)現(xiàn)原理 58
5.3 ZooKeeper的特點(diǎn) 58
5.3.1 ZooKeeper的功能原理 58
5.3.2 ZooKeeper集群節(jié)點(diǎn)組成 59
5.3.3 ZooKeeper的同步機(jī)制 60
5.3.4 ZooKeeper的選舉機(jī)制 60
5.4 ZooKeeper HA集群 61
5.4.1 在master節(jié)點(diǎn)上安裝
部署ZooKeeper 61
5.4.2 在master節(jié)點(diǎn)上配置
ZooKeeper文件參數(shù) 61
5.4.3 分發(fā)ZooKeeper給slave1節(jié)點(diǎn)
和slave2節(jié)點(diǎn) 62
5.5 Hadoop HA集群的文件參數(shù) 64
5.5.1 在master節(jié)點(diǎn)上配置
Hadoop HA集群的文件參數(shù) 64
5.5.2 分發(fā)hadoop相關(guān)文件給
slave1節(jié)點(diǎn)和slave2節(jié)點(diǎn) 68
5.6 JournalNode服務(wù) 69
5.6.1 JournalNode服務(wù)的原理 69
5.6.2 啟動(dòng)JournalNode服務(wù) 70
5.7 本章小結(jié) 70
第6章 Hadoop HA集群的啟動(dòng) 71
6.1 HDFS的格式化 71
6.1.1 active NameNode的格式化
和啟動(dòng) 71
6.1.2 standby NameNode的格式化
和啟動(dòng) 72
6.1.3 格式化ZKFC 73
6.2 Hadoop HA集群的啟動(dòng)流程 73
6.2.1 啟動(dòng)HDFS 73
6.2.2 啟動(dòng)YARN 74
6.2.3 啟動(dòng)MapReduce的
歷史服務(wù)器 75
6.3 啟動(dòng)后驗(yàn)證 75
6.3.1 查看進(jìn)程 75
6.3.2 查看端口 76
6.3.3 運(yùn)行測(cè)試 77
6.4 Hadoop HA集群的主備切換 78
6.4.1 Hadoop HA集群的切換
機(jī)制 78
6.4.2 手動(dòng)切換測(cè)試 79
6.4.3 自動(dòng)切換測(cè)試 79
6.5 本章小結(jié) 81
第三部分 大數(shù)據(jù)組件的維護(hù)
第7章 HBase組件的維護(hù) 84
7.1 NoSQL與傳統(tǒng)RDBMS的
差異 84
7.1.1 傳統(tǒng)RDBMS及其
應(yīng)用場(chǎng)景 84
7.1.2 NoSQL簡(jiǎn)介 85
7.2 HBase組件的原理 86
7.2.1 HBase簡(jiǎn)介 86
7.2.2 HBase的體系結(jié)構(gòu) 86
7.3 HBase的分布式部署 87
7.3.1 HBase集群環(huán)境準(zhǔn)備 87
7.3.2 HBase的分布式安裝 88
7.4 HBase庫(kù)/表管理 90
7.4.1 HBase庫(kù)管理 90
7.4.2 HBase表管理 91
7.5 HBase數(shù)據(jù)操作 93
7.5.1 基礎(chǔ)操作 93
7.5.2 模糊查詢(xún) 94
7.5.3 批量導(dǎo)入/導(dǎo)出 95
7.6 HBase錯(cuò)誤恢復(fù) 97
7.7 退出HBase庫(kù) 98
7.8 卸載HBase庫(kù) 98
7.9 本章小結(jié) 98
第8章 Hive組件的維護(hù) 99
8.1 Hive的架構(gòu) 99
8.1.1 Hive簡(jiǎn)介 99
8.1.2 Hive的數(shù)據(jù)類(lèi)型 100
8.2 分布式部署Hive 101
8.2.1 環(huán)境需求 101
8.2.2 MySQL的安裝與啟動(dòng) 102
8.2.3 配置Hive參數(shù) 103
8.2.4 Beeline CLI遠(yuǎn)程訪(fǎng)問(wèn)Hive 105
8.3 Hive庫(kù)操作 106
8.4 Hive表操作 107
8.4.1 創(chuàng)建表 107
8.4.2 查看與修改表 108
8.4.3 刪除表和退出Hive 108
8.5 Hive數(shù)據(jù)操作 109
8.5.1 數(shù)據(jù)導(dǎo)入 109
8.5.2 查詢(xún) 110
8.6 Hive宕機(jī)恢復(fù) 111
8.6.1 數(shù)據(jù)備份 111
8.6.2 基于HDFS的數(shù)據(jù)恢復(fù) 112
8.6.3 基于MySQL元數(shù)據(jù)
生成表結(jié)構(gòu) 112
8.7 退出和卸載Hive組件 115
8.7.1 退出Hive 115
8.7.2 卸載Hive 115
8.8 本章小結(jié) 115
第9章 ZooKeeper組件的維護(hù) 116
9.1 ZooKeeper基礎(chǔ) 116
9.1.1 ZooKeeper簡(jiǎn)介 116
9.1.2 ZooKeeper中的重要概念 117
9.2 ZooKeeper的功能及其優(yōu)點(diǎn)
和局限性 117
9.2.1 ZooKeeper的功能 117
9.2.2 ZooKeeper的優(yōu)點(diǎn) 118
9.2.3 ZooKeeper的局限性 118
9.3 ZooKeeper的架構(gòu) 118
9.4 ZooKeeper仲裁模式 119
9.5 配置ZooKeeper 120
9.6 配置ZooKeeper集群 120
9.6.1 集群環(huán)境準(zhǔn)備 120
9.6.2 ZooKeeper集群的安裝 121
9.7 Zookeeper集群的決策選舉 122
9.8 ZooKeeper組件管理 123
9.8.1 JMX管理框架 123
9.8.2 ZooKeeper Shell操作 125
9.9 本章小結(jié) 127
第10章 ETL組件的維護(hù) 128
10.1 Sqoop概述與架構(gòu) 128
10.1.1 Sqoop概述 128
10.1.2 Sqoop的架構(gòu) 129
10.2 Flume概述與架構(gòu) 130
10.2.1 Flume概述 130
10.2.2 Flume的架構(gòu) 130
10.3 Kafka概述與架構(gòu) 131
10.3.1 Kafka概述 131
10.3.2 Kafka的架構(gòu) 132
10.4 Sqoop導(dǎo)入數(shù)據(jù) 133
10.5 Sqoop導(dǎo)出數(shù)據(jù) 134
10.6 修改控制Sqoop組件的
參數(shù) 134
10.7 Flume組件代理配置 136
10.8 Flume組件的數(shù)據(jù)獲取 137
10.9 Flume組件管理 137
10.10 Kafka組件的部署 138
10.11 Kafka組件的驗(yàn)證部署 139
10.12 Kafka組件的數(shù)據(jù)處理 140
10.13 本章小結(jié) 141
第11章 Spark組件的維護(hù) 142
11.1 Spark概述與架構(gòu) 142
11.1.1 Spark概述 142
11.1.2 Spark的架構(gòu) 144
11.2 Spark的工作原理 146
11.3 Scala的安裝部署 148
11.3.1 Scala簡(jiǎn)介 148
11.3.2 Scala的安裝 148
11.4 安裝Spark 149
11.4.1 Spark模式介紹 149
11.4.2 Spark的安裝部署 151
11.5 修改Spark參數(shù) 154
11.5.1 Spark屬性 154
11.5.2 環(huán)境變量 155
11.5.3 Spark日志 156
11.5.4 覆蓋配置目錄 156
11.6 Spark Shell編程 156
11.6.1 Spark Shell概述 156
11.6.2 Spark Shell操作 156
11.7 Spark的基本管理 158
11.8 本章小結(jié) 160
第四部分 大數(shù)據(jù)平臺(tái)優(yōu)化
第12章 Linux系統(tǒng)優(yōu)化 162
12.1 Linux系統(tǒng)優(yōu)化工具 162
12.1.1 free命令 162
12.1.2 top命令 163
12.2 優(yōu)化Linux系統(tǒng)的內(nèi)存 164
12.2.1 將hadoop用戶(hù)添加到
sudo組中 164
12.2.2 避免使用Swap分區(qū) 164
12.2.3 臟頁(yè)配置優(yōu)化 165
12.3 優(yōu)化Linux系統(tǒng)網(wǎng)絡(luò) 167
12.3.1 關(guān)閉Linux防火墻 167
12.3.2 禁用IPv6 167
12.3.3 修改somaxconn參數(shù) 167
12.3.4 Socket讀/寫(xiě)緩沖區(qū)的
調(diào)優(yōu) 168
12.3.5 iperf網(wǎng)絡(luò)測(cè)試工具 169
12.4 優(yōu)化Linux系統(tǒng)磁盤(pán) 169
12.4.1 I/O調(diào)度器的選擇 169
12.4.2 禁止記錄訪(fǎng)問(wèn)時(shí)間戳 171
12.5 優(yōu)化Linux文件系統(tǒng) 172
12.5.1 增大可打開(kāi)文件描述符的
數(shù)目 172
12.5.2 關(guān)閉THP 172
12.5.3 關(guān)閉SELinux 173
12.6 優(yōu)化Linux系統(tǒng)預(yù)讀緩沖區(qū) 173
12.7 本章小結(jié) 174
第13章 HDFS配置優(yōu)化 175
13.1 HDFS概述 175
13.1.1 HDFS寫(xiě)數(shù)據(jù)流程 176
13.1.2 HDFS讀數(shù)據(jù)流程 176
13.2 存儲(chǔ)優(yōu)化 176
13.2.1 合理的副本系數(shù) 177
13.2.2 合理的數(shù)據(jù)塊大小 178
13.3 磁盤(pán)I/O優(yōu)化 179
13.3.1 多數(shù)據(jù)存儲(chǔ)目錄 179
13.3.2 開(kāi)啟HDFS的短路本地
讀配置 183
13.4 節(jié)點(diǎn)通信優(yōu)化 183
13.4.1 延遲blockreport次數(shù) 183
13.4.2 增大DataNode文件并發(fā)
傳輸?shù)拇笮?184
13.4.3 增大NameNode工作線(xiàn)
程池的大小 184
13.4.4 增加DataNode連接
NameNode的RPC請(qǐng)求的
線(xiàn)程數(shù)量 185
13.4.5 調(diào)整DataNode用于平衡
操作的帶寬 185
13.5 其他常見(jiàn)的優(yōu)化項(xiàng) 186
13.5.1 避免讀取“過(guò)時(shí)”的
DataNode 186
13.5.2 避免寫(xiě)入失效的
DataNode 186
13.5.3 為MapReduce任務(wù)保留
一些硬盤(pán)資源 187
13.6 本章小結(jié) 187
第14章 MapReduce配置優(yōu)化 188
14.1 MapReduce概述 188
14.2 Map階段的優(yōu)化 190
14.2.1 降低溢出(spill)的次數(shù) 190
14.2.2 在Map Task結(jié)束前對(duì)spill
文件進(jìn)行合并 191
14.2.3 減少合并寫(xiě)入磁盤(pán)文件的
數(shù)據(jù)量 192
14.2.4 控制Map中間結(jié)果是否
使用壓縮 192
14.2.5 選擇Map中間結(jié)果的
壓縮算法 193
14.3 Reduce階段的優(yōu)化 193
14.3.1 Reduce Task的數(shù)量 193
14.3.2 Reduce I/O的相關(guān)參數(shù) 195
14.3.3 Reduce Shuffle階段并行
傳輸數(shù)據(jù)的數(shù)量 196
14.3.4 tasktracker并發(fā)執(zhí)行的
Reduce數(shù) 196
14.3.5 可并發(fā)處理來(lái)自tasktracker
的RPC請(qǐng)求數(shù) 197
14.4 本章小結(jié) 197
第15章 Spark配置優(yōu)化 198
15.1 優(yōu)化Spark Streaming配置 198
15.1.1 Spark Streaming簡(jiǎn)介 198
15.1.2 Spark參數(shù)的配置方式 199
15.1.3 Spark常用的優(yōu)化參數(shù) 202
15.2 優(yōu)化Spark讀取Kafka 202
15.2.1 Spark參數(shù)設(shè)置 202
15.2.2 Kafka參數(shù)設(shè)置 203
15.3 優(yōu)化讀取Flume 205
15.3.1 Flume參數(shù)設(shè)置 205
15.3.2 接收端參數(shù)設(shè)置 206
15.3.3 Spark讀取Flume 206
15.4 優(yōu)化Spark寫(xiě)入HDFS 208
15.4.1 Spark Shell讀取并
寫(xiě)入HDFS 208
15.4.2 顯示調(diào)用Hadoop API
寫(xiě)入HDFS 208
15.4.3 Spark Streaming實(shí)時(shí)
監(jiān)控HDFS 209
15.5 優(yōu)化Spark Scala代碼 210
15.5.1 Scala編程技巧 210
15.5.2 Scala數(shù)據(jù)優(yōu)化 211
15.6 本章小結(jié) 212
第五部分 大數(shù)據(jù)平臺(tái)的診斷與處理
第16章 Hadoop及生態(tài)圈組件負(fù)載均衡
的診斷與處理 214
16.1 HDFS磁盤(pán)負(fù)載不均衡問(wèn)題
及解決方案 214
16.1.1 問(wèn)題概述 214
16.1.2 磁盤(pán)負(fù)載不均衡的原因
與影響 215
16.1.3 HDFS磁盤(pán)負(fù)載不均衡
的解決方案 215
16.2 MapReduce負(fù)載不均衡
問(wèn)題 215
16.2.1 問(wèn)題概述 215
16.2.2 MapReduce的原理分析 216
16.2.3 MapReduce負(fù)載不均衡的
解決方案 216
16.3 Spark負(fù)載不均衡問(wèn)題 216
16.3.1 問(wèn)題概述 216
16.3.2 Spark負(fù)載不均衡的危害 217
16.3.3 Spark負(fù)載不均衡的原因 217
16.3.4 問(wèn)題發(fā)現(xiàn)與定位 217
16.3.5 Spark負(fù)載不均衡的
解決方案 218
16.3.6 自定義Partitioner 219
16.3.7 Reduce端Join轉(zhuǎn)化為
Map端Join 219
16.4 HBase負(fù)載不均衡問(wèn)題 220
16.4.1 問(wèn)題概述 220
16.4.2 HBase負(fù)載不均衡的
原因及解決方案 220
16.4.3 性能指標(biāo) 221
16.5 Hive數(shù)據(jù)不均衡問(wèn)題 222
16.5.1 問(wèn)題概述 222
16.5.2 Hive數(shù)據(jù)不均衡的
原因及解決方案 223
16.5.3 Hive的典型業(yè)務(wù)場(chǎng)景 223
16.6 本章小結(jié) 224
第17章 集群節(jié)點(diǎn)故障的診斷與處理 225
17.1 使用集群日志對(duì)節(jié)點(diǎn)
故障進(jìn)行診斷 225
17.1.1 Hadoop集群中的
日志文件 226
17.1.2 日志主要結(jié)構(gòu)解析 226
17.1.3 日志級(jí)別分析 227
17.2 使用集群告警信息診斷節(jié)點(diǎn)
故障 227
17.2.1 集群告警信息監(jiān)控 227
17.2.2 集群節(jié)點(diǎn)主機(jī)告警信息 228
17.3 Ganglia大數(shù)據(jù)集群
節(jié)點(diǎn)監(jiān)控 229
17.4 處理集群節(jié)點(diǎn)故障 230
17.4.1 集群節(jié)點(diǎn)硬件異常 230
17.4.2 集群節(jié)點(diǎn)組件及系統(tǒng)異常 231
17.5 本章小結(jié) 231
第18章 集群組件服務(wù)故障的診斷
與處理 232
18.1 使用集群日志診斷組件
服務(wù)故障問(wèn)題 232
18.1.1 大數(shù)據(jù)集群常見(jiàn)
故障問(wèn)題 232
18.1.2 集群中各組件日志解析 232
18.2 使用集群告警信息診斷組件
服務(wù)故障問(wèn)題 234
18.3 制訂集群告警信息診斷組件
服務(wù)故障問(wèn)題的解決方案 236
18.3.1 Nagios簡(jiǎn)介 236
18.3.2 Nagios的工作原理 236
18.3.3 Nagios的功能與用途 236
18.3.4 Nagios的監(jiān)測(cè)模式 237
18.4 處理集群告警信息診斷組件
服務(wù)故障問(wèn)題 238
18.4.1 Hadoop常見(jiàn)故障問(wèn)題分析 238
18.4.2 Nagios配置監(jiān)控
Hadoop日志 239
18.5 本章小結(jié) 240
第六部分 大數(shù)據(jù)平臺(tái)項(xiàng)目綜合案例
第19章 數(shù)據(jù)倉(cāng)庫(kù)運(yùn)維項(xiàng)目實(shí)戰(zhàn) 242
19.1 項(xiàng)目背景和流程 242
19.1.1 項(xiàng)目背景 242
19.1.2 項(xiàng)目流程 243
19.2 數(shù)據(jù)的說(shuō)明、導(dǎo)入及清洗
和預(yù)處理 244
19.2.1 數(shù)據(jù)說(shuō)明 244
19.2.2 數(shù)據(jù)導(dǎo)入 245
19.2.3 清洗和預(yù)處理 246
19.3 Hive建倉(cāng) 248
19.3.1 數(shù)據(jù)倉(cāng)庫(kù)的分層設(shè)計(jì) 248
19.3.2 Hive數(shù)據(jù)入倉(cāng) 249
19.3.3 業(yè)務(wù)調(diào)用 252
19.4 本章小結(jié) 253
第20章 金融行業(yè)運(yùn)維項(xiàng)目實(shí)戰(zhàn) 254
20.1 項(xiàng)目背景和流程 254
20.1.1 項(xiàng)目背景 254
20.1.2 項(xiàng)目流程 255
20.2 數(shù)據(jù)說(shuō)明及清洗 255
20.2.1 數(shù)據(jù)說(shuō)明 255
20.2.2 數(shù)據(jù)清洗 256
20.3 數(shù)據(jù)分析 258
20.3.1 借款金額分布 258
20.3.2 借款等級(jí)分布 258
20.3.3 借款等級(jí)與借款金額的
關(guān)聯(lián)關(guān)系 259
20.3.4 借款金額與工作年限、
年收入的關(guān)聯(lián)關(guān)系 259
20.3.5 借款金額與房屋所有權(quán)
狀態(tài)的關(guān)聯(lián)關(guān)系 260
20.4 數(shù)據(jù)可視化 260
20.5 綜合分析 264
20.6 本章小結(jié) 264
第21章 典型大數(shù)據(jù)平臺(tái)監(jiān)控運(yùn)維
項(xiàng)目實(shí)戰(zhàn) 265
21.1 實(shí)驗(yàn)背景和流程 265
21.1.1 實(shí)驗(yàn)背景 265
21.1.2 實(shí)驗(yàn)流程 266
21.2 數(shù)據(jù)說(shuō)明及預(yù)處理 267
21.2.1 數(shù)據(jù)說(shuō)明 267
21.2.2 數(shù)據(jù)預(yù)處理 267
21.3 安裝Ganglia 269
21.3.1 安裝Ganglia所需的依賴(lài) 269
21.3.2 監(jiān)控端安裝Gmeta、
Gmond、Gweb、
Nginx、Php 270
21.3.3 被監(jiān)控端安裝Gmond 274
21.4 開(kāi)啟Ganglia 274
21.4.1 修改Ganglia-monitor的
配置文件 274
21.4.2 主節(jié)點(diǎn)配置 275
21.4.3 修改Hadoop的配置文件 275
21.4.4 重啟所有服務(wù) 276
21.4.5 訪(fǎng)問(wèn)頁(yè)面查看各機(jī)器的
節(jié)點(diǎn)信息 276
21.5 進(jìn)行上傳操作 277
21.6 進(jìn)行查詢(xún)操作 278
21.7 Ganglia監(jiān)控結(jié)果 279
21.7.1 基本指標(biāo) 279
21.7.2 上傳操作前后集群狀態(tài)的
變化 279
21.7.3 查詢(xún)操作前后集群狀態(tài)的
變化 280
21.8 本章小結(jié) 281