大數(shù)據(jù)平臺(tái)構(gòu)建
定 價(jià):56 元
叢書名:高職高專大數(shù)據(jù)技術(shù)專業(yè)系列教材
- 作者:方明清
- 出版時(shí)間:2023/8/1
- ISBN:9787560669410
- 出 版 社:西安電子科技大學(xué)出版社
- 中圖法分類:TP274
- 頁碼:304
- 紙張:
- 版次:1
- 開本:16開
本書共4個(gè)項(xiàng)目15個(gè)任務(wù),項(xiàng)目由易到難、從單一到綜合,各個(gè)項(xiàng)目間既有機(jī)聯(lián)系又相互獨(dú)立,授課教師可以根據(jù)所教學(xué)生的學(xué)情分析結(jié)果選擇某一個(gè)項(xiàng)目單獨(dú)教學(xué)并進(jìn)行任務(wù)實(shí)施。4個(gè)項(xiàng)目分別是:安裝環(huán)境準(zhǔn)備、Hadoop集群完全分布式部署、Hadoop生態(tài)系統(tǒng)常用組件部署、Hadoop HA集群部署。每個(gè)項(xiàng)目的任務(wù)都包含了任務(wù)目標(biāo)、知識(shí)準(zhǔn)備、任務(wù)實(shí)施三個(gè)部分。
本書對(duì)于在實(shí)際學(xué)習(xí)過程中學(xué)生需要重點(diǎn)掌握的知識(shí)點(diǎn)和技能點(diǎn)都用較多篇幅進(jìn)行了講解,以加強(qiáng)學(xué)生對(duì)基礎(chǔ)知識(shí)的理解,知其然并知其所以然,從而使學(xué)生在任務(wù)實(shí)施過程中能夠得心應(yīng)手。本書所有項(xiàng)目的任務(wù)實(shí)施都來自實(shí)際操作步驟,一步一圖,并且任務(wù)實(shí)施中每一條命令都有詳細(xì)注釋,只需認(rèn)真閱讀、細(xì)心操作就能成功。
本書適合作為各類院校大數(shù)據(jù)技術(shù)課程的教材,也適合作為大數(shù)據(jù)技術(shù)愛好者的參考用書。
放眼全球,以操作系統(tǒng)為中心,由數(shù)據(jù)庫、編程語言等一系列軟件系統(tǒng)共同構(gòu)成的基礎(chǔ)軟件產(chǎn)品和生態(tài),正作為大型戰(zhàn)略性軟件的重要“原材料”與核心“元器件”,在整個(gè)數(shù)字基礎(chǔ)設(shè)施產(chǎn)業(yè)中發(fā)揮著至關(guān)重要的作用。能否為設(shè)備、系統(tǒng)、產(chǎn)業(yè)和行業(yè)提供高質(zhì)量的、高可靠的、可持續(xù)演進(jìn)的基礎(chǔ)軟件,關(guān)系到國內(nèi)當(dāng)前和未來 IT 科研、產(chǎn)品與生態(tài)的核心競爭力,甚至是“生命線”。
如果說芯片是信息產(chǎn)業(yè)的心臟,那么基礎(chǔ)軟件就是靈魂。首先,每個(gè)系統(tǒng)、每個(gè)設(shè)備里,基礎(chǔ)軟件都是不可或缺的,數(shù)字經(jīng)濟(jì)、數(shù)字城市的發(fā)展都依托于數(shù)字基礎(chǔ)設(shè)施,基礎(chǔ)軟件一旦受到限制,會(huì)影響到整個(gè)數(shù)字化的進(jìn)程。其次,由于基礎(chǔ)軟件本身的獨(dú)特性,每套系統(tǒng)的基礎(chǔ)軟件有且只有一套,一旦受到禁令影響,替換和升級(jí)改造帶來的成本是十分巨大的。
本書選擇華為公司研發(fā)的國產(chǎn)開源openEuler Linux操作系統(tǒng)來替代常用的CentOS Linux操作系統(tǒng),openEuler Linux與CentOS Linux的命令大多數(shù)兼容,有CentOS Linux經(jīng)驗(yàn)的使用者可以很快適應(yīng)openEuler Linux。本書采用目前官方2022年8月發(fā)布的最新版本Hadoop 3.3.4進(jìn)行安裝部署,市面上大多數(shù)教材都還是基于Hadoop 2.x的安裝部署。
本書根據(jù)兩條主線來同步編寫,一條主線是基于實(shí)際的教學(xué)組織過程來編寫,另一條主線是基于大數(shù)據(jù)平臺(tái)構(gòu)建的工作過程來編寫。
大數(shù)據(jù)平臺(tái)構(gòu)建是學(xué)習(xí)和運(yùn)用其他大數(shù)據(jù)技術(shù)的前期基礎(chǔ)工作,掌握好Hadoop大數(shù)據(jù)平臺(tái)構(gòu)建技術(shù),才能更好地自主學(xué)習(xí)和掌握Hadoop生態(tài)系統(tǒng)其他組件,如HBase、Hive、Spark、Sqoop、Flume、Kafka等。本書在講解HBase、Hive、Spark等Hadoop生態(tài)系統(tǒng)組件的知識(shí)準(zhǔn)備內(nèi)容時(shí),首先介紹獨(dú)立安裝的單機(jī)版操作系統(tǒng)軟件及其運(yùn)行的內(nèi)容,讓讀者快速體驗(yàn)組件的Shell環(huán)境命令,然后在任務(wù)實(shí)施環(huán)節(jié)進(jìn)行組件的完全分布式或者生產(chǎn)環(huán)境常用的安裝與配置。
本書側(cè)重于大數(shù)據(jù)平臺(tái)構(gòu)建,即平臺(tái)的部署、驗(yàn)證及基本使用,不深入涉及其他大數(shù)據(jù)分析與應(yīng)用技術(shù)。
本書內(nèi)容體現(xiàn)為“崗課賽證”的融合,既包括大數(shù)據(jù)運(yùn)維工程師核心崗位技能要求,又包括歷年來全國職業(yè)院校技能大賽“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項(xiàng)必考項(xiàng)目和基礎(chǔ)得分項(xiàng),也包括華為HCIA BigData國際認(rèn)證的主要考證內(nèi)容,同時(shí)還包括教育部“1+X”大數(shù)據(jù)應(yīng)用部署與調(diào)優(yōu)職業(yè)技能等級(jí)證書的主要考核內(nèi)容。
本書的參考學(xué)時(shí)數(shù)為80學(xué)時(shí),可分為64+16學(xué)時(shí)兩部分進(jìn)行教學(xué):前64學(xué)時(shí)為正常教學(xué)周教學(xué),教學(xué)內(nèi)容為項(xiàng)目1~3,屬于基礎(chǔ)項(xiàng)目和任務(wù);后16學(xué)時(shí)安排在實(shí)訓(xùn)周進(jìn)行教學(xué),教學(xué)內(nèi)容為項(xiàng)目4,屬于進(jìn)階項(xiàng)目和任務(wù)。當(dāng)學(xué)生掌握了基礎(chǔ)項(xiàng)目1~3的知識(shí)和技能后,可以在很短的時(shí)間內(nèi)掌握并完成進(jìn)階項(xiàng)目4的學(xué)習(xí)任務(wù)。
本書為智慧職教MOOC課程“大數(shù)據(jù)平臺(tái)構(gòu)建”的配套教材。學(xué)生在智慧職教MOOC學(xué)院網(wǎng)頁(網(wǎng)址為https://mooc.icve.com.cn/)中搜索并且關(guān)注“大數(shù)據(jù)平臺(tái)構(gòu)建”MOOC課程,可反復(fù)觀看MOOC課程里的教學(xué)視頻,直至完全掌握。
本書由珠海城市職業(yè)技術(shù)學(xué)院方明清、長沙南方職業(yè)學(xué)院李兵和黔南民族職業(yè)技術(shù)學(xué)院貢玉軍等多位教師,以及珠海格力電器股份有限公司譚澤漢工程師共同編寫。其中,方明清擔(dān)任主編,譚澤漢、李兵和貢玉軍擔(dān)任副主編。全書由方明清統(tǒng)稿、定稿。
由于編者水平有限,書中難免存在不妥之處,懇請(qǐng)廣大讀者批評(píng)指正。
方明清
2022年11月
項(xiàng)目一 安裝環(huán)境準(zhǔn)備 1
任務(wù)1 了解大數(shù)據(jù)的基本概念 2
任務(wù)目標(biāo) 2
知識(shí)準(zhǔn)備 2
一、大數(shù)據(jù)的定義 2
二、全球數(shù)字經(jīng)濟(jì)的發(fā)展現(xiàn)狀與趨勢 3
三、我國數(shù)字經(jīng)濟(jì)的國際地位與優(yōu)勢 4
四、大數(shù)據(jù)時(shí)代的挑戰(zhàn)與機(jī)遇 5
任務(wù)實(shí)施 7
任務(wù)2 下載所需軟件安裝包 8
任務(wù)目標(biāo) 8
知識(shí)準(zhǔn)備 8
一、大數(shù)據(jù)的特征 8
二、大數(shù)據(jù)生態(tài)系統(tǒng)開源技術(shù)和框架 9
三、Hadoop生態(tài)系統(tǒng) 15
四、Hadoop發(fā)展簡史與
版本演變 16
任務(wù)實(shí)施 17
一、軟件下載清單及官方網(wǎng)址 17
二、VMware Workstation Pro試用版軟件下載 18
三、openEuler軟件下載 18
四、JDK 8軟件下載 19
五、Hadoop軟件下載 19
任務(wù)3 虛擬機(jī)軟件VMWare Workstation Pro的安裝與使用 20
任務(wù)目標(biāo) 20
知識(shí)準(zhǔn)備 20
一、VMware Workstation Pro簡介 20
二、VMware Workstation Pro網(wǎng)絡(luò)連接模式 21
任務(wù)實(shí)施 23
一、VMware Workstation Pro 的安裝 23
二、VMware Workstation Pro 的使用 26
任務(wù)4 openEuler Linux操作系統(tǒng)的安裝與基礎(chǔ)使用 33
任務(wù)目標(biāo) 33
知識(shí)準(zhǔn)備 34
一、openEuler Linux操作系統(tǒng)簡介 34
二、查看系統(tǒng)信息 35
三、配置網(wǎng)絡(luò) 35
四、管理系統(tǒng)服務(wù) 40
五、使用DNF管理軟件包 41
六、文本編輯器vi的使用 47
任務(wù)實(shí)施 49
一、openEuler Linux操作系統(tǒng)安裝 49
二、FTP服務(wù)器的安裝與配置 53
模擬測試試卷 61
項(xiàng)目二 Hadoop集群完全分布式部署 63
任務(wù)1 規(guī)劃大數(shù)據(jù)平臺(tái)集群 64
任務(wù)目標(biāo) 64
知識(shí)準(zhǔn)備 64
一、Hadoop的部署模式 64
二、Hadoop集群硬件架構(gòu) 65
任務(wù)實(shí)施 66
一、Hadoop完全分布式部署的服務(wù)器角色規(guī)劃 66
二、Hadoop完全分布式部署的離線安裝所需軟件包下載 66
三、使用FTP服務(wù)器構(gòu)建openEuler完整版的軟件源倉庫 67
任務(wù)2 基礎(chǔ)環(huán)境配置 72
任務(wù)目標(biāo) 72
知識(shí)準(zhǔn)備 73
一、SELinux 簡介 73
二、Chrony時(shí)間同步服務(wù)簡介 75
三、SSH免密登錄簡介 78
任務(wù)實(shí)施 79
一、安裝集群主節(jié)點(diǎn) 79
二、配置集群主機(jī)映射表 82
三、關(guān)閉防火墻與SELinux 83
四、配置主節(jié)點(diǎn)軟件源為FTP服務(wù)器軟件源倉庫 83
五、安裝JDK 85
六、新建hadoop用戶 86
七、克隆或復(fù)制集群從節(jié)點(diǎn) 86
八、安裝時(shí)間同步服務(wù) 89
九、配置SSH免密鑰登錄(以master為HDFS主節(jié)點(diǎn)) 93
任務(wù)3 HDFS配置、啟動(dòng)與驗(yàn)證 95
任務(wù)目標(biāo) 95
知識(shí)準(zhǔn)備 96
一、HDFS簡介 96
二、HDFS系統(tǒng)架構(gòu)與工作原理 98
三、HDFS常用Shell命令 102
任務(wù)實(shí)施 104
一、Hadoop安裝及腳本文件環(huán)境變量配置 104
二、HDFS組件參數(shù)配置 106
三、在Shell環(huán)境中配置Hadoop環(huán)境變量 108
四、分發(fā)系統(tǒng)配置文件以及Hadoop文件 110
五、NameNode格式化 112
六、HDFS 啟動(dòng) 114
七、HDFS驗(yàn)證 115
任務(wù)4 YARN配置、啟動(dòng)與驗(yàn)證 117
任務(wù)目標(biāo) 117
知識(shí)準(zhǔn)備 118
一、YARN與MapReduce簡介 118
二、YARN系統(tǒng)架構(gòu)與工作原理 119
三、MapReduce系統(tǒng)架構(gòu)與工作原理 124
任務(wù)實(shí)施 129
一、配置SSH免密鑰登錄(以slave1 為YARN主節(jié)點(diǎn)) 129
二、配置YARN與MapReduce組件參數(shù) 131
三、分發(fā)YARN與MapReduce配置文件 133
四、啟動(dòng)集群YARN與JobHistoryServer 136
五、驗(yàn)證集群YARN與JobHistoryServer 138
六、準(zhǔn)備MapReduce輸入文件 141
七、上傳輸入文件到HDFS 142
八、運(yùn)行MapReduce程序測試job 142
模擬測試試卷 145
項(xiàng)目三 Hadoop生態(tài)系統(tǒng)常用組件部署 147
任務(wù)1 HBase的安裝部署與基本使用 148
任務(wù)目標(biāo) 148
知識(shí)準(zhǔn)備 148
一、HBase簡介 148
二、HBase系統(tǒng)架構(gòu) 151
三、HBase常用Shell命令 154
任務(wù)實(shí)施 162
一、HBase完全分布式安裝、配置與驗(yàn)證 162
二、HBase的基本使用 170
任務(wù)2 Hive的安裝部署與基本使用 173
任務(wù)目標(biāo) 173
知識(shí)準(zhǔn)備 173
一、Hive簡介 173
二、Hive系統(tǒng)架構(gòu) 175
三、Hive安裝模式與連接方式 177
四、Hive常用命令 179
任務(wù)實(shí)施 195
一、Hive遠(yuǎn)程模式安裝、配置與驗(yàn)證 195
二、Hive基本使用 203
任務(wù)3 Spark的安裝部署與基本使用 217
任務(wù)目標(biāo) 217
知識(shí)準(zhǔn)備 218
一、Spark簡介 218
二、Spark集群運(yùn)行架構(gòu) 219
三、Spark運(yùn)行模式 222
四、Spark應(yīng)用程序提交模式 223
任務(wù)實(shí)施 225
一、Spark Local模式安裝 225
二、Spark Standalone模式安裝 228
三、Spark on YARN模式安裝 232
四、Spark SQL CLI使用 240
五、Spark編程基礎(chǔ) 241
模擬測試試卷 248
項(xiàng)目四 Hadoop HA集群部署 251
任務(wù)1 規(guī)劃Hadoop HA 集群 252
任務(wù)目標(biāo) 252
知識(shí)準(zhǔn)備 252
一、Hadoop HA簡介 252
二、Hadoop HA原理 252
任務(wù)實(shí)施 253
一、Hadoop HA部署的服務(wù)器角色規(guī)劃 253
二、Hadoop HA部署的離線安裝所需軟件包的下載 254
任務(wù)2 ZooKeeper安裝與配置 255
任務(wù)目標(biāo) 255
知識(shí)準(zhǔn)備 255
一、ZooKeeper簡介 255
二、ZooKeeper集群基本架構(gòu) 256
任務(wù)實(shí)施 258
一、上傳安裝包到第1個(gè)ZooKeeper節(jié)點(diǎn)(如master)并解壓 258
二、配置ZooKeeper環(huán)境變量 258
三、編輯ZooKeeper配置文件 258
四、創(chuàng)建 zkData和zkDataLog目錄 259
五、設(shè)置ZooKeeper節(jié)點(diǎn)對(duì)應(yīng)的ID(myid) 259
六、分發(fā)ZooKeeper到其他ZooKeeper節(jié)點(diǎn) 260
七、修改其他ZooKeeper節(jié)點(diǎn)對(duì)應(yīng)的ID(myid) 260
八、啟動(dòng)與驗(yàn)證ZooKeeper集群 260
任務(wù)3 HDFS HA 配置、啟動(dòng)與驗(yàn)證 262
任務(wù)目標(biāo) 262
知識(shí)準(zhǔn)備 262
一、HDFS HA系統(tǒng)架構(gòu) 262
二、HDFS NameNode HA工作原理 264
任務(wù)實(shí)施 265
一、配置HADOOP環(huán)境變量 265
二、修改HDFS HA核心配置文件core-site.xml 266
三、修改HDFS HA配置文件hdfs-site.xml 266
四、分發(fā)HDFS HA 配置文件 270
五、HDFS HA 集群的格式化 270
六、部署完成之后常規(guī)啟動(dòng)HDFS HA集群 274
七、驗(yàn)證 HDFS HA 集群 276
八、測試HDFS HA 集群主備NameNode切換 278
任務(wù)4 YARN HA 配置、啟動(dòng)與驗(yàn)證 280
任務(wù)目標(biāo) 280
知識(shí)準(zhǔn)備 280
一、YARN HA系統(tǒng)架構(gòu) 280
二、YARN ResourceManager HA工作原理 282
任務(wù)實(shí)施 283
一、配置SSH 免密鑰登錄(slave2為主節(jié)點(diǎn)) 283
二、修改yarn-site.xml配置文件(YARN HA) 284
三、修改mapred-site.xml配置文件 285
四、分發(fā)YARN HA配置文件 286
五、啟動(dòng) YARN HA 集群 286
六、啟動(dòng)歷史服務(wù) 288
七、驗(yàn)證YARN HA集群與歷史服務(wù) 288
八、準(zhǔn)備MapReduce輸入文件 289
九、將輸入文件上傳到HDFS 290
十、運(yùn)行MapReduce程序測試job 290
十一、測試YARN HA 集群主備
ResourceManager切換 291
模擬測試試卷 292
參考文獻(xiàn) 295