Hadoop大數(shù)據(jù)集群部署及數(shù)據(jù)存儲(chǔ)項(xiàng)目化教程(張立輝)
定 價(jià):48 元
- 作者:張立輝 主編
- 出版時(shí)間:2024/4/1
- ISBN:9787122448583
- 出 版 社:化學(xué)工業(yè)出版社
- 中圖法分類(lèi):TP274
- 頁(yè)碼:212
- 紙張:
- 版次:01
- 開(kāi)本:16開(kāi)
本書(shū)從實(shí)用角度出發(fā),圍繞Linux 操作系統(tǒng)和Hadoop 集群部署,從虛擬機(jī)安裝入手,結(jié)合典型項(xiàng)目和案例,較為全面地介紹了大數(shù)據(jù)開(kāi)發(fā)技術(shù)平臺(tái)Hadoop 及其生態(tài)系統(tǒng)的相關(guān)知識(shí)。主要內(nèi)容包括大數(shù)據(jù)技術(shù)中的Hadoop 集群部署、HDFS、MapReduce、Hive、HBase和Sqoop 等。全書(shū)所有知識(shí)點(diǎn)都結(jié)合具體的編程示例講解,重要知識(shí)點(diǎn)配有視頻講解。
本書(shū)可作為高等職業(yè)院校大數(shù)據(jù)技術(shù)、軟件技術(shù)、計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)、人工智能技術(shù)等專(zhuān)業(yè)的教材,也可作為大數(shù)據(jù)愛(ài)好者的參考書(shū),同時(shí)也可作為企業(yè)培訓(xùn)教材。
第1章 Hadoop 概述 1
1.1 大數(shù)據(jù)認(rèn)知 1
1.1.1 大數(shù)據(jù)的定義 1
1.1.2 大數(shù)據(jù)的應(yīng)用領(lǐng)域 2
1.1.3 大數(shù)據(jù)的特征 4
1.1.4 大數(shù)據(jù)的技術(shù)架構(gòu) 5
1.2 Hadoop 認(rèn)知 7
1.2.1 Hadoop 的發(fā)展史 7
1.2.2 Hadoop 的特點(diǎn) 9
1.2.3 Hadoop 的生態(tài)系統(tǒng) 10
1.2.4 Hadoop 的核心架構(gòu) 11
1.3 Hadoop 的安裝和配置 12
1.3.1 VMWare 的安裝 12
1.3.2 Ubuntu 系統(tǒng)的安裝 13
1.3.3 Linux 常用命令 15
1.3.4 JDK 安裝和配置 16
1.3.5 Hadoop 的安裝 18
課后練習(xí) 19
第2章 Hadoop 集群部署 20
2.1 Linux 環(huán)境設(shè)置 20
2.1.1 創(chuàng)建用戶(hù)(組) 20
2.1.2 Windows 和Linux 系統(tǒng)間文件傳輸 22
2.1.3 更新apt 24
2.1.4 vim 編輯器的應(yīng)用 25
2.1.5 網(wǎng)絡(luò)配置 25
2.2 Hadoop 偽分布式搭建 27
2.2.1 環(huán)境變量的配置 27
2.2.2 SSH 安裝 28
2.2.3 core-site.xml 配置文件 30
2.2.4 hdfs-site.xml 配置文件 30
2.2.5 Hadoop 偽分布式運(yùn)行實(shí)例 31
2.3 Yarn 認(rèn)知 33
2.3.1 初識(shí)Yarn 33
2.3.2 Yarn 基本服務(wù)組件 33
2.3.3 Yarn 執(zhí)行過(guò)程 34
2.4 Hadoop 分布式搭建 35
2.4.1 部署前準(zhǔn)備 35
2.4.2 網(wǎng)絡(luò)配置 37
2.4.3 配置文件的設(shè)置 37
2.4.4 分布式部署 38
課后練習(xí) 39
第3章 分布式文件系統(tǒng)HDFS 41
3.1 HDFS 認(rèn)知 42
3.1.1 HDFS 的了解 42
3.1.2 HDFS 的特性 43
3.1.3 HDFS 的設(shè)計(jì)思想 44
3.1.4 HDFS 的核心概念 44
3.2 HDFS 常用shell 命令 47
3.2.1 HDFS 查看命令 47
3.2.2 HDFS 目錄操作命令 48
3.2.3 文件操作 49
3.3 HDFS 基礎(chǔ)編程 52
3.3.1 用HDFS API 上傳本地文件 52
3.3.2 用HDFS API 創(chuàng)建HDFS 文件 54
3.3.3 用HDFS API 讀取和寫(xiě)入文件 55
3.3.4 用HDFS API 創(chuàng)建HDFS 目錄 56
3.3.5 用HDFS API 查找文件所在位置 57
3.4 HDFS 工作機(jī)制 58
3.4.1 HDFS 寫(xiě)數(shù)據(jù)流程 58
3.4.2 HDFS 讀數(shù)據(jù)流程 59
3.4.3 NameNode 工作機(jī)制 60
3.4.4 DataNode 工作機(jī)制 61
3.5 HDFS 客戶(hù)信息管理 62
3.5.1 環(huán)境搭建 62
3.5.2 寫(xiě)入客戶(hù)信息 66
3.5.3 讀取客戶(hù)信息 69
課后練習(xí) 69
第4章 MapReduce 編程 71
4.1 MapReduce 的工作原理 71
4.1.1 MapReduce 的由來(lái)和特點(diǎn) 72
4.1.2 MapReduce 執(zhí)行過(guò)程 73
4.1.3 MapTask 執(zhí)行過(guò)程 75
4.1.4 Reduce 執(zhí)行過(guò)程 76
4.1.5 Shuffle 執(zhí)行過(guò)程 77
4.2 MapReduce 程序編寫(xiě) 78
4.2.1 開(kāi)發(fā)工具IDEA 的安裝 78
4.2.2 MapReduce 輸入/輸出類(lèi)型 81
4.2.3 MapReduce 輸入處理類(lèi) 81
4.2.4 MapReduce 輸出處理類(lèi) 83
4.2.5 入門(mén)案例—WordCount 84
4.3 統(tǒng)計(jì)網(wǎng)站最大訪問(wèn)次數(shù) 87
4.3.1 實(shí)體類(lèi) 87
4.3.2 Mapper 類(lèi) 88
4.3.3 Reducer 類(lèi) 89
4.3.4 項(xiàng)目驅(qū)動(dòng)類(lèi) 90
課后練習(xí) 91
第5章 MapReduce 高級(jí)編程 92
5.1 MapReduce 高級(jí)開(kāi)發(fā)一 92
5.1.1 Combiner 編程 93
5.1.2 Partitioner 編程 94
5.1.3 RecordReader 編程 97
5.2 MapReduce 高級(jí)開(kāi)發(fā)二 102
5.2.1 MapReduce 連接操作 103
5.2.2 MapReduce 排序操作 109
5.2.3 MapReduce 多文件聯(lián)合查詢(xún) 111
5.3 實(shí)現(xiàn)課程名稱(chēng)和成績(jī)的二次排序 115
5.3.1 實(shí)體類(lèi) 115
5.3.2 Mapper 類(lèi) 116
5.3.3 Reducer 類(lèi) 117
5.3.4 項(xiàng)目驅(qū)動(dòng)類(lèi)編寫(xiě) 117
課后練習(xí) 118
第6章 Hive 數(shù)據(jù)倉(cāng)庫(kù) 120
6.1 什么是Hive 121
6.1.1 Hive 簡(jiǎn)介 121
6.1.2 為什么使用Hive 121
6.1.3 Hive 的優(yōu)缺點(diǎn) 122
6.1.4 Hive 體系結(jié)構(gòu) 122
6.1.5 Hive 設(shè)計(jì)特征 123
6.2 Hive 安裝 124
6.2.1 偽分布式安裝與配置Hive 124
6.2.2 安裝與配置MySQL 126
6.3 Hive 基本操作 128
6.3.1 Hive 數(shù)據(jù)類(lèi)型 128
6.3.2 數(shù)據(jù)庫(kù)操作 129
6.3.3 內(nèi)部表操作 131
6.3.4 外部表操作 139
6.3.5 分區(qū)表操作 139
6.3.6 分桶表操作 143
6.3.7 Hive 數(shù)據(jù)操作 144
6.4 實(shí)現(xiàn)購(gòu)物用戶(hù)數(shù)據(jù)清洗項(xiàng)目 148
6.4.1 導(dǎo)入數(shù)據(jù) 148
6.4.2 數(shù)據(jù)分析 149
6.4.3 數(shù)據(jù)導(dǎo)出 150
課后練習(xí) 150
第7章 HBase 數(shù)據(jù)庫(kù) 152
7.1 HBase 認(rèn)知 153
7.1.1 HBase 簡(jiǎn)介. 153
7.1.2 HBase 體系結(jié)構(gòu) 153
7.1.3 HBase 寫(xiě)數(shù)據(jù)流程 154
7.1.4 HBase 讀數(shù)據(jù)流程 155
7.2 HBase 安裝 156
7.2.1 下載軟件 156
7.2.2 偽分布式安裝與配置 157
7.3 HBase shell 操作命令 159
7.3.1 HBase 數(shù)據(jù)模型 159
7.3.2 數(shù)據(jù)表空間操作 161
7.3.3 數(shù)據(jù)表操作 164
7.3.4 數(shù)據(jù)操作 170
7.4 HBase API 操作 174
7.4.1 HBase 常用的API 175
7.4.2 Configuration 對(duì)象 175
7.4.3 HTable 句柄創(chuàng)建 178
7.4.4 HBase 數(shù)據(jù)的CRUD 操作 179
7.5 學(xué)生成績(jī)管理 187
7.5.1 學(xué)生成績(jī)表數(shù)據(jù)準(zhǔn)備 187
7.5.2 學(xué)生成績(jī)表設(shè)計(jì)分析 188
7.5.3 學(xué)生成績(jī)表代碼實(shí)現(xiàn) 189
課后練習(xí) 191
第8章 Sqoop 導(dǎo)入和導(dǎo)出 193
8.1 概述 194
8.1.1 Sqoop 產(chǎn)生背景 194
8.1.2 Sqoop 是什么 194
8.1.3 為什么選擇 Sqoop 194
8.2 工作原理 195
8.2.1 導(dǎo)入機(jī)制 195
8.2.2 導(dǎo)出機(jī)制 196
8.3 安裝 196
8.3.1 前提準(zhǔn)備 196
8.3.2 下載Sqoop 197
8.3.3 安裝Sqoop 198
8.3.4 配置Sqoop 199
8.3.5 MySQL 驅(qū)動(dòng)包 199
8.3.6 驗(yàn)證Sqoop. 200
8.4 Sqoop 的基本命令 200
8.4.1 基本操作 200
8.4.2 示例 200
8.5 數(shù)據(jù)導(dǎo)入和導(dǎo)出 208
8.5.1 從RDBMS 導(dǎo)入HDFS 中 208
8.5.2 MySQL 數(shù)據(jù)導(dǎo)入Hive 中 209
8.5.3 MySQL 數(shù)據(jù)導(dǎo)入HBase 209
課后練習(xí) 210
參考文獻(xiàn) 212