Hadoop大數(shù)據(jù)處理與分析教程(慕課版)
定 價:59.8 元
- 作者:王秀友 丁小娜 劉運
- 出版時間:2021/2/1
- ISBN:9787115530080
- 出 版 社:人民郵電出版社
- 中圖法分類:TP274
- 頁碼:262
- 紙張:
- 版次:01
- 開本:16開
第1章緒論、第2章Linux操作系統(tǒng)的安裝、第3章Hadoop的偽分布式安裝、第4章Hadoop集群的搭建及配置、第5章Hadoop HDFS命令、第6章MapReduce編程入門、第7章Hive:SQL on Hadoop、第8章Sqoop:SQL to Hadoop、第9章HBase:HadoopDatabase、第10章Spark的介紹與安裝、第11章綜合案例——網(wǎng)絡爬蟲大數(shù)據(jù)分析
1. 慕課版教材,各章節(jié)都配備了以二維碼為載體的微課。
2. 配套資源豐富,包括課件、源代碼、題庫。
3. 教材厚度適中,難度較低,案例式教學,適合應用型本科和職業(yè)院校。
已經(jīng)在我社出版多本程序設計類書籍,包括“技術方案寶典” “開發(fā)技術大全”“自學手冊” “參考大全”等多個系列,大都取得比較好的市場反響。
第1章 緒論 1
1.1 認識大數(shù)據(jù) 2
1.1.1 大數(shù)據(jù)的定義 2
1.1.2 大數(shù)據(jù)的特點 2
1.1.3 大數(shù)據(jù)行業(yè)應用 3
1.1.4 Hadoop與大數(shù)據(jù) 5
1.1.5 其他大數(shù)據(jù)處理平臺 5
1.1.6 大數(shù)據(jù)人才 7
1.2 什么是Hadoop 8
1.2.1 Hadoop簡介 8
1.2.2 Hadoop的發(fā)展歷史 8
1.2.3 Hadoop的特點 9
1.3 Hadoop核心 10
1.3.1 分布式文件系統(tǒng)—HDFS 11
1.3.2 分布式計算框架—MapReduce 13
1.4 Hadoop常用組件 14
1.5 Hadoop在國內(nèi)外的應用情況 16
小結 16
習題 16
第2章 Linux操作系統(tǒng)的安裝 17
2.1 VirtualBox虛擬機的安裝 18
2.1.1 VirtualBox的下載和安裝 18
2.1.2 設置VirtualBox存儲文件夾 22
2.1.3 在VirtualBox中創(chuàng)建虛擬機 24
2.2 Linux操作系統(tǒng)簡介 28
2.2.1 概述 28
2.2.2 特點 28
2.2.3 Linux操作系統(tǒng)的組成 29
2.2.4 Linux基本命令 31
2.2.5 Linux操作系統(tǒng)的版本 34
2.3 Linux操作系統(tǒng)(Ubuntu)的安裝 34
2.3.1 Linux操作系統(tǒng)(Ubuntu)的
下載 34
2.3.2 安裝Ubuntu 36
2.3.3 啟動Ubuntu 41
2.3.4 設置終端 42
2.3.5 設置共享剪貼板 45
2.3.6 設置共享文件夾 49
小結 52
習題 52
第3章 Hadoop的偽分布式
安裝 53
3.1 JDK的檢查與安裝 54
3.1.1 檢查是否安裝JDK 54
3.1.2 安裝JDK 54
3.2 配置SSH無密碼登錄 58
3.3 Hadoop的下載與安裝 61
3.3.1 Hadoop的安裝模式 61
3.3.2 Hadoop的下載 62
3.3.3 Hadoop的安裝 63
3.3.4 配置Hadoop前準備 65
3.4 Hadoop環(huán)境配置 66
3.4.1 設置Hadoop環(huán)境變量 66
3.4.2 修改Hadoop配置文件 68
3.4.3 創(chuàng)建并格式化文件系統(tǒng) 73
3.5 啟動Hadoop 73
3.6 查看HDFS Web頁面 75
3.7 查看YARN Web頁面 76
小結 77
習題 77
第4章 Hadoop集群的搭建及
配置 78
4.1 Hadoop集群中節(jié)點角色 79
4.2 設置集群前的準備工作 80
4.2.1 集群中節(jié)點的規(guī)劃 80
4.2.2 設置網(wǎng)絡 81
4.3 設置服務器 83
4.3.1 設置Master服務器 83
4.3.2 復制虛擬機 89
4.3.3 設置Slave服務器 92
4.3.4 設置Master服務器到Slave服務器的SSH無密碼登 95
4.3.5 格式化文件系統(tǒng) 96
4.4 啟動和關閉Hadoop集群 97
4.4.1 啟動和關閉Hadoop集群 97
4.4.2 驗證Hadoop集群是否啟動成功 98
4.5 查看Hadoop集群的基本信息 99
4.5.1 查看集群的HDFS信息 99
4.5.2 查看集群的YARN信息 101
4.6 在Hadoop集群中運行程序 102
小結 103
習題 103
第5章 Hadoop HDFS命令 104
5.1 HDFS常用命令總覽 105
5.2 創(chuàng)建與查看HDFS目錄 105
5.2.1 創(chuàng)建HDFS目錄 105
5.2.2 查看HDFS目錄 106
5.3 本地計算機和HDFS之間的文件
復制 107
5.3.1 從本地計算機復制文件到
HDFS 107
5.3.2 將HDFS上的文件復制到本地
計算機 110
5.4 復制與刪除HDFS文件 112
5.5 查看HDFS文件內(nèi)容 113
小結 114
習題 114
第6章 MapReduce編程
入門 115
6.1 認識MapReduce 116
6.1.1 MapReduce的編程思想 116
6.1.2 MapReduce的運行環(huán)境 118
6.2 使用Eclipse創(chuàng)建MapReduce工程 122
6.2.1 下載與安裝Eclipse 122
6.2.2 配置MapReduce環(huán)境 127
6.3 第一個MapReduce程序:
WordCount 131
6.3.1 WordCount的設計思路 131
6.3.2 編寫WordCount 132
6.3.3 分析WordCount程序 140
6.3.4 運行程序 142
小結 144
習題 144
第7章 Hive 145
7.1 Hive簡介 146
7.1.1 什么是Hive 146
7.1.2 為什么使用Hive 146
7.1.3 Hive的體系結構 146
7.1.4 Hive與關系型數(shù)據(jù)庫的區(qū)別 147
7.2 安裝元數(shù)據(jù)庫 148
7.2.1 下載和安裝MySQL數(shù)據(jù)庫 148
7.2.2 登錄MySQL數(shù)據(jù)庫 153
7.2.3 使用MySQL數(shù)據(jù)庫 153
7.3 安裝與配置Hive 156
7.3.1 準備工作 156
7.3.2 下載Hive 156
7.3.3 安裝Hive 157
7.3.4 配置Hive 158
7.3.5 啟動并驗證Hive 161
7.4 數(shù)據(jù)類型和存儲格式 162
7.4.1 基本數(shù)據(jù)類型 162
7.4.2 復雜數(shù)據(jù)類型 162
7.4.3 存儲格式 163
7.4.4 數(shù)據(jù)格式 163
7.5 Hive中的數(shù)據(jù)定義 164
7.5.1 操作數(shù)據(jù)庫 164
7.5.2 查看與創(chuàng)建數(shù)據(jù)表 166
7.5.3 Hive中其他的數(shù)據(jù)表 169
7.5.4 修改數(shù)據(jù)表 170
7.5.5 刪除數(shù)據(jù)表 171
7.6 Hive中的數(shù)據(jù)操作 171
7.6.1 加載數(shù)據(jù) 171
7.6.2 插入數(shù)據(jù) 174
7.6.3 導出數(shù)據(jù) 178
小結 179
習題 179
第8章 Sqoop 180
8.1 安裝并配置Sqoop 181
8.1.1 下載并安裝Sqoop 181
8.1.2 配置Sqoop 183
8.1.3 驗證Sqoop 185
8.1.4 測試Sqoop與MySQL的連接 185
8.2 Sqoop命令 186
8.3 Sqoop導入 188
8.3.1 使用Sqoop把MySQL數(shù)據(jù)導入HDFS 189
8.3.2 使用Sqoop把MySQL數(shù)據(jù)導入Hive 191
8.3.3 有選擇地導入數(shù)據(jù) 192
8.4 Sqoop導出 193
8.4.1 使用Sqoop將Hadoop數(shù)據(jù)導出到MySQL 194
8.4.2 使用Sqoop將Hive數(shù)據(jù)導出到MySQL 195
小結 197
習題 197
第9章 HBase 198
9.1 ZooKeeper集群的安裝與配置 199
9.1.1 ZooKeeper簡介 199
9.1.2 ZooKeeper安裝 199
9.1.3 配置ZooKeeper集群 201
9.1.4 啟動ZooKeeper集群 204
9.2 HBase集群的安裝與配置 206
9.2.1 下載并安裝HBase 206
9.2.2 配置HBase 207
9.2.3 啟動并驗證HBase 211
9.3 HBase的基本應用 212
9.3.1 創(chuàng)建表 212
9.3.2 插入數(shù)據(jù) 213
9.3.3 掃描全表的數(shù)據(jù) 213
9.3.4 獲取某一行的數(shù)據(jù) 213
9.3.5 刪除表 213
小結 213
習題 214
第10章 Spark的介紹與
安裝 215
10.1 Spark概述 216
10.1.1 Spark系統(tǒng)架構 216
10.1.2 Spark運行流程 217
10.2 安裝與配置Scala 218
10.2.1 下載Scala 218
10.2.2 安裝Scala 219
10.2.3 啟動與應用Scala 220
10.3 安裝與配置Spark 222
10.3.1 安裝模式 222
10.3.2 安裝Spark 222
10.3.3 配置環(huán)境變量 224
10.3.4 啟動并驗證Spark 226
10.4 運行Spark程序 227
小結 228
習題 228
第11章 綜合案例—網(wǎng)絡爬蟲大數(shù)據(jù)分析 229
11.1 網(wǎng)絡爬蟲概述 230
11.1.1 網(wǎng)絡爬蟲 230
11.1.2 網(wǎng)絡爬蟲—快手爬票 230
11.1.3 開發(fā)語言選擇 231
11.2 搭建Python開發(fā)環(huán)境 231
11.2.1 開發(fā)環(huán)境概述 231
11.2.2 安裝Python 232
11.3 搭建Qt環(huán)境 235
11.3.1 安裝Qt 235
11.3.2 安裝PyCharm開發(fā)工具 237
11.4 主窗體設計 244
11.4.1 Qt拖曳控件 244
11.4.2 代碼調(diào)試細節(jié) 248
11.5 分析網(wǎng)頁請求參數(shù) 251
11.6 下載站名文件 253
11.7 車票信息的請求與顯示 255
11.7.1 發(fā)送與分析車票信息的查詢
請求 255
11.7.2 主窗體中顯示查票信息 258
11.8 Hadoop中的網(wǎng)絡爬蟲 261
小結 262
習題 262