Hadoop+HBase技術(shù)項(xiàng)目教程 9787111705239 張立輝
定 價(jià):59 元
叢書(shū)名:高等職業(yè)教育系列教材
- 作者:張立輝 李明革
- 出版時(shí)間:2022/6/1
- ISBN:9787111705239
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類(lèi):TP274;TP311.133.1
- 頁(yè)碼:218
- 紙張:
- 版次:
- 開(kāi)本:16
本書(shū)詳細(xì)介紹了大數(shù)據(jù)技術(shù)中的Hadoop 集群部署、MapReduce、Hive和HBase 等的基本知識(shí)和應(yīng)用,本書(shū)采用了大量案例,可以更好地幫助讀者學(xué)習(xí)和理解大數(shù)據(jù)的核心技術(shù)。
本書(shū)從實(shí)用的角度出發(fā),設(shè)計(jì)了9 個(gè)項(xiàng)目,從虛擬機(jī)安裝入手,結(jié)合實(shí)際工作中的典型項(xiàng)目和案例,全面介紹了Hadoop 集群部署、HDFS、MapReduce 編程、Hive、HBase 和Sqoop 的相關(guān)知識(shí)和基本操作。
本書(shū)圍繞Linux 操作系統(tǒng)和Hadoop 集群部署,按照初學(xué)者的思維習(xí)慣,循序漸進(jìn)地設(shè)計(jì)和安排學(xué)習(xí)內(nèi)容,采用將基礎(chǔ)知識(shí)融入項(xiàng)目教學(xué)的方式,在完成項(xiàng)目學(xué)習(xí)的同時(shí),實(shí)現(xiàn)從理論知識(shí)到能力的轉(zhuǎn)化,幫助學(xué)習(xí)者牢固掌握Hadoop 集群部署等相關(guān)知識(shí)的實(shí)踐技能。
本書(shū)適合作為職業(yè)類(lèi)院校計(jì)算機(jī)、大數(shù)據(jù)等相關(guān)專(zhuān)業(yè)的教材,也適用于計(jì)算機(jī)培訓(xùn)班教學(xué),以及有構(gòu)建大數(shù)據(jù)知識(shí)體系需求的讀者學(xué)習(xí)。
目錄
前言
項(xiàng)目1 Hadoop 安裝
1.1 大數(shù)據(jù)認(rèn)知
1.1.1 大數(shù)據(jù)是什么
1.1.2 大數(shù)據(jù)應(yīng)用領(lǐng)域
1.1.3 大數(shù)據(jù)的特點(diǎn)
1.1.4 大數(shù)據(jù)的技術(shù)架構(gòu)
1.2 Hadoop 認(rèn)知
1.2.1 Hadoop 起源
1.2.2 Hadoop 的特點(diǎn)
1.2.3 Hadoop 生態(tài)圈
1.2.4 Hadoop 核心架構(gòu)
項(xiàng)目實(shí)現(xiàn)
任務(wù)1 安裝前準(zhǔn)備
任務(wù)2 虛擬機(jī)的安裝
任務(wù)3 Ubuntu 的安裝
任務(wù)4 解壓與壓縮命令
任務(wù)5 JDK 安裝和配置
任務(wù)6 Hadoop 的安裝
拓展項(xiàng)目
課后練習(xí)
項(xiàng)目2 Hadoop 集群部署
2.1 Linux 環(huán)境設(shè)置
2.1.1 Linux 常用命令
2.1.2 用戶(hù)(組)創(chuàng)建
2.1.3 FileZilla 文件傳輸
2.1.4 apt 更新
2.1.5 vim 編輯器的應(yīng)用
2.1.6 網(wǎng)絡(luò)配置
2.2 Hadoop 配置文件
2.2.1 環(huán)境變量的配置
2.2.2 SSH 安裝
2.2.3 core-site.xml 配置文件
2.2.4 hdfs-site.xml 配置文件
2.2.5 Hadoop 偽分布式運(yùn)行實(shí)例
2.3 YARN 認(rèn)知
2.3.1 初識(shí)YARN
2.3.2 YARN 基本服務(wù)組件
2.3.3 YARN 執(zhí)行過(guò)程
項(xiàng)目實(shí)現(xiàn)
任務(wù)1 部署前準(zhǔn)備
任務(wù)2 集群網(wǎng)絡(luò)配置
任務(wù)3 配置文件的設(shè)置
任務(wù)4 集群部署
拓展項(xiàng)目
課后練習(xí)
項(xiàng)目3 HDFS-電影信息管理
3.1 HDFS 認(rèn)知
3.1.1 HDFS 簡(jiǎn)介
3.1.2 HDFS 特點(diǎn)
3.1.3 HDFS 設(shè)計(jì)原則
3.1.4 HDFS 核心概念
3.2 HDFS 常用Shell 命令和基礎(chǔ)編程開(kāi)發(fā)
3.2.1 HDFS 常用Shell 命令
3.2.2 用HDFS API 實(shí)現(xiàn)上傳本地文件
3.2.3 用HDFS API 實(shí)現(xiàn)創(chuàng)建HDFS 文件
3.2.4 用HDFS API 實(shí)現(xiàn)讀取和寫(xiě)入文件
3.2.5 用HDFS API 實(shí)現(xiàn)創(chuàng)建HDFS 目錄
3.2.6 用HDFS API 實(shí)現(xiàn)查找文件所在位置
3.3 HDFS 工作機(jī)制
3.3.1 HDFS 寫(xiě)數(shù)據(jù)流程
3.3.2 HDFS 讀數(shù)據(jù)流程
3.3.3 NameNode 工作機(jī)制
3.3.4 DataNode 工作機(jī)制
項(xiàng)目實(shí)現(xiàn)
任務(wù)1 環(huán)境搭建
任務(wù)2 寫(xiě)入電影信息
任務(wù)3 讀取電影信息
拓展項(xiàng)目
課后練習(xí)
項(xiàng)目4 用MapReduce 統(tǒng)計(jì)網(wǎng)站最大訪問(wèn)次數(shù)
4.1 MapReduce 認(rèn)知
4.1.1 MapReduce 的由來(lái)
4.1.2 MapReduce 的執(zhí)行過(guò)程
4.1.3 Mapper 過(guò)程
4.1.4 Reduce 過(guò)程
4.1.5 Shuffle 過(guò)程
4.2 MapReduce 程序開(kāi)發(fā)
4.2.1 IDEA 安裝
4.2.2 MapReduce 輸入/輸出類(lèi)型
4.2.3 MapReduce 輸入處理類(lèi)
4.2.4 MapReduce 輸出處理類(lèi)
4.2.5 典型案例:WordCount
項(xiàng)目實(shí)現(xiàn)
任務(wù)1 POJO 類(lèi)編寫(xiě)
任務(wù)2 Map 網(wǎng)站訪問(wèn)數(shù)據(jù)
任務(wù)3 Reduce 網(wǎng)站訪問(wèn)數(shù)據(jù)
任務(wù)4 項(xiàng)目驅(qū)動(dòng)類(lèi)編寫(xiě)
拓展項(xiàng)目
課后練習(xí)
項(xiàng)目5 用MapReduce 實(shí)現(xiàn)課程名稱(chēng)和成績(jī)的二次排序
5.1 MapReduce 高級(jí)開(kāi)發(fā)一
5.1.1 Combiner 合并編程
5.1.2 Partitioner 分區(qū)編程
5.1.3 RecordReader 編程
5.2 MapReduce 高級(jí)開(kāi)發(fā)二
5.2.1 MapReduce 連接操作
5.2.2 MapReduce 排序操作
5.2.3 MapReduce 多文件聯(lián)合查詢(xún)
項(xiàng)目實(shí)現(xiàn)
任務(wù)1 POJO 類(lèi)編寫(xiě)
任務(wù)2 Map 課程和成績(jī)數(shù)據(jù)
任務(wù)3 Reduce 課程和成績(jī)數(shù)據(jù)
任務(wù)4 項(xiàng)目驅(qū)動(dòng)類(lèi)編寫(xiě)
拓展項(xiàng)目
課后練習(xí)
項(xiàng)目6 用Hive 實(shí)現(xiàn)購(gòu)物用戶(hù)數(shù)據(jù)清洗
6.1 Hive 認(rèn)知
6.1.1 Hive 簡(jiǎn)介
6.1.2 Hive 體系結(jié)構(gòu)
6.1.3 Hive 設(shè)計(jì)特征
6.2 Hive 安裝
6.2.1 偽分布式安裝與配置Hive
6.2.2 安裝與配置MySQL
6.3 Hive 基本操作
6.3.1 Hive 數(shù)據(jù)類(lèi)型
6.3.2 數(shù)據(jù)庫(kù)操作
6.3.3 內(nèi)部表操作
6.3.4 外部表操作
6.3.5 分區(qū)表操作
6.3.6 分桶表操作
6.3.7 Hive 數(shù)據(jù)操作
項(xiàng)目實(shí)現(xiàn)
任務(wù)1 導(dǎo)入數(shù)據(jù)
任務(wù)2 數(shù)據(jù)分析
任務(wù)3 數(shù)據(jù)導(dǎo)出
拓展項(xiàng)目
課后練習(xí)
項(xiàng)目7 用HBase 實(shí)現(xiàn)學(xué)生成績(jī)管理
7.1 HBase 認(rèn)知
7.1.1 HBase 簡(jiǎn)介
7.1.2 HBase 體系結(jié)構(gòu)
7.1.3 HBase 寫(xiě)數(shù)據(jù)流程
7.1.4 HBase 讀數(shù)據(jù)流程
7.2 HBase 安裝
7.2.1 下載軟件
7.2.2 偽分布式安裝與配置
7.3 HBase shell 操作命令
7.3.1 HBase 數(shù)據(jù)模型
7.3.2 數(shù)據(jù)表空間操作
7.3.3 數(shù)據(jù)表操作
7.3.4 數(shù)據(jù)操作
7.4 HBase API 操作
7.4.1 HBase 常用的API
7.4.2 Configuration 對(duì)象
7.4.3 HTable 句柄創(chuàng)建
7.4.4 HBase 數(shù)據(jù)的CRUD 操作
項(xiàng)目實(shí)現(xiàn)
任務(wù)1 學(xué)生成績(jī)表數(shù)據(jù)準(zhǔn)備
任務(wù)2 學(xué)生成績(jī)表設(shè)計(jì)分析
任務(wù)3 學(xué)生成績(jī)表代碼實(shí)現(xiàn)
拓展項(xiàng)目
課后練習(xí)
項(xiàng)目8 Sqoop 導(dǎo)入導(dǎo)出
8.1 概述
8.1.1 Sqoop 產(chǎn)生背景
8.1.2 Sqoop 是什么
8.1.3 為什么選擇 Sqoop
8.2 工作原理
8.2.1 導(dǎo)入機(jī)制
8.2.2 導(dǎo)出機(jī)制
8.3 安裝
8.4 Sqoop 的基本命令
8.4.1 基本操作
8.4.2 示例
項(xiàng)目實(shí)現(xiàn)
任務(wù)1 從RDBMS 導(dǎo)入到HDFS
任務(wù)2 從MySQL 導(dǎo)入到Hive
任務(wù)3 從MySQL 導(dǎo)入到HBase
課后練習(xí)
Hadoop 綜合實(shí)例—網(wǎng)絡(luò)交易數(shù)據(jù)統(tǒng)計(jì)
9.1 項(xiàng)目概述
9.1.1 項(xiàng)目實(shí)現(xiàn)的思路
9.1.2 項(xiàng)目流程
9.2 準(zhǔn)備工作
9.2.1 項(xiàng)目環(huán)境的搭建
9.2.2 Hadoop+HBase+Hive 集成
9.2.3 HBase 數(shù)據(jù)庫(kù)設(shè)計(jì)原則
9.2.4 數(shù)據(jù)概況
項(xiàng)目實(shí)現(xiàn)
項(xiàng)目9
任務(wù)1 POJO 類(lèi)編寫(xiě)
任務(wù)2 統(tǒng)計(jì)不同品牌手機(jī)的銷(xiāo)售數(shù)量
任務(wù)3 統(tǒng)計(jì)不同品牌手機(jī)銷(xiāo)量和銷(xiāo)售額占比
任務(wù)4 統(tǒng)計(jì)某年每個(gè)月的手機(jī)銷(xiāo)售數(shù)量的比例
任務(wù)5 統(tǒng)計(jì)每個(gè)月份各市區(qū)縣的手機(jī)銷(xiāo)售數(shù)量
任務(wù)6 統(tǒng)計(jì)購(gòu)買(mǎi)手機(jī)的男女比例
任務(wù)7 統(tǒng)計(jì)不同手機(jī)品牌購(gòu)買(mǎi)用戶(hù)的年齡區(qū)間人數(shù)
課后練習(xí)