欧美日韩主播精品一区二区三区,色伦专区97中文字幕

本書(shū)面向Hadoop大數(shù)據(jù)技術(shù)，通過(guò)大量實(shí)例，循序漸進(jìn)地介紹了Hadoop生態(tài)系統(tǒng)常用組件的安裝及使用方法。全書(shū)共15個(gè)項(xiàng)目，主要內(nèi)容包括：在虛擬機(jī)中安裝CentOS 7、安裝Hadoop偽分布、配置平臺(tái)基礎(chǔ)環(huán)境、搭建Zookeeper分布式集群、搭建HDFS分布式集群、搭建YARN分布式集群、Hadoop分布式計(jì)算框架(MapReduce)、Hive的安裝與部署、Hive常用命令的使用、搭建HBase分布式集群、Sqoop的安裝與部署、Flume的安裝與使用、搭建Kafka分布式集群、Davinci的安裝與部署以及互聯(lián)網(wǎng)金融項(xiàng)目的離線分析。本書(shū)內(nèi)容由淺入深，涵蓋了Hadoop大數(shù)據(jù)生態(tài)系統(tǒng)的各個(gè)主要知識(shí)點(diǎn)。本書(shū)內(nèi)容翔實(shí)，通俗易懂，可作為大數(shù)據(jù)初學(xué)者的學(xué)習(xí)教材，也可作為大數(shù)據(jù)應(yīng)用開(kāi)發(fā)人員的參考書(shū)。

隨著移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展，大數(shù)據(jù)時(shí)代已經(jīng)到來(lái)，大數(shù)據(jù)技術(shù)也已融入人們生活的各個(gè)方面。2023年3月7日，根據(jù)國(guó)務(wù)院關(guān)于提請(qǐng)審議國(guó)務(wù)院機(jī)構(gòu)改革方案的議案，組建了國(guó)家數(shù)據(jù)局。從這一舉措可以看出國(guó)家對(duì)大數(shù)據(jù)技術(shù)的重視程度，也可以看出大數(shù)據(jù)技術(shù)的應(yīng)用前景十分廣闊，這使學(xué)習(xí)和掌握大數(shù)據(jù)技術(shù)成為迫切的現(xiàn)實(shí)需求。 Hadoop是大數(shù)據(jù)技術(shù)中非常重要的一個(gè)組成部分。本書(shū)系統(tǒng)地介紹了Hadoop大數(shù)據(jù)開(kāi)發(fā)技術(shù)的基礎(chǔ)知識(shí)與應(yīng)用、Hadoop核心組件以及Hadoop生態(tài)系統(tǒng)的常用組件，最后通過(guò)完整的案例整合了相關(guān)技術(shù)組件。本書(shū)由幾位高校教師合作編寫(xiě)。我們?cè)诒緯?shū)中融入了大數(shù)據(jù)應(yīng)用的實(shí)踐經(jīng)驗(yàn)，注重理論與實(shí)踐相結(jié)合，避免了純理論地、孤立地學(xué)習(xí)技術(shù)組件，從而使讀者在學(xué)習(xí)了大數(shù)據(jù)相關(guān)技術(shù)后，能夠真正地將其應(yīng)用到實(shí)際工作中。本書(shū)共15個(gè)項(xiàng)目，其主要內(nèi)容如下：項(xiàng)目一為在虛擬機(jī)中安裝CentOS 7，主要介紹了Linux的相關(guān)概念以及在虛擬機(jī)中安裝部署CentOS 7。項(xiàng)目二為安裝Hadoop偽分布，主要介紹了大數(shù)據(jù)技術(shù)的常用概念以及Hadoop偽分布的安裝。項(xiàng)目三為配置平臺(tái)基礎(chǔ)環(huán)境，主要介紹了部署集群前的各項(xiàng)準(zhǔn)備工作。項(xiàng)目四為搭建Zookeeper分布式集群，主要介紹了Zookeeper的相關(guān)概念以及Zookeeper集群的安裝與配置。項(xiàng)目五為搭建HDFS分布式集群，主要介紹了HDFS的構(gòu)架與工作原理以及HDFS集群的搭建。項(xiàng)目六為搭建YARN分布式集群，主要介紹了YARN的構(gòu)架設(shè)計(jì)與工作原理以及YARN集群的安裝與配置，最后還介紹了集群運(yùn)維的常用命令。項(xiàng)目七為?Hadoop分布式計(jì)算框架(MapReduce)，主要介紹了MapReduce的設(shè)計(jì)思想和優(yōu)缺點(diǎn)，還重點(diǎn)介紹了MapReduce的編程模型和運(yùn)行機(jī)制。項(xiàng)目八為Hive的安裝與部署，主要介紹了Hive的原理與構(gòu)架以及Hive的安裝和部署。項(xiàng)目九為?Hive常用命令的使用，主要介紹了Hive中常用命令的使用。項(xiàng)目十為搭建HBase分布式集群，主要介紹了HBase的模型及構(gòu)架、分布式集群的安裝和部署、Shell的操作以及Java客戶端。項(xiàng)目十一為?Sqoop的安裝與部署，主要介紹了Sqoop的概念、安裝、部署和使用。項(xiàng)目十二為?Flume的安裝與使用，主要介紹了Flume組件的安裝、部署以及基本用法。項(xiàng)目十三為搭建?Kafka分布式集群，主要介紹了Kafka集群的安裝、部署以及使用方法。項(xiàng)目十四為?Davinci的安裝與部署，主要介紹了Davinci組件的相關(guān)構(gòu)架以及安裝與部署。項(xiàng)目十五為互聯(lián)網(wǎng)金融項(xiàng)目的離線分析，主要介紹了項(xiàng)目需求、流程設(shè)計(jì)和創(chuàng)建相應(yīng)的數(shù)據(jù)庫(kù)與表格等，然后按照大數(shù)據(jù)離線項(xiàng)目的流程詳細(xì)介紹了互聯(lián)網(wǎng)金融項(xiàng)目的完整開(kāi)發(fā)過(guò)程。本書(shū)由何永亞、蘇秀芝、王康任主編，胡濤、陸偉霞任副主編。其中，何永亞負(fù)責(zé)擬定、編寫(xiě)大綱和統(tǒng)稿工作，并編寫(xiě)了項(xiàng)目一至項(xiàng)目十三，蘇秀芝、王康編寫(xiě)了項(xiàng)目十四和項(xiàng)目十五，胡濤、陸偉霞參與了本書(shū)資料的搜集整理及內(nèi)容勘誤等工作，馬慶參與了本書(shū)的審定工作。讀者可以通過(guò)超星平臺(tái)加入相應(yīng)的在線課程進(jìn)行學(xué)習(xí)并下載課程資源，課程網(wǎng)址為https://mooc1-1.chaoxing.com/course-ans/courseportal/234740187.html。由于編者水平有限，書(shū)中難免有不妥之處，懇請(qǐng)廣大讀者批評(píng)指正。編者的電子郵箱為1073926709@qq.com。編者 2023年5月

項(xiàng)目一　在虛擬機(jī)中安裝CentOS 7 1 1.1　Linux概述 1 1.1.1　Linux操作系統(tǒng)簡(jiǎn)介 1 1.1.2 Linux操作系統(tǒng)的應(yīng)用場(chǎng)景 1 1.1.3 Linux版本 2 1.2 Linux的常用命令 2 1.2.1 ls命令 2 1.2.2 cd命令 3 1.2.3 pwd命令 3 1.2.4 mkdir 命令 3 1.2.5 rm命令 4 1.2.6 rmdir命令 4 1.2.7 mv命令 4 1.2.8 cp命令 5 1.2.9 cat命令 5 1.2.10 head命令 5 1.2.11 chmod命令 5 1.2.12 chown命令 6 1.2.13 ln命令 7 1.2.14 date命令 8 1.2.15 kill命令 9 1.3 VMware Workstation的安裝與部署 9 1.4 創(chuàng)建虛擬機(jī) 14 1.5 安裝CentOS 7系統(tǒng) 21 項(xiàng)目二　安裝Hadoop偽分布 29 2.1 大數(shù)據(jù)概述 29 2.1.1 什么是大數(shù)據(jù) 29 2.1.2 Hadoop是什么 29 2.1.3 Hadoop項(xiàng)目起源 30 2.1.4 Hadoop的發(fā)展歷程 30 2.1.5 Hadoop名字起源 30 2.1.6 Hadoop的優(yōu)勢(shì) 30 2.1.7 Hadoop的應(yīng)用領(lǐng)域 31 2.1.8 Hadoop與云計(jì)算 31 2.1.9 Hadoop與Spark 32 2.1.10 Hadoop與關(guān)系型數(shù)據(jù)庫(kù) 管理系統(tǒng) 34 2.2 配置靜態(tài)IP地址 35 2.3 Xshell連接工具 37 2.4 FileZilla傳輸工具 41 2.5 配置主機(jī)名和IP地址的映射 42 2.6 關(guān)閉Linux防火墻 42 2.7 創(chuàng)建Linux的用戶和用戶組 43 2.8 Linux SSH免密登錄 44 2.9 JDK的安裝與配置 45 2.10 Hadoop的安裝與配置 46 項(xiàng)目三配置平臺(tái)基礎(chǔ)環(huán)境 52 3.1 Linux虛擬機(jī)的克隆 52 3.2 配置靜態(tài)IP地址 54 3.3 Xshell連接克隆虛擬機(jī) 56 3.4 修改克隆虛擬機(jī)主機(jī)名 57 3.5 關(guān)閉克隆虛擬機(jī)防火墻 57 3.6 FileZilla連接克隆虛擬機(jī) 58 3.7 Hadoop集群安裝前的準(zhǔn)備工作 58 項(xiàng)目四搭建Zookeeper分布式集群 66 4.1 Zookeeper概述 66 4.1.1 Zookeeper的特點(diǎn) 66 4.1.2 Zookeeper的基本架構(gòu)與工作原理 67 4.1.3 Zookeeper的數(shù)據(jù)模型 67 4.1.4 Znode的特性 68 4.1.5 監(jiān)聽(tīng)機(jī)制 68 4.2 Zookeeper集群的安裝與配置 68 4.3 Zookeeper Shell的常用操作 72 項(xiàng)目五搭建HDFS分布式集群 73 5.1 HDFS的架構(gòu)設(shè)計(jì)與工作原理 73 5.1.1 HDFS是什么 73 5.1.2 HDFS的產(chǎn)生背景 73 5.1.3 HDFS的設(shè)計(jì)理念 74 5.1.4 HDFS的核心設(shè)計(jì)目標(biāo) 74 5.1.5 HDFS的系統(tǒng)架構(gòu) 74 5.1.6 HDFS的優(yōu)缺點(diǎn) 76 5.1.7 HDFS讀數(shù)據(jù)流程 76 5.1.8 HDFS寫(xiě)數(shù)據(jù)流程 77 5.1.9 HDFS的高可用機(jī)制及架構(gòu) 78 5.2 HDFS集群的安裝與配置 79 5.3 HDFS集群服務(wù)的啟動(dòng) 82 5.4 測(cè)試HDFS集群 83 5.5 HDFS Shell的操作命令 85 5.5.1 HDFS Shell的基本操作命令 85 5.5.2 HDFS Shell的管理員操作命令 85 項(xiàng)目六搭建YARN分布式集群 87 6.1 YARN的架構(gòu)設(shè)計(jì)與工作原理 87 6.1.1 YARN是什么 87 6.1.2 YARN的作用 87 6.1.3 YARN的基本構(gòu)架 88 6.1.4 YARN的工作原理 89 6.1.5 YARN的工作流程 89 6.1.6 YARN的高可用機(jī)制 90 6.1.7 YARN的調(diào)度器 91 6.2 YARN集群的配置 91 6.3 YARN集群服務(wù)的啟動(dòng) 94 6.4 YARN集群的測(cè)試 95 6.5 Hadoop集群的運(yùn)維管理 96 6.5.1 Hadoop集群進(jìn)程的管理 97 6.5.2 Hadoop集群的運(yùn)維技巧 99 項(xiàng)目七 Hadoop分布式計(jì)算框架 (MapReduce) 103 7.1 初識(shí)MapReduce 103 7.1.1 MapReduce概述 103 7.1.2 MapReduce的基本設(shè)計(jì)思想 104 7.1.3 MapReduce的優(yōu)缺點(diǎn) 105 7.2 MapReduce編程模型 106 7.2.1 MapReduce的執(zhí)行步驟 106 7.2.2 深入剖析MapReduce 編程模型 107 項(xiàng)目八 Hive的安裝與部署 111 8.1 Hive概述 111 8.1.1 Hive的定義 111 8.1.2 Hive的產(chǎn)生背景 111 8.1.3 Hive的優(yōu)缺點(diǎn) 111 8.1.4 Hive在Hadoop生態(tài)系統(tǒng)中的位置 112 8.1.5 Hive和Hadoop的關(guān)系 112 8.2 Hive的原理及架構(gòu) 113 8.2.1 Hive的設(shè)計(jì)原理 113 8.2.2 Hive的體系結(jié)構(gòu) 113 8.2.3 Hive的運(yùn)行機(jī)制 114 8.2.4 Hive的轉(zhuǎn)換過(guò)程 115 8.2.5 Hive的數(shù)據(jù)類型 115 8.2.6 Hive的數(shù)據(jù)存儲(chǔ) 116 8.3 MySQL的安裝與部署 117 8.4 安裝與部署Hive客戶端 118 項(xiàng)目九 Hive常用命令的使用 121 9.1 Hive對(duì)數(shù)據(jù)庫(kù)的操作 121 9.1.1 創(chuàng)建數(shù)據(jù)庫(kù) 121 9.1.2 使用數(shù)據(jù)庫(kù) 122 9.1.3 修改數(shù)據(jù)庫(kù) 123 9.1.4 刪除數(shù)據(jù)庫(kù) 123 9.2 Hive對(duì)數(shù)據(jù)表的操作 124 9.2.1 創(chuàng)建表 124 9.2.2 查看表 126 9.2.3 修改表 127 9.2.4 刪除表 127 9.3 Hive數(shù)據(jù)的相關(guān)操作 128 9.3.1 數(shù)據(jù)導(dǎo)入 128 9.3.2 數(shù)據(jù)導(dǎo)出 130 9.3.3 數(shù)據(jù)備份與恢復(fù) 132 9.4 Hive查詢的相關(guān)操作 133 9.4.1 查詢顯示所有字段 133 9.4.2 查詢顯示部分字段 133 9.4.3 where條件查詢 133 9.4.4 distinct去重查詢 134 9.4.5 group by分組查詢 134 9.4.6 order by全局排序 134 9.4.7 sort by局部排序 135 9.4.8 distribute by分區(qū)查詢 135 9.4.9 cluster by分區(qū)排序 136 9.5 Hive表連接的相關(guān)操作 137 9.5.1 等值連接 137 9.5.2 內(nèi)連接 137 9.5.3 左連接 137 9.5.4 右連接 138 9.5.5 全連接 138 9.6 Hive內(nèi)部表和外部表的相關(guān)操作 139 9.6.1 內(nèi)部表 139 9.6.2 外部表 140 9.7 Hive分區(qū)與分桶的相關(guān)操作 140 9.7.1 創(chuàng)建表分區(qū) 140 9.7.2 創(chuàng)建分桶 142 項(xiàng)目十搭建HBase分布式集群 144 10.1 HBase 概述 144 10.1.1 HBase是什么 144 10.1.2 HBase的特點(diǎn) 144 10.2 HBase的模型及架構(gòu) 145 10.2.1 HBase的邏輯模型 145 10.2.2 HBase的數(shù)據(jù)模型 145 10.2.3 HBase的物理模型 146 10.2.4 HBase的基本構(gòu)架 147 10.3 HBase集群的安裝與配置 149 10.4 啟動(dòng)HBase集群服務(wù) 151 10.5 HBase Shell工具 152 10.6 HBase Java客戶端 154 10.6.1 添加HBase的相關(guān)依賴 154 10.6.2 連接HBase數(shù)據(jù)庫(kù) 154 10.6.3 創(chuàng)建HBase表 155 10.6.4 向HBase表中插入數(shù)據(jù) 155 10.6.5 查詢HBase表數(shù)據(jù) 156 10.6.6 HBase過(guò)濾查詢 157 10.6.7 刪除HBase表 158 項(xiàng)目十一 Sqoop的安裝與部署 160 11.1 Sqoop數(shù)據(jù)遷移工具 160 11.1.1 Sqoop概述 160 11.1.2 Sqoop的優(yōu)勢(shì) 161 11.1.3 Sqoop的架構(gòu)及工作機(jī)制 161 11.1.4 Sqoop Import流程 161 11.1.5 Sqoop Export流程 162 11.2 Sqoop的安裝與配置 163 11.3 案例：Sqoop遷移Hive倉(cāng)庫(kù)數(shù)據(jù) 164 項(xiàng)目十二 Flume的安裝與使用 166 12.1 Flume日志采集系統(tǒng) 166 12.1.1 Flume概述 166 12.1.2 Flume NG架構(gòu)設(shè)計(jì) 167 12.2 Flume的安裝與配置 168 12.3 測(cè)試實(shí)例：監(jiān)控端口數(shù)據(jù) 170 12.3.1 案例需求 170 12.3.2 實(shí)現(xiàn)步驟 170 項(xiàng)目十三搭建Kafka分布式集群 173 13.1 Kafka 概述 173 13.1.1 Kafka的定義 173 13.1.2 Kafka的設(shè)計(jì)目標(biāo) 173 13.1.3 Kafka的特點(diǎn) 174 13.2 Kafka的構(gòu)架設(shè)計(jì) 174 13.2.1 主題和分區(qū) 175 13.2.2 消費(fèi)者和消費(fèi)者組 175 13.2.3 副本 176 13.3 Kafka分布式集群的安裝與配置 176 項(xiàng)目十四 Davinci的安裝與部署 180 14.1 Davinci的架構(gòu)設(shè)計(jì) 180 14.1.1 Davinci的定義 180 14.1.2 Davinci的架構(gòu)設(shè)計(jì) 180 14.1.3 Davinci的應(yīng)用場(chǎng)景 181 14.2 Davinci的安裝與部署 181 14.2.1 部署規(guī)劃 181 14.2.2 準(zhǔn)備前置環(huán)境 182 14.2.3 下載安裝包 182 14.2.4 安裝與初始化目錄 182 14.2.5 配置環(huán)境變量 183 14.2.6 初始化數(shù)據(jù)庫(kù) 183 14.2.7 Davinci服務(wù)器的啟停與注冊(cè) 185 項(xiàng)目十五互聯(lián)網(wǎng)金融項(xiàng)目的離線分析 187 15.1 需求分析及流程設(shè)計(jì) 187 15.2 創(chuàng)建文件夾與數(shù)據(jù)庫(kù) 188 15.3 創(chuàng)建相應(yīng)表格 189 15.4 Sqoop采集MySQL中的數(shù)據(jù) 191 15.4.1 啟動(dòng)集群相關(guān)服務(wù) 191 15.4.2 創(chuàng)建Hive數(shù)據(jù)庫(kù) 191 15.4.3 MySQL數(shù)據(jù)遷移至Hive 191 15.5 對(duì)金融項(xiàng)目進(jìn)行離線分析 193 15.5.1 信用卡用戶特征分析 193 15.5.2 信用卡用戶消費(fèi)行為分析 195 15.5.3 信用卡用戶管理行為分析 196 15.6 創(chuàng)建MySQL業(yè)務(wù)表 197 15.7 統(tǒng)計(jì)結(jié)果導(dǎo)入MySQL 200 15.8 Davinci數(shù)據(jù)可視化分析 203 15.8.1 啟動(dòng)Davinci并創(chuàng)建項(xiàng)目 203 15.8.2 創(chuàng)建不同的視圖 204 15.8.3 創(chuàng)建不同的圖表 215 15.8.4 創(chuàng)建大屏 220 參考文獻(xiàn) 223

你還可能感興趣

我要評(píng)論