欧美中文字幕三区,一级毛片不卡免费观看

共分11章，第1章對(duì)大數(shù)據(jù)及Hadoop進(jìn)行總體介紹，第2章講解了如何搭建Hadoop集群。第3-5章講解了HDFS分布式文件系統(tǒng)、MapReduce分布式計(jì)算框架以及Zookeeper分布式協(xié)調(diào)服務(wù)。第6章講解Hadoop2.0的新特性。第7-10章主要講解了Hadoop生態(tài)圈中的相關(guān)輔助系統(tǒng)，包括Hive、HBase分布式存儲(chǔ)系統(tǒng)、Flume、Saoop。第11章講解了綜合項(xiàng)目：電商精準(zhǔn)營(yíng)銷。

第1章　初識(shí)Hadoop　1 1.1　大數(shù)據(jù)簡(jiǎn)介　1 1.1.1　大數(shù)據(jù)的五大特征　1 1.1.2　大數(shù)據(jù)的六大發(fā)展趨勢(shì)　3 1.1.3　大數(shù)據(jù)在電商行業(yè)的應(yīng)用　4 1.1.4　大數(shù)據(jù)在交通行業(yè)的應(yīng)用　5 1.1.5　大數(shù)據(jù)在醫(yī)療行業(yè)的應(yīng)用　5 1.2　大數(shù)據(jù)技術(shù)的核心需求　5 1.3　Hadoop簡(jiǎn)介　6 1.3.1　什么是Hadoop　6 1.3.2　Hadoop的產(chǎn)生和發(fā)展　6 1.3.3　Hadoop的優(yōu)缺點(diǎn)　7 1.3.4　Hadoop版本介紹　7 1.3.5　Hadoop生態(tài)圈的相關(guān)組件　7 1.3.6　Hadoop應(yīng)用介紹　8 1.3.7　國(guó)內(nèi)Hadoop的就業(yè)情況分析　9 1.3.8　分布式系統(tǒng)概述　10 1.4　離線數(shù)據(jù)分析流程介紹　10 1.4.1　項(xiàng)目需求描述　11 1.4.2　數(shù)據(jù)來源　11 1.4.3　數(shù)據(jù)處理流程　11 1.4.4　項(xiàng)目最終效果　12 1.5　大數(shù)據(jù)學(xué)習(xí)流程　12 1.6　本章小結(jié)　13 1.7　習(xí)題　14 第2章　搭建Hadoop集群　15 2.1　安裝準(zhǔn)備　15 2.1.1　虛擬機(jī)安裝　15 2.1.2　虛擬機(jī)克隆　21 2.1.3　Linux系統(tǒng)網(wǎng)絡(luò)配置　23 2.1.4　SSH服務(wù)配置　26 2.2　Linux基本命令　28 2.2.1　系統(tǒng)工作命令　29 2.2.2　磁盤操作命令　30 2.2.3　目錄與文件操作命令　30 2.2.4　權(quán)限操作命令　31 2.3　Hadoop集群搭建　32 2.3.1　Hadoop集群部署模式　32 2.3.2　安裝JDK　32 2.3.3　安裝Hadoop　33 2.3.4　Hadoop集群配置　34 2.4　Hadoop 集群測(cè)試　37 2.4.1　格式化文件系統(tǒng)　37 2.4.2　啟動(dòng)和關(guān)閉Hadoop進(jìn)程命令　37 2.4.3　啟動(dòng)和查看Hadoop進(jìn)程　38 2.4.4　查看Web界面　38 2.5　使用Hadoop集群　39 2.6　本章小結(jié)　40 2.7　習(xí)題　40 第3章　HDFS分布式文件系統(tǒng)　41 3.1　HDFS簡(jiǎn)介　41 3.1.1　HDFS的概念　41 3.1.2　HDFS數(shù)據(jù)的存儲(chǔ)和讀取方式　42 3.1.3　HDFS的特點(diǎn)　42 3.2　HDFS存儲(chǔ)架構(gòu)和數(shù)據(jù)讀寫流程　43 3.2.1　HDFS的存儲(chǔ)架構(gòu)　43 3.2.2　HDFS的數(shù)據(jù)讀寫流程　44 3.3　HDFS的Shell命令　46 3.4　Java程序操作HDFS　47 3.4.1　HDFS Java API概述　47 3.4.2　使用Java API操作HDFS　47 3.5　Hadoop序列化　55 3.5.1　Hadoop序列化簡(jiǎn)介　55 3.5.2　常用實(shí)現(xiàn)Writable接口的類　56 3.5.3　自定義實(shí)現(xiàn)Writable接口的類　58 3.6　Hadoop小文件處理　59 3.6.1　壓縮小文件　59 3.6.2　創(chuàng)建序列文件　60 3.7　通信機(jī)制RPC　63 3.7.1　RPC簡(jiǎn)介　63 3.7.2　Hadoop的RPC架構(gòu)　63 3.8　本章小結(jié)　64 3.9　習(xí)題　64 第4章　MapReduce分布式計(jì)算框架　65 4.1　認(rèn)識(shí)MapReduce　65 4.1.1　MapReduce核心思想　65 4.1.2　MapReduce編程模型　65 4.1.3　MapReduce編程案例——WordCount　67 4.2　MapReduce編程組件　72 4.2.1　InputFormat組件　72 4.2.2　OutputFormat組件　73 4.2.3　RecordReader組件和 RecordWriter組件　76 4.2.4　Partitioner組件　76 4.2.5　Combiner組件　78 4.3　MapReduce作業(yè)解析　82 4.3.1　MapReduce作業(yè)簡(jiǎn)介　82 4.3.2　MapReduce作業(yè)運(yùn)行時(shí)的資源調(diào)度　82 4.3.3　MapReduce作業(yè)運(yùn)行流程　83 4.4　MapReduce工作原理　83 4.4.1　Map任務(wù)工作原理　83 4.4.2　Reduce任務(wù)工作原理　83 4.5　Shuffle階段　83 4.5.1　Shuffle的概念　83 4.5.2　Map端的Shuffle　84 4.5.3　Reduce端的Shuffle　85 4.6　優(yōu)化——數(shù)據(jù)傾斜　85 4.7　MapReduce典型案例——排序　86 4.7.1　部分排序　86 4.7.2　全排序　87 4.8　MapReduce典型案例——倒排索引　91 4.8.1　準(zhǔn)備模擬數(shù)據(jù)　91 4.8.2　輸出數(shù)據(jù)解析　92 4.8.3　編寫MapReduce程序　92 4.9　MapReduce典型案例——連接　94 4.9.1　準(zhǔn)備模擬數(shù)據(jù)　94 4.9.2　輸出數(shù)據(jù)解析　94 4.9.3　編寫MapReduce程序　94 4.10　MapReduce典型案例——平均分以及百分比　97 4.10.1　準(zhǔn)備模擬數(shù)據(jù)　97 4.10.2　輸出數(shù)據(jù)解析　97 4.10.3　編寫MapReduce程序　97 4.11　MapReduce典型案例——過濾敏感詞匯　100 4.11.1　準(zhǔn)備模擬數(shù)據(jù)　100 4.11.2　創(chuàng)建敏感詞庫(kù)　101 4.11.3　編寫MapReduce程序　101 4.12　本章小結(jié)　103 4.13　習(xí)題　103 第5章　ZooKeeper分布式協(xié)調(diào)服務(wù)　105 5.1　認(rèn)識(shí)ZooKeeper　105 5.1.1　ZooKeeper簡(jiǎn)介　105 5.1.2　ZooKeeper的設(shè)計(jì)目的　105 5.1.3　ZooKeeper的系統(tǒng)模型　106 5.1.4　ZooKeeper中的角色　106 5.1.5　ZooKeeper的工作原理　107 5.2　ZooKeeper安裝和常用命令　108 5.2.1　ZooKeeper單機(jī)模式　108 5.2.2　ZooKeeper全分布式　109 5.2.3　ZooKeeper服務(wù)器常用腳本　111 5.2.4　ZooKeeper客戶端節(jié)點(diǎn)和命令　111 5.3　ZooKeeper客戶端編程　113 5.3.1　配置開發(fā)環(huán)境　113 5.3.2　Java程序操作ZooKeeper客戶端　114 5.4　ZooKeeper典型應(yīng)用場(chǎng)景　115 5.4.1　數(shù)據(jù)發(fā)布與訂閱　115 5.4.2　命名服務(wù)　115 5.4.3　分布式鎖　116 5.5　本章小結(jié)　116 5.6　習(xí)題　116 第6章　Hadoop 2.0新特性　118 6.1　Hadoop 2.0的改進(jìn)　118 6.1.1　HDFS存在的問題　118 6.1.2　MapReduce存在的問題　118 6.1.3　HDFS 2.0解決HDFS 1.0中的問題　119 6.2　YARN資源管理框架　119 6.2.1　YARN簡(jiǎn)介　119 6.2.2　YARN架構(gòu)　119 6.2.3　YARN的優(yōu)勢(shì)　120 6.3　Hadoop的HA模式　120 6.3.1　HA模式簡(jiǎn)介　120 6.3.2　HDFS的HA模式　121 6.3.3　YARN的HA模式　127 6.3.4　啟動(dòng)和關(guān)閉Hadoop的HA模式　131 6.4　本章小結(jié)　132 6.5　習(xí)題　132 第7章　Hive　133 7.1　數(shù)據(jù)倉(cāng)庫(kù)簡(jiǎn)介　133 7.1.1　數(shù)據(jù)倉(cāng)庫(kù)概述　133 7.1.2　數(shù)據(jù)倉(cāng)庫(kù)的使用　133 7.1.3　數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)　134 7.1.4　主流的數(shù)據(jù)倉(cāng)庫(kù)　134 7.2　認(rèn)識(shí)Hive　134 7.2.1　Hive簡(jiǎn)介　134 7.2.2　Hive架構(gòu)　135 7.2.3　Hive和關(guān)系型數(shù)據(jù)庫(kù)比較　136 7.3　Hive安裝　136 7.4　Hive數(shù)據(jù)類型　140 7.4.1　Hive基本數(shù)據(jù)類型　140 7.4.2　Hive復(fù)雜數(shù)據(jù)類型　141 7.5　Hive數(shù)據(jù)庫(kù)操作　142 7.6　Hive表　143 7.6.1　內(nèi)部表和外部表　143 7.6.2　對(duì)表進(jìn)行分區(qū)　149 7.6.3　對(duì)表或分區(qū)進(jìn)行桶操作　153 7.7　Hive表的查詢　156 7.7.1　select查詢語句　156 7.7.2　視圖　161 7.7.3　Join　162 7.8　Hive函數(shù)　165 7.8.1　Hive內(nèi)置函數(shù)　165 7.8.2　通過JDBC驅(qū)動(dòng)程序使用Hiveserver2服務(wù)　167 7.8.3　Hive用戶自定義函數(shù)　169 7.9　Hive性能優(yōu)化　171 7.10　Hive案例分析　173 7.11　本章小結(jié)　174 7.12　習(xí)題　174 第8章　HBase分布式存儲(chǔ)系統(tǒng)　175 8.1　認(rèn)識(shí)HBase　175 8.1.1　HBase簡(jiǎn)介　175 8.1.2　HBase的數(shù)據(jù)模型　176 8.1.3　HBase架構(gòu)　176 8.1.4　HBase文件存儲(chǔ)格式　178 8.1.5　HBase存儲(chǔ)流程　179 8.1.6　HBase和HDFS　179 8.2　HBase表設(shè)計(jì)　179 8.2.1　列簇設(shè)計(jì)　179 8.2.2　行鍵設(shè)計(jì)　180 8.3　HBase安裝　180 8.3.1　HBase的單機(jī)模式　180 8.3.2　HBase的HA模式　182 8.4　HBase Shell常用操作　184 8.5　HBase編程　190 8.5.1　配置開發(fā)環(huán)境　190 8.5.2　使用Java API操作HBase　191 8.5.3　使用HBase實(shí)現(xiàn)WordCount　193 8.6　HBase過濾器和比較器　195 8.6.1　過濾器　195 8.6.2　比較器　196 8.6.3　編程實(shí)例　196 8.7　HBase與Hive結(jié)合　201 8.7.1　HBase與Hive結(jié)合的原因　201 8.7.2　Hive關(guān)聯(lián)HBase　201 8.8　HBase性能優(yōu)化　202 8.9　本章小結(jié)　204 8.10　習(xí)題　204 第9章　Flume　205 9.1　認(rèn)識(shí)Flume　205 9.1.1　Flume簡(jiǎn)介　205 9.1.2　Flume的特點(diǎn)　205 9.2　Flume基本組件　206 9.2.1　Event　206 9.2.2　Agent　206 9.3　Flume安裝　207 9.4　Flume數(shù)據(jù)流模型　208 9.5　Flume的可靠性保證　210 9.5.1　負(fù)載均衡　210 9.5.2　故障轉(zhuǎn)移　211 9.6　Flume攔截器　212 9.7　采集案例　214 9.7.1　采集目錄到HDFS　214 9.7.2　采集文件到HDFS　215 9.8　本章小結(jié)　216 9.9　習(xí)題　216 第10章　Sqoop　217 10.1　認(rèn)識(shí)Sqoop　217 10.1.1　Sqoop簡(jiǎn)介　217 10.1.2　Sqoop原理　218 10.1.3　Sqoop架構(gòu)　218 10.2　Sqoop安裝　218 10.3　Sqoop命令　220 10.3.1　Sqoop數(shù)據(jù)庫(kù)連接參數(shù)　221 10.3.2　Sqoop export參數(shù)　221 10.3.3　Sqoop import參數(shù)　221 10.3.4　Sqoop import命令的基本操作　221 10.4　Sqoop數(shù)據(jù)導(dǎo)入　222 10.4.1　將MySQL的數(shù)據(jù)導(dǎo)入HDFS　222 10.4.2　將MySQL的數(shù)據(jù)導(dǎo)入Hive　223 10.4.3　將MySQL的數(shù)據(jù)導(dǎo)入HBase　226 10.4.4　增量導(dǎo)入　227 10.4.5　按需導(dǎo)入　229 10.5　Sqoop數(shù)據(jù)導(dǎo)出　230 10.5.1　將HDFS的數(shù)據(jù)導(dǎo)出到MySQL　230 10.5.2　將Hive的數(shù)據(jù)導(dǎo)出到MySQL　231 10.5.3　將HBase的數(shù)據(jù)導(dǎo)出到MySQL　231 10.6　Sqoop job　233 10.7　本章小結(jié)　233 10.8　習(xí)題　234 第11章　綜合項(xiàng)目——電商精準(zhǔn)營(yíng)銷　235 11.1　項(xiàng)目概述　235 11.1.1　項(xiàng)目背景介紹　235 11.1.2　項(xiàng)目架構(gòu)設(shè)計(jì)　235 11.2　項(xiàng)目詳細(xì)介紹　237 11.2.1　項(xiàng)目核心關(guān)注點(diǎn)　237 11.2.2　重要概念　237 11.2.3　維度　238 11.3　項(xiàng)目模塊分析　239 11.3.1　用戶基本信息分析模塊　239 11.3.2　瀏覽器分析模塊　239 11.3.3　地域分析模塊　239 11.3.4　外鏈分析模塊　239 11.4　數(shù)據(jù)采集　240 11.4.1　日志采集系統(tǒng)概述　240 11.4.2　JS SDK收集數(shù)據(jù)　240 11.4.3　Java SDK收集數(shù)據(jù)　242 11.4.4　使用Flume搭建日志采集系統(tǒng)　243 11.4.5　日志信息說明　244 11.5　數(shù)據(jù)清洗　245 11.5.1　分析需要清洗的數(shù)據(jù)　245 11.5.2　解析數(shù)據(jù)格式轉(zhuǎn)換　245 11.5.3　利用MapReduce清洗數(shù)據(jù)　245 11.6　使用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行數(shù)據(jù)分析　253 11.6.1　事件板塊數(shù)據(jù)分析　253 11.6.2　訂單板塊數(shù)據(jù)分析　257 11.6.3　時(shí)間板塊數(shù)據(jù)分析　262 11.7　可視化　264 11.7.1　ECharts簡(jiǎn)介　264 11.7.2　ECharts的優(yōu)點(diǎn)　265 11.7.3　操作流程　265 11.8　本章小結(jié)　267 11.9　習(xí)題　267 附錄　268

你還可能感興趣

我要評(píng)論