基礎(chǔ)篇
第1章Hadoop基礎(chǔ)
1.1Hadoop簡介
1.1.1什么是Hadoop
1.1.2Hadoop項目及其結(jié)構(gòu)
1.1.3Hadoop體系結(jié)構(gòu)
1.1.4Hadoop與分布式開發(fā)
1.1.5Hadoop計算模型MapReduce on Yarn
1.1.6Hadoop數(shù)據(jù)管理
1.1.7Hadoop集群安全策略
1.2Hadoop的安裝與配置
1.2.1安裝JDK 1.8與配置SSH免密碼登錄
1.2.2安裝并運行Hadoop
第2章Hadoop存儲: HDFS
2.1HDFS的基本操作
2.1.1HDFS的命令行操作
2.1.2HDFS的Web界面
2.1.3通過distcp進行并行復(fù)制
2.1.4使用Hadoop歸檔文件
2.2WebHDFS
2.2.1WebHDFS的配置
2.2.2WebHDFS命令
2.3HDFS常見的Java API介紹
2.3.1使用Hadoop URL讀取數(shù)據(jù)
2.3.2使用FileSystem API讀取數(shù)據(jù)
2.3.3創(chuàng)建目錄
2.3.4寫數(shù)據(jù)
2.3.5刪除數(shù)據(jù)
2.3.6文件系統(tǒng)查詢
第3章Hadoop計算: MapReduce
3.1MapReduce應(yīng)用程序編寫
3.1.1實例描述
3.1.2設(shè)計思路
3.1.3代碼數(shù)據(jù)流
3.1.4程序代碼
3.1.5代碼解讀
3.1.6程序執(zhí)行
3.1.7代碼結(jié)果
3.2使用MapReduce求每年最低溫度
3.2.1作業(yè)描述
3.2.2程序代碼
3.2.3準(zhǔn)備輸入數(shù)據(jù)
3.2.4運行程序
高級篇
第4章數(shù)據(jù)倉庫: Hive
4.1Hive的安裝和配置
4.1.1安裝詳細(xì)步驟
4.1.2Hive內(nèi)部是什么
4.2數(shù)據(jù)定義
4.2.1Hive中的數(shù)據(jù)庫
4.2.2修改數(shù)據(jù)庫
4.2.3創(chuàng)建表
4.2.4分區(qū)表
4.2.5刪除表
4.2.6修改表
第5章Hive數(shù)據(jù)操作與查詢
5.1數(shù)據(jù)操作
5.1.1向管理表中裝載數(shù)據(jù)
5.1.2通過查詢語句向表中插入數(shù)據(jù)
5.1.3單個查詢語句中創(chuàng)建表并加載數(shù)據(jù)
5.1.4導(dǎo)出數(shù)據(jù)
5.2數(shù)據(jù)查詢
5.2.1SELECT…FROM語句
5.2.2WHERE語句
5.2.3GROUP BY語句
5.2.4HAVING語句
5.2.5JOIN語句
5.2.6ORDER BY和SORT BY
5.2.7含有SORT BY 的DISTRIBUTE BY
5.2.8CLUSTER BY
5.2.9類型轉(zhuǎn)換
5.2.10抽樣查詢
5.2.11UNION ALL
5.3Hive實戰(zhàn)
5.3.1背景
5.3.2實戰(zhàn)數(shù)據(jù)及要求
5.3.3實驗步驟
第6章Hadoop數(shù)據(jù)庫: HBase
6.1HBase概述
6.1.1HBase的發(fā)展歷史
6.1.2HBase的發(fā)行版本
6.1.3HBase的特性
6.1.4HBase與Hadoop的關(guān)系
6.1.5HBase的核心功能模塊
6.2HBase的安裝和配置
6.2.1HBase的運行模式
6.2.2HBase的Web UI
6.2.3Hbase Shell工具使用
6.2.4停止HBase集群
第7章HBase數(shù)據(jù)操作
7.1Shell工具的使用
7.1.1命令分類
7.1.2常規(guī)命令
7.1.3DDL命令
7.1.4DML命令
7.1.5工具命令Tools
7.1.6復(fù)制命令
7.1.7安全命令
7.2Java客戶端的使用
7.2.1客戶端配置
7.2.2創(chuàng)建表
7.2.3刪除表
7.2.4插入數(shù)據(jù)
7.2.5查詢數(shù)據(jù)
7.2.6刪除數(shù)據(jù)
第8章并行數(shù)據(jù)流處理引擎: Pig
8.1Pig概述
8.1.1Pig是什么
8.1.2Pig的發(fā)展簡史
8.2Pig的安裝和使用
8.2.1下載和安裝Pig
8.2.2命令行使用以及配置選項介紹
8.2.3返回碼
8.3命令行交互工具
8.3.1Grunt概述
8.3.2在Grunt中輸入Pig Latin腳本
8.3.3在Grunt中使用HDFS命令
8.3.4在Grunt中控制Pig
第9章Pig Latin的使用
9.1Pig Latin概述
9.1.1基礎(chǔ)知識
9.1.2輸入和輸出
9.2關(guān)系操作
9.2.1foreach
9.2.2Filter
9.2.3Group
9.2.4Order by
9.2.5distinct
9.2.6Join
9.2.7Limit
9.2.8Sample
9.2.9Parallel
9.3用戶自定義函數(shù)UDF
9.3.1注冊UDF
9.3.2define命令和UDF
9.3.3調(diào)用靜態(tài)Java函數(shù)
第10章SQL to Hadoop: Sqoop
10.1Sqoop概述
10.1.1Sqoop的產(chǎn)生背景
10.1.2Sqoop是什么
10.1.3為什么選擇Sqoop
10.1.4Sqoop1和 Sqoop2的異同
10.1.5Sqoop1與Sqoop2的架構(gòu)圖
10.1.6Sqoop1與Sqoop2的優(yōu)缺點
10.2Sqoop安裝部署
10.2.1下載Sqoop
10.2.2設(shè)置/etc/profile參數(shù)
10.2.3設(shè)置bin/configuresqoop配置文件
10.2.4設(shè)置conf/sqoopenv.sh配置文件
10.2.5驗證安裝完成
10.3Sqoop常用命令介紹
10.3.1如何列出幫助
10.3.2Export
10.3.3Import
10.3.4Job作業(yè)
10.4數(shù)據(jù)操作
10.4.1MySQL數(shù)據(jù)導(dǎo)入到HDFS中
10.4.2HDFS數(shù)據(jù)導(dǎo)入到MySQL中
實戰(zhàn)篇
第11章項目實戰(zhàn)
11.1項目背景與數(shù)據(jù)情況
11.1.1項目概述
11.1.2項目分析指標(biāo)
11.1.3項目開發(fā)步驟
11.1.4表結(jié)構(gòu)設(shè)計
11.2環(huán)境搭建
11.2.1MySQL的安裝
11.2.2Eclipse的安裝
11.3數(shù)據(jù)清洗
11.3.1數(shù)據(jù)分析
11.3.2數(shù)據(jù)清洗流程
11.4數(shù)據(jù)統(tǒng)計分析
11.4.1建立分區(qū)表
11.4.2使用HQL統(tǒng)計關(guān)鍵指標(biāo)
11.4.3使用Sqoop將數(shù)據(jù)導(dǎo)入到MySQL數(shù)據(jù)表
11.5定時任務(wù)處理
11.5.1日志數(shù)據(jù)定時上傳
11.5.2日志數(shù)據(jù)定期清理
11.5.3數(shù)據(jù)定時統(tǒng)計分析
參考文獻