定 價(jià):79 元
叢書名:大數(shù)據(jù)技術(shù)叢書
- 作者:(美)瓦德卡,(美)西德林埃,(美)文納 著,于博,馮傲風(fēng) 譯
- 出版時(shí)間:2015/11/1
- ISBN:9787111515654
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP274
- 頁(yè)碼:385
- 紙張:膠版紙
- 版次:1
- 開本:16開
本書作者基于對(duì)Hadoop系統(tǒng)的實(shí)踐,深入淺出地對(duì)Hadoop進(jìn)行了詳細(xì)的講解,包含大量的實(shí)例和技巧,可幫助有一定基礎(chǔ)的開發(fā)者快速掌握分布式系統(tǒng)。主要內(nèi)容包括:第1章~第4章講解大數(shù)據(jù)系統(tǒng)的基本概念、Hadoop系統(tǒng)的關(guān)鍵概念,以及進(jìn)行Hadoop平臺(tái)管理的關(guān)鍵概念要素。第5章~第7章是本書的重點(diǎn),深入分析了MapReduce框架,不僅包括MapReduce框架的API,還介紹MapReduce框架的更復(fù)雜概念及其設(shè)計(jì)理念。第8章~第14章介紹Hadoop生態(tài)系統(tǒng),包括支持MapReduce程序的單元測(cè)試和集成測(cè)試框架、Hadoop系統(tǒng)的監(jiān)控和日志系統(tǒng)、Hive框架、Pig和Crunch框架、HCatalog框架、Hadoop日志流處理、HBase等。第15章~第17章介紹了數(shù)據(jù)科學(xué)基本概念及應(yīng)用、云計(jì)算實(shí)例、分布式下載服務(wù)實(shí)例等。
目 錄 Contents
譯者序
作者簡(jiǎn)介
前言
第1章為什么會(huì)有大數(shù)據(jù)
1.1什么是大數(shù)據(jù)
1.2大數(shù)據(jù)技術(shù)背后的核心思想
1.2.1把數(shù)據(jù)分發(fā)到多個(gè)節(jié)點(diǎn)
1.2.2把計(jì)算邏輯移動(dòng)到數(shù)據(jù)附近
1.2.3計(jì)算節(jié)點(diǎn)進(jìn)行本地?cái)?shù)據(jù)處理
1.2.4優(yōu)選順序讀,次之隨機(jī)讀
1.2.5一個(gè)例子
1.3大數(shù)據(jù)的編程模型
1.3.1大規(guī)模并行處理數(shù)據(jù)庫(kù)系統(tǒng)
1.3.2內(nèi)存數(shù)據(jù)庫(kù)系統(tǒng)
1.3.3MapReduce系統(tǒng)
1.3.4整體同步并行系統(tǒng)
1.4大數(shù)據(jù)和事務(wù)性系統(tǒng)
1.5我們能處理多大的數(shù)據(jù)量
1.5.1一個(gè)計(jì)算密集型的例子
1.5.2Amdhal定律
1.6大數(shù)據(jù)商業(yè)用例
1.7本章小結(jié)
第2章Hadoop中的概念
2.1Hadoop簡(jiǎn)介
2.2MapReduce編程模型簡(jiǎn)介
2.3Hadoop系統(tǒng)的組成
2.3.1Hadoop 分布式文件系統(tǒng)
2.3.2輔助名稱節(jié)點(diǎn)
2.3.3任務(wù)跟蹤器
2.3.4作業(yè)跟蹤器
2.4Hadoop 2.
2.4.1容器
2.4.2節(jié)點(diǎn)管理器
2.4.3資源管理器
2.4.4應(yīng)用程序管理器
2.4.5分步詳解YARN請(qǐng)求
2.5HDFS 的高可用性
2.6本章小結(jié)
第3章初識(shí)Hadoop框架
3.1安裝類型
3.1.1單機(jī)模式
3.1.2偽分布式集群模式
3.1.3多節(jié)點(diǎn)集群安裝模式
3.1.4基于Amazon EMR預(yù)安裝模式
3.2使用Cloudera虛擬機(jī)搭建開發(fā)環(huán)境
3.3一個(gè)MapReduce程序的組成
3.4第一個(gè)Hadoop程序
3.4.1以本地模式運(yùn)行程序的必要條件
3.4.2使用舊API編寫的單詞計(jì)數(shù)程序
3.4.3構(gòu)建程序
3.4.4在集群模式下運(yùn)行單詞計(jì)數(shù)程序
3.4.5使用新API編寫的單詞計(jì)數(shù)程序
3.4.6構(gòu)建程序
3.4.7在集群模式下運(yùn)行單詞計(jì)數(shù)程序
3.5Hadoop作業(yè)中的第三方函數(shù)庫(kù)
3.6本章小結(jié)
第4章Hadoop系統(tǒng)管理
4.1Hadoop的配置文件
4.2配置Hadoop守護(hù)進(jìn)程
4.3Hadoop配置文件的優(yōu)先級(jí)
4.4深入探究Hadoop配置文件
4.4.1coresite.xml
4.4.2hdfs*.xml
4.4.3mapredsite.xml
4.4.4yarnsite.xml
4.4.5YARN中的內(nèi)存分配
4.5調(diào)度器
4.5.1計(jì)算能力調(diào)度器
4.5.2公平調(diào)度器
4.5.3公平調(diào)度器配置
4.5.4 yarnsite.xml 配置
4.5.5策略文件的格式和配置
4.5.6按照drf策略來(lái)確定優(yōu)勢(shì)資源的分配
4.6從屬文件
4.7機(jī)架感知
4.8 集群管理工具
4.8.1檢查HDFS
4.8.2 HDFS管理命令行
4.8.3 均衡HDFS上的數(shù)據(jù)分布
4.8.4從HDFS中復(fù)制海量數(shù)據(jù)
4.9本章小結(jié)
第5章MapReduce開發(fā)基礎(chǔ)
5.1 Hadoop和數(shù)據(jù)處理
5.2 航空公司數(shù)據(jù)集介紹
5.2.1 準(zhǔn)備開發(fā)環(huán)境
5.2.2 準(zhǔn)備Hadoop系統(tǒng)
5.3 MapReduce編程模式
5.3.1 只有Map階段的作業(yè)(SELECT和WHERE查詢)
5.3.2 問(wèn)題定義―SELECT子句
5.3.3 問(wèn)題定義―WHERE子句
5.3.4 Map和Reduce作業(yè)(聚合查詢)
5.3.5 問(wèn)題定義―GROUP BY和SUM子句
5.3.6 應(yīng)用Combiner提高Aggregation性能
5.3.7 問(wèn)題定義―優(yōu)化后的Aggregators
5.3.8 Partitioner的作用
5.3.9 問(wèn)題定義―按月分離航空數(shù)據(jù)
5.4 綜合分析
5.5 本章小結(jié)
第6章MapReduce開發(fā)進(jìn)階
6.1 MapReduce編程模式
6.2 Hadoop I/O 介紹
6.3 問(wèn)題定義―排序
6.3.1 主要挑戰(zhàn):全排序
6.3.2 在Cluster中運(yùn)行Sorting作業(yè)
6.3.3 僅根據(jù)Writable鍵排序
6.3.4 根據(jù)排序回顧Hadoop的關(guān)鍵特性
6.4 問(wèn)題定義―分析連續(xù)的記錄
6.4.1 支持二次排序的重要組件
6.4.2 在沒(méi)有Grouping Comparator的情況下實(shí)現(xiàn)Secondary Sort
6.4.3 在Cluster中運(yùn)行SecondarySort作業(yè)
6.4.4 利用Secondary Sort回顧Hadoop的關(guān)鍵特性
6.5 問(wèn)題定義―使用MapReducer進(jìn)行連接
6.5.1 處理多輸入:MultipleInputs 類
6.5.2 具備多個(gè)輸入的Mapper類
6.5.3 自定義 Partitioner: CarrierCodeBasedPartioner
6.5.4 在Reducer中實(shí)現(xiàn)連接
6.5.5 在集群中運(yùn)行MapReduce連接作業(yè)
6.5.6 探討與MapReduce相關(guān)的Hadoop主要特性
6.6 問(wèn)題定義―使用MapOnly 作業(yè)進(jìn)行連接
6.6.1 基于DistributeCache的解決方案
6.6.2 在集群中運(yùn)行MapOnly的連接作業(yè)
6.6.3 總結(jié)探討MapOnly連接時(shí)的Hadoop關(guān)鍵特性
6.7 在MR作業(yè)中保存結(jié)果到多輸出文件
6.8 使用計(jì)數(shù)器收集統(tǒng)計(jì)數(shù)據(jù)
6.9 本章小結(jié)
第7章 Hadoop輸入/輸出
7.1 壓縮方式
7.1.1 壓縮內(nèi)容的選擇
7.1.2 各種壓縮方式
7.1.3 配置壓縮方式
7.2 Hadoop的I/O處理過(guò)程內(nèi)部
7.2.1 Inputformat
7.2.2 OutputFormat
7.2.3 自定義OutputFormat:將文本轉(zhuǎn)換成XML
7.2.4 自定義 InputFormat:使用自定義的XML文件
7.3 Hadoop文件
7.3.1 SequenceFile
7.3.2 MapFiles
7.3.3 Avro Files
7.4 本章小結(jié)
第8章 測(cè)試Hadoop程序
8.1 回顧一下單詞統(tǒng)計(jì)的程序
8.2 MRUnit概述
8.2.1 安裝MRUnit
8.2.2 MRUnit 核心類
8.2.3 編寫一個(gè)MRUnit測(cè)試用例
8.2.4 測(cè)試計(jì)數(shù)器
8.2.5 MRUnit的特性
8.2.6 MRUnit的局限性
8.3 用LocalJobRunner測(cè)試
8.3.1 setUp( )方法
8.3.2 LocalJobRunner的局限性
8.4 用MiniMRCluster測(cè)試
8.4.1 配置開發(fā)環(huán)境
8.4.2 MiniMRCluster例子
8.4.3 MiniMRCluster的局限性
8.5 對(duì)訪問(wèn)網(wǎng)絡(luò)資源的MR作業(yè)進(jìn)行測(cè)試
8.6 本章小結(jié)
第9章Hadoop的監(jiān)控
9.1 在Hadoop MapReduce Jobs中寫日志消息
9.2 在Hadoop MapReduce Jobs中查看日志消息
9.3 在Hadoop 2.x中使用日志管理
9.3.1 Hadoop 2.x中的日志存儲(chǔ)
9.3.2 日志管理提升
9.3.3 使用基于Web的界面查看日志
9.3.4 命令行界面
9.3.5 日志的保存
9.4 Hadoop集群性能監(jiān)控
9.5 使用YARN REST API
9.6 使用供應(yīng)商工具管理Hadoop集群
9.7 本章小結(jié)
第10章使用Hadoop構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)
10.1 Apache Hive
10.1.1 安裝Hive
10.1.2 Hive的架構(gòu)
10.1.3 元數(shù)據(jù)存儲(chǔ)
10.1.4 HiveQL編譯基礎(chǔ)
10.1.5 Hive使
……
第11章 使用Pig進(jìn)行數(shù)據(jù)處理
第12章 HCatalog和企業(yè)級(jí)Hadoop
第13章 使用Hadoop分析日志
第14章 使用HBase構(gòu)建實(shí)時(shí)系統(tǒng)
第15章 Hadoop與數(shù)據(jù)科學(xué)
第16章 Hadoop與云計(jì)算
第17章 構(gòu)建YARN應(yīng)用程序
附錄