Spark大數(shù)據(jù)處理技術(shù)
定 價(jià):65 元
- 作者:夏俊鸞
- 出版時(shí)間:2015/1/1
- ISBN:9787121250811
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP274
- 頁(yè)碼:336
- 紙張:純質(zhì)紙
- 版次:1
- 開本:16開
本書以Spark 0.9版本為基礎(chǔ)進(jìn)行編寫,是一本全面介紹Spark及Spark生態(tài)圈相關(guān)技術(shù)的書籍,是國(guó)內(nèi)首本深入介紹 Spark 原理和架構(gòu)的技術(shù)書籍。主要內(nèi)容有 Spark 基礎(chǔ)功能介紹及內(nèi)部重要模塊分析,包括部署模式、調(diào)度框架、存儲(chǔ)管理以及應(yīng)用監(jiān)控;同時(shí)也詳細(xì)介紹了 Spark 生態(tài)圈中其他的軟件和模塊,包括 SQL 處理引擎 Shark 和 Spark SQL、流式處理引擎 Spark Streaming、圖計(jì)算框架 Graphx 以及分布式內(nèi)存文件系統(tǒng) Tachyon。本書從概念和原理上對(duì) Spark 核心框架和生態(tài)圈做了詳細(xì)的解讀,并對(duì) Spark 的應(yīng)用現(xiàn)狀和未來發(fā)展做了一定的介紹,旨在為大數(shù)據(jù)從業(yè)人員和 Spark愛好者提供一個(gè)更深入學(xué)習(xí)的平臺(tái)。
本書適合任何大數(shù)據(jù)、Spark 領(lǐng)域的從業(yè)人員閱讀,同時(shí)也為架構(gòu)師、軟件開發(fā)工程師和大數(shù)據(jù)愛好者展現(xiàn)了一個(gè)現(xiàn)代大數(shù)據(jù)框架的架構(gòu)原理和實(shí)現(xiàn)細(xì)節(jié)。相信通過學(xué)習(xí)本書,讀者能夠熟悉和掌握 Spark 這一當(dāng)前流行的大數(shù)據(jù)框架,并將其投入到生產(chǎn)實(shí)踐中去。
全球首部全面介紹Spark及Spark生態(tài)圈相關(guān)技術(shù)的技術(shù)書籍 俯覽未來大局,不失精細(xì)剖析,呈現(xiàn)一個(gè)現(xiàn)代大數(shù)據(jù)框架的架構(gòu)原理和實(shí)現(xiàn)細(xì)節(jié) 透徹講解Spark原理和架構(gòu),以及部署模式、調(diào)度框架、存儲(chǔ)管理及應(yīng)用監(jiān)控等重要模塊 Spark生態(tài)圈深度檢閱:SQL處理Shark和Spark SQL、流式處理Spark Streaming、圖計(jì)算Graphx及內(nèi)存文件系統(tǒng)Tachyon
夏俊鸞 現(xiàn)任阿里巴巴數(shù)據(jù)平臺(tái)部高級(jí)技術(shù)專家,Apache Spark項(xiàng)目Committer,曾就職于英特爾亞太研發(fā)中心,微博賬號(hào)@Andrew-Xia。
劉旭暉 現(xiàn)任蘑菇街?jǐn)?shù)據(jù)平臺(tái)資深架構(gòu)師(花名天火),曾就職于英特爾亞太研發(fā)中心大數(shù)據(jù)軟件部,Spark/Hadoop/Hbase/Phoenix 等眾多大數(shù)據(jù)相關(guān)開源項(xiàng)目的積極貢獻(xiàn)者。樂于分享,著有CSDN博客 blog.csdn.net/colorant。
邵賽賽 英特爾亞太研發(fā)有限公司開發(fā)工程師,專注于大數(shù)據(jù)領(lǐng)域,開源愛好者,現(xiàn)從事Spark相關(guān)工作,Spark代碼貢獻(xiàn)者。
程浩 英特爾大數(shù)據(jù)技術(shù)團(tuán)隊(duì)軟件工程師,Shark和Spark SQL活躍開發(fā)者,致力于SQL on Big Data的性能調(diào)優(yōu)與優(yōu)化。
史鳴飛 英特爾亞太研發(fā)有限公司大數(shù)據(jù)軟件部工程師,專注于大數(shù)據(jù)領(lǐng)域,主要從事Spark及相關(guān)項(xiàng)目的開發(fā)及應(yīng)用,Spark及Shark代碼貢獻(xiàn)者,現(xiàn)在主要投身于Tachyon項(xiàng)目的開發(fā)。
黃潔 目前就職于英特爾亞太研發(fā)中心大數(shù)據(jù)技術(shù)中心,擔(dān)任高級(jí)軟件工程師,致力于大數(shù)據(jù)技術(shù)的性能優(yōu)化及開發(fā)工作,涉及Hadoop、Spark、HBase等開源項(xiàng)目。在多年的工作過程中,積累了一定的分布式大數(shù)據(jù)框架性能調(diào)優(yōu)經(jīng)驗(yàn),并且是Apache Chukwa項(xiàng)目的PMC成員和Committer。在此之前,畢業(yè)于上海交通大學(xué)并獲碩士及學(xué)士學(xué)位。
第1章 Spark系統(tǒng)概述
1.1 大數(shù)據(jù)處理框架
1.2 Spark大數(shù)據(jù)處理框架
1.2.1 RDD表達(dá)能力
1.2.2 Spark子系統(tǒng)
1.3 小結(jié)
第2章 Spark RDD及編程接口
2.1 Spark程序“Hello World”
2.2 Spark RDD
2.2.1 RDD分區(qū)(partitions)
2.2.2 RDD優(yōu)先位置(preferredLocations)
2.2.3 RDD依賴關(guān)系(dependencies)
2.2.4 RDD分區(qū)計(jì)算(compute)
2.2.5 RDD分區(qū)函數(shù)(partitioner)
2.3 創(chuàng)建操作 第1章 Spark系統(tǒng)概述
1.1 大數(shù)據(jù)處理框架
1.2 Spark大數(shù)據(jù)處理框架
1.2.1 RDD表達(dá)能力
1.2.2 Spark子系統(tǒng)
1.3 小結(jié)
第2章 Spark RDD及編程接口
2.1 Spark程序“Hello World”
2.2 Spark RDD
2.2.1 RDD分區(qū)(partitions)
2.2.2 RDD優(yōu)先位置(preferredLocations)
2.2.3 RDD依賴關(guān)系(dependencies)
2.2.4 RDD分區(qū)計(jì)算(compute)
2.2.5 RDD分區(qū)函數(shù)(partitioner)
2.3 創(chuàng)建操作
2.3.1 集合創(chuàng)建操作
2.3.2 存儲(chǔ)創(chuàng)建操作
2.4 轉(zhuǎn)換操作
2.4.1 RDD基本轉(zhuǎn)換操作
2.4.2 鍵值RDD轉(zhuǎn)換操作
2.4.3 再論RDD依賴關(guān)系
2.5 控制操作(control operation)
2.6 行動(dòng)操作(action operation)
2.6.1 集合標(biāo)量行動(dòng)操作
2.6.2 存儲(chǔ)行動(dòng)操作
2.7 小結(jié)
第3章 Spark運(yùn)行模式及原理
3.1 Spark運(yùn)行模式概述
3.1.1 Spark運(yùn)行模式列表
3.1.2 Spark基本工作流程
3.1.3 相關(guān)基本類
3.2 Local模式
3.2.1 部署及程序運(yùn)行
3.2.2 內(nèi)部實(shí)現(xiàn)原理
3.3 Standalone模式
3.3.1 部署及程序運(yùn)行
3.3.2 內(nèi)部實(shí)現(xiàn)原理
3.4 Local cluster模式
3.4.1 部署及程序運(yùn)行
……
第4章 Spark調(diào)度管理原理
第5章 Spark的存儲(chǔ)管理
第6章 Spark監(jiān)控管理
第7章 Spark架構(gòu)與安裝配置
第8章 SQL程序擴(kuò)展
第9章 Spark SQL
第10章 Spark Streaming流數(shù)據(jù)處理框架
第11章 GraphX計(jì)算框架
第12章 Tachyon存儲(chǔ)系統(tǒng)