Spark大數(shù)據(jù)處理技術(shù)(普通高等教育數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)專業(yè)教材)
定 價:48 元
- 作者:劉仁山,周洪翠,莊新妍著,劉仁山,周洪翠,莊新妍編
- 出版時間:2022/2/1
- ISBN:9787522604855
- 出 版 社:中國水利水電出版社
- 中圖法分類:TP274
- 頁碼:268
- 紙張:
- 版次:1
- 開本:大16開
本書面向大數(shù)據(jù)技術(shù)專業(yè),遵循知識性、實用性、系統(tǒng)性、條理性、連貫性和先進性的原則,力求激發(fā)讀者的興趣,注重實踐性環(huán)節(jié)教學,注重各知識點之間的銜接,精心組織內(nèi)容,做到由淺入深、突出重點。本章共 9 章,第 1 章為 Spark 基礎(chǔ),主要包括 Spark 基礎(chǔ)知識、Spark 應用場景以及 Spark 生態(tài)系統(tǒng)等內(nèi)容;第 2 章為 Scala 語言基礎(chǔ)和面向?qū)ο缶幊,包?Scala 編程基礎(chǔ)、Scala 數(shù)組和集合以及映射、Scala 對象和多繼承等內(nèi)容;第 3 章為 Spark 設(shè)計與運行原理,包括 Spark 架構(gòu)、Spark Core 組成、Spark編程模型和計算模型等內(nèi)容;第4章為Spark環(huán)境搭建和使用,包括Spark系列軟件環(huán)境配置(JDK、Hadoop、MySQL-Server、Hive、ZooKeeper 、Scala、Kafka、Spark)和 Spark-shell 交互式命令工具使用等內(nèi)容;第 5 章為 Spark RDD 彈性分布式數(shù)據(jù)集,包括 RDD 創(chuàng)建方式、RDD 轉(zhuǎn)換算子和行動算子操作方法等內(nèi)容;第 6 章為 Spark SQL 結(jié)構(gòu)化數(shù)據(jù)處理引擎,包括 DataFrame 和 DataSet 的創(chuàng)建和操作以及利用 Spark SQL 操作 MySQL 數(shù)據(jù)源等內(nèi)容;第 7 章為 Spark Streaming 實時流處理引擎,包括Spark Streaming 程序開發(fā)、DStream 高級數(shù)據(jù)源使用和數(shù)據(jù)轉(zhuǎn)換操作等內(nèi)容;第 8 章為 Spark MLlib 機器學習,包括機器學習基礎(chǔ)、Spark MLlib 機器學習庫和常用算法等內(nèi)容;第 9 章為訂單交易監(jiān)控系統(tǒng),主要完成訂單交易實時監(jiān)控平臺的搭建,通過綜合案例全面應用了 Spark 大數(shù)據(jù)處理技術(shù)中幾乎所有知識點,幫助讀者學習使用 Spark 進行大數(shù)據(jù)技術(shù)開發(fā)和應用。本書可作為本?苹蚋呗氃盒W生大數(shù)據(jù)技術(shù)課程教材,也可供大數(shù)據(jù)技術(shù)愛好者或其他對大數(shù)據(jù)技術(shù)感興趣的人員學習。本書配有電子課件,讀者可以從中國水利水電出版社網(wǎng)站(www.waterpub.com.cn)或萬水書苑網(wǎng)站(www.wsbookshow.com)免費下載。
前言
第1章 Spark基礎(chǔ)
1.1 初識Spark
1.1.1 Spark簡介
1.1.2 Spark發(fā)展
1.2 Spark應用場景
1.3 Spark生態(tài)系統(tǒng)
1.4 Spark與Hadoop對比
1.5 Spark多語言編程
本章小結(jié)
練習一
第2章 Scala語言基礎(chǔ)
2.1 Scala語言概述
2.1.1 Scala語言簡介
2.1.2 Scala編譯器安裝
2.2 Scala命名規(guī)范
2.2.1 基本語法
2.2.2 Scala關(guān)鍵字
2.2.3 Scala注釋
2.3 變量
2.3.1 val變量
2.3.2 var變量
2.4 數(shù)據(jù)類型和運算符
2.4.1 數(shù)據(jù)類型
2.4.2 運算符
2.5 Scala控制結(jié)構(gòu)
2.5.1 if…else語句
2.5.2 循環(huán)語句
2.6 函數(shù)的定義和調(diào)用
2.6.1 內(nèi)置函數(shù)和自定義函數(shù)
2.6.2 函數(shù)的參數(shù)
2.7 Scala的lazy值
2.8 異常Exception的處理
2.9 數(shù)組
2.9.1 定長數(shù)組和變長數(shù)組
2.9.2 遍歷數(shù)組
2.9.3 數(shù)組轉(zhuǎn)換
2.9.4 數(shù)組常用方法
2.10 元組
2.10.1 創(chuàng)建元組
2.10.2 元組的訪問和遍歷
2.10.3 拉鏈操作
2.11 集合
2.11.1 列表(List)
2.11.2 集合(Set)
2.11.3 映射(Map)
2.12 類
2.12.1 類的定義
2.12.2 get方法和set方法
2.12.3 構(gòu)造器
2.12.4 內(nèi)部類
2.13 單例對象和伴生對象
2.13.1 單例(object)對象
2.13.2 伴生對象
2.13.3 apply方法
2.14 Scala中的繼承
2.14.1 父類具有無參構(gòu)造器的繼承
2.14.2 父類具有帶參構(gòu)造器的繼承
2.15 抽象
2.16 Scala中的特質(zhì)
2.16.1 將特質(zhì)作為接口使用
2.16.2 在特質(zhì)中定義具體的方法
2.16.3 混合使用特質(zhì)的具體方法和抽象方法
2.17 Scala包和引用
2.17.1 創(chuàng)建包
2.17.2 引用
2.17.3 包重命名和隱藏方法
本章小結(jié)
練習二
第3章 Spark設(shè)計與運行原理
3.1 Spark架構(gòu)設(shè)i計
3.1.1 Spark相關(guān)術(shù)誘
3.1.2 Spark架構(gòu)
3.1.3 Spark運行流程
3.2 Spark核心功能
3.2.1 Spark Core組成
3.2.2 Spark編程模型
3.2.3 Spark計算模型
3.3 Spark運行模式
3.3.1 Local(本地)模式
3.3.2 Standalone(獨立)模式
3.3.3 Mesos(Spark on Mesos)模式
3.3.4 Yarm(Spark on Yam)模式
本章小結(jié)
練習三
第4章 Spark環(huán)境搭建和使用
4.1 Spark開發(fā)環(huán)境閥述
4.2 操作系統(tǒng)及其網(wǎng)絡(luò)環(huán)境準備
4.2.1 操作系統(tǒng)環(huán)境
4.2.2 遠程登錄
4.2.3 Limux系統(tǒng)軟件源配置
4.2.4 安裝和配置第二臺和第三臺虛擬機
4.3 Spark環(huán)境搭建
4.3.1 安裝JDK
4.3.2 安裝Hadoop
4.3.3 安裝MySQL Server
4.3.4 安裝Hive
4.3.5 安裝ZooKeeper
4.3.6 安裝Scala
4.3.7 安裝Kafka
4.3.8 安裝Spark
4.4 Spark集群環(huán)境測試
4.4.1 使用Spark-submit提交任務(wù)
4.4.2 使用Spark-shell交互式命令工具
本章小結(jié)
練習四
策5章 Spark RDD彈性分布式數(shù)據(jù)集
5.1 RDD簡介
5.1.1 RDD的特征
5.1.2 詞頻統(tǒng)計(WordCount)案例實現(xiàn)過程
S.1.3 RDD的創(chuàng)建
5.2 常用操作
5.2.1 常用的轉(zhuǎn)換
5.2.2 常用的動作
5.2.3 實例操作
5.3 RDD的分區(qū)
5.3.1 分區(qū)的概念
5.3.2 分區(qū)原則和方法
3.4 持久化
5.4.1 持久化存儲級別
5.4.2 持久化存儲級別的選擇
5.5 容錯機制
3.6 綜合實例
本章小結(jié)
練習五
第6章 Spark SQL結(jié)構(gòu)化數(shù)據(jù)處理引單
6.1 Spark SQL的基礎(chǔ)知識
6.1.1 Spark SQL簡介
6.1.2 Spark SQL數(shù)據(jù)抽象
6.1.3 程序主入口Spark:Session
6.2 DataFrame
6.2.1 DataFrame簡介
6.2.2 創(chuàng)建DataFrame
6.2.3 DataFrame查看操作
6.2.4 DataFrame查詢操作
6.2.5 DataFrame輸出操作
6.3 DataSet
6.3.1 DataSet簡介
6.3.2 創(chuàng)建DataSet
6.4 Spark SQL操作數(shù)據(jù)源
本章小結(jié)
練習六
第7章 Spark Streaming實時流處理引單
7.1 離線計算與實時計算
7.1.1 離線計算
7.1.2 實時計算
7.1.3 離線計算與實時計算比較
7.2 初探Spark Streaming
7.2.1 Spark Streaming簡介
7.2.2 Spark Streaming工作原理
7.2.3 Spark Streaming入門程序
7.3 Spark Streaming程序開發(fā)
7.3.1 Spark Streaming環(huán)境準備
7.3.2 Spark Streaming項目搭建
7.3.3 Spark Streaming核心代碼
7.3.4 Spark Streaming啟動及測試
7.4 DStream輸入
7.4.1 離散流(DStream)
7.4.2 DStream輸入源
7.4.3 文件流數(shù)據(jù)源
7.4.4 RDD隊列流
7.4.5 Spark Streaming整合Flume
7.4.6