定 價(jià):39.8 元
叢書名:普通高等教育人工智能與大數(shù)據(jù)系列教材
- 作者:劉科峰
- 出版時(shí)間:2023/8/1
- ISBN:9787111719915
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP274
- 頁(yè)碼:
- 紙張:膠版紙
- 版次:
- 開(kāi)本:16開(kāi)
本書以Hadoop 3.3.0為核心,涵蓋Hadoop生態(tài)系統(tǒng)的常用組件,主要介紹各組件的架構(gòu)原理、Shell命令、常用API及編程等,并配有較多例題。全書共7章,內(nèi)容包含Hadoop概述、Hadoop偽分布式安裝、Hadoop分布式文件系統(tǒng)HDFS、分布式計(jì)算框架MapReduce、分布式數(shù)據(jù)庫(kù)HBase、數(shù)據(jù)倉(cāng)庫(kù)Hive和內(nèi)存計(jì)算框架Spark,第2~7章還設(shè)計(jì)了相關(guān)實(shí)驗(yàn)。
本書可以作為高等院校大數(shù)據(jù)、計(jì)算機(jī)、應(yīng)用統(tǒng)計(jì)等相關(guān)專業(yè)的教材,也可作為Hadoop愛(ài)好者的入門教程或自學(xué)參考用書。
本書配有電子課件,歡迎選用本書作教材的教師登錄www.cmpedu.com注冊(cè)后下載,或加微信13910750469索取。
大數(shù)據(jù)時(shí)代的來(lái)臨,帶來(lái)了信息技術(shù)的巨大變革,并深刻影響著人們生活和社會(huì)生產(chǎn)的方方面面。Hadoop是一個(gè)開(kāi)源的、可運(yùn)行于大規(guī)模集群上的分布式存儲(chǔ)和計(jì)算的軟件框架,用戶可以在不了解分布式底層細(xì)節(jié)的情況下開(kāi)發(fā)分布式程序,并能充分利用集群的威力進(jìn)行高速運(yùn)算和存儲(chǔ)。大數(shù)據(jù)的核心技術(shù)就是Hadoop及其生態(tài)系統(tǒng)的常用組件,包括HBase、Hive和Spark等。
目前市面上雖然已有較多關(guān)于Hadoop的書籍,但是這些書籍大多是基于Hadoop 2.X,而且偏重理論講述,內(nèi)容較多,學(xué)習(xí)難度較大,容易打擊初學(xué)者的學(xué)習(xí)積極性,讓其難以入門。本書以Hadoop 3.3.0為核心,涵蓋Hadoop生態(tài)系統(tǒng)的常用組件,內(nèi)容新穎,可操作性強(qiáng),講解通俗易懂,能使讀者在較短的時(shí)間內(nèi)掌握Hadoop大數(shù)據(jù)技術(shù)。
本書特色
1.容易入門
相對(duì)于其他書籍,本書增加Linux基礎(chǔ)知識(shí)和Linux基本命令,不熟悉Linux的讀者也容易上手;對(duì)Hadoop及其他相關(guān)軟件的安裝和使用過(guò)程進(jìn)行了詳細(xì)描述,幫助讀者渡過(guò)安裝和使用相關(guān)軟件的難關(guān)。
2.版本新
隨著時(shí)間的推移,Hadoop及其生態(tài)系統(tǒng)的常用組件也在不斷發(fā)展,版本不斷更新,本書采用的軟件版本較新,如Hadoop 3.3.0、HBase 2.2.2、Hive 3.1.2、Spark 3.2.1等。
3.較多的應(yīng)用實(shí)例
本書提供了較多的應(yīng)用實(shí)例,以便幫助讀者理論聯(lián)系實(shí)際,快速地掌握Hadoop及其生態(tài)系統(tǒng)的常用組件的編程技術(shù)。
4.圖文并茂
“一圖勝千言”,全書共有兩百多幅插圖,用于展示語(yǔ)言難以描述的內(nèi)容。
適合閱讀本書的讀者
(1)高等院校、中職學(xué)校的師生。
(2)Hadoop大數(shù)據(jù)技術(shù)初學(xué)者。
(3)Hadoop大數(shù)據(jù)應(yīng)用開(kāi)發(fā)人員。
致謝
在本書的編寫過(guò)程中,得到了廈門大學(xué)林子雨副教授的大力幫助,還得到了廣東時(shí)匯信息科技有限公司和廣東泰迪智能科技股份有限公司的幫助,在此一并表示衷心的感謝。非常感謝機(jī)械工業(yè)出版社吉玲編輯,她專業(yè)細(xì)致的工作方式,給編者留下了深刻的印象。
前言由于編者水平有限,編寫時(shí)間倉(cāng)促,書中的錯(cuò)誤和疏漏在所難免,懇請(qǐng)廣大讀者提出寶貴意見(jiàn)和建議。聯(lián)系郵箱:lkf547@163.com。
編者于廣東工業(yè)大學(xué)
前言
第1章Hadoop概述
1.1大數(shù)據(jù)簡(jiǎn)介
1.2Hadoop簡(jiǎn)介
1.3Hadoop特性
1.4Hadoop核心組件
1.4.1HDFS
1.4.2MapReduce
1.4.3YARN
1.5Hadoop生態(tài)系統(tǒng)
1.5.1HBase
1.5.2Hive
1.5.3Pig
1.5.4Spark
1.5.5ZooKeeper
1.5.6Sqoop
1.5.7Flume
1.5.8Mahout
1.5.9Ambari
1.6本章小結(jié)
習(xí)題
第2章Hadoop偽分布式安裝
2.1Linux操作系統(tǒng)
2.1.1概述
2.1.2Linux的組成
2.1.3Linux的內(nèi)核版本與發(fā)行版本
2.1.4Linux基本命令
2.2CentOS的安裝
2.2.1安裝VMware Workstation
2.2.2在VMware上安裝CentOS 7
2.2.3配置CentOS 7
2.3Hadoop偽分布式安裝與配置
2.3.1安裝WinSCP
2.3.2安裝JDK
2.3.3安裝Hadoop
2.4本章小結(jié)
習(xí)題
實(shí)驗(yàn)Hadoop偽分布式安裝與配置
第3章Hadoop分布式文件系統(tǒng)HDFS
3.1HDFS的架構(gòu)和原理
3.1.1計(jì)算機(jī)集群結(jié)構(gòu)
3.1.2HDFS的假設(shè)前提和設(shè)計(jì)目標(biāo)
3.1.3HDFS的相關(guān)概念
3.1.4HDFS體系結(jié)構(gòu)
3.1.5HDFS存儲(chǔ)原理
3.2HDFS Shell
3.3HDFS Java API
3.3.1搭建Linux操作系統(tǒng)下的Eclipse開(kāi)發(fā)環(huán)境
3.3.2HDFS Java API常用的類
3.3.3HDFS Java API 編程
3.4本章小結(jié)
習(xí)題
實(shí)驗(yàn)HDFS基本命令的使用和HDFS的Java編程
第4章分布式計(jì)算框架MapReduce
4.1認(rèn)識(shí)MapReduce
4.1.1分布式并行編程
4.1.2MapReduce核心思想
4.1.3MapReduce運(yùn)行環(huán)境
4.1.4Hadoop內(nèi)置數(shù)據(jù)類型
4.2MapReduce工作流程
4.2.1MapReduce工作流程概述
4.2.2Shuffle過(guò)程分析
4.3MapReduce入門示例:WordCount
4.3.1WordCount程序任務(wù)
4.3.2準(zhǔn)備被統(tǒng)計(jì)的文件
4.3.3WordCount執(zhí)行過(guò)程分析
4.3.4WordCount編程實(shí)踐
4.4MapReduce應(yīng)用實(shí)例
4.4.1求平均值
4.4.2簡(jiǎn)單查詢功能的實(shí)現(xiàn)
4.5本章小結(jié)
習(xí)題
實(shí)驗(yàn)簡(jiǎn)單排序的實(shí)現(xiàn)
第5章分布式數(shù)據(jù)庫(kù)HBase
5.1概述
5.1.1BigTable簡(jiǎn)介
5.1.2HBase簡(jiǎn)介
5.1.3HBase具有的特點(diǎn)
5.2HBase數(shù)據(jù)模型
5.2.1數(shù)據(jù)模型概述
5.2.2數(shù)據(jù)模型的相關(guān)概念
5.3HBase系統(tǒng)架構(gòu)
5.4HBase偽分布式安裝
5.4.1安裝并配置環(huán)境變量
5.4.2配置HBase參數(shù)
5.4.3驗(yàn)證HBase
5.5HBase Shell
5.5.1HBase Shell常用命令
5.5.2HBase Shell應(yīng)用實(shí)例
5.6HBase Java API
5.6.1HBase Java API 簡(jiǎn)介
5.6.2HBase Java API 編程
5.7本章小結(jié)
習(xí)題
實(shí)驗(yàn)HBase編程實(shí)踐
第6章數(shù)據(jù)倉(cāng)庫(kù)Hive
6.1概述
6.1.1數(shù)據(jù)倉(cāng)庫(kù)簡(jiǎn)介
6.1.2Hive簡(jiǎn)介
6.1.3Hive與關(guān)系型數(shù)據(jù)庫(kù)的區(qū)別
6.1.4Hive系統(tǒng)架構(gòu)
6.2Hive偽分布式安裝
6.2.1MySQL的安裝和配置
6.2.2Hive的安裝和配置
6.3Hive編程基礎(chǔ)
6.3.1Hive的數(shù)據(jù)類型
6.3.2數(shù)據(jù)庫(kù)相關(guān)操作
6.3.3表相關(guān)操作
6.3.4表中數(shù)據(jù)的加載
6.3.5HiveQL基本查詢
6.3.6Hive函數(shù)
6.4Hive編程實(shí)例
6.4.1雇員表統(tǒng)計(jì)
6.4.2詞頻統(tǒng)計(jì)
6.5本章小結(jié)
習(xí)題
實(shí)驗(yàn)Hive的編程實(shí)踐
第7章內(nèi)存計(jì)算框架Spark
7.1Spark基礎(chǔ)知識(shí)
7.1.1Spark簡(jiǎn)介
7.1.2Spark生態(tài)系統(tǒng)
7.1.3Spark運(yùn)行架構(gòu)
7.2Scala基礎(chǔ)知識(shí)
7.2.1Scala簡(jiǎn)介
7.2.2Scala安裝
7.2.3Scala編程
7.3Spark偽分布式安裝
7.3.1Spark的安裝模式
7.3.2Spark的安裝
7.4RDD編程基礎(chǔ)
7.4.1Spark Shell的啟動(dòng)和退出
7.4.2RDD創(chuàng)建
7.4.3常用的RDD操作
7.4.4RDD編程實(shí)例
7.5IDEA的安裝和使用
7.5.1IDEA的安裝
7.5.2IDEA的使用
7.5.3獨(dú)立應(yīng)用程序?qū)嵗?br>7.6本章小結(jié)
習(xí)題
實(shí)驗(yàn)Spark Shell交互式編程
參考文獻(xiàn)