大數(shù)據(jù)技術(shù)與應(yīng)用基礎(chǔ)
定 價:39.8 元
叢書名: 21世紀(jì)高等院校云計算和大數(shù)據(jù)人才培養(yǎng)規(guī)劃教材
- 作者:陳志德 曾燕清 李翔宇
- 出版時間:2017/1/1
- ISBN:9787115443472
- 出 版 社:人民郵電出版社
- 中圖法分類:TP274
- 頁碼:212
- 紙張:膠版紙
- 版次:1
- 開本:16K
本書在介紹大數(shù)據(jù)發(fā)展背景、特點及主要技術(shù)層面的基礎(chǔ)上,對大數(shù)據(jù)的數(shù)據(jù)采集、數(shù)據(jù)存儲、常見計算模式和典型系統(tǒng)工具進行了分析介紹。本書同時對各種典型系統(tǒng)工具進行了講解,包括大數(shù)據(jù)查詢分析計算及典型工具(HBase、Hive)、批處理計算及典型工具(MapReduce、Spark)、流式計算及典型工具(Storm、Apex、Flink)、事件流及典型工具(Druid)等。
本書提供了大量的實例和源代碼供讀者參考,指導(dǎo)讀者快速、無障礙地了解和掌握常見大數(shù)據(jù)分析工具的使用。本書適合作為計算機及相關(guān)專業(yè)的教學(xué)用書,也可以作為大數(shù)據(jù)初學(xué)者的自學(xué)教材和參考手冊。
1.內(nèi)容豐富多樣,對比學(xué)習(xí)
考慮當(dāng)前大數(shù)據(jù)發(fā)展處于起步并逐步趕超先進,其應(yīng)用領(lǐng)域豐富廣泛,本書除了介紹典型開源大數(shù)據(jù)處理框架Apache Hadoop框架之外,還介紹了批處理計算Spark、流式計算及典型工具(Storm、Apex、Flink)和事件流及典型工具(Druid)等,讓讀者了解不同類型工具系統(tǒng)的特點,并配以豐富簡單易上手的實例,讓讀者能夠切實體會和掌握各種類型工具的特點和應(yīng)用。
2.輕量級理論,重在培養(yǎng)動手實踐能力
為了讓讀者能夠快速掌握技能并保證理論能夠適應(yīng)實踐要求,本書本著輕量級理論原則,給出豐富的實例、詳實的實驗操作步驟和使用普通讀者也易于配置的實驗環(huán)境,讓讀者能夠快速上手,在做中學(xué)。
3.有效結(jié)合實際應(yīng)用
除了各章節(jié)給出的配套實例外,本書在最后還給出電商領(lǐng)域的大數(shù)據(jù)分析綜合實例,以實際行業(yè)應(yīng)用案例說明大數(shù)據(jù)處理和計算工具的使用以及進一步闡述大數(shù)據(jù)行業(yè)應(yīng)用的重大意義。
陳志德,2005年至今在福建師范大學(xué)數(shù)學(xué)與計算機科學(xué)學(xué)院工作,任計算機系副主任。主要研究方向包括網(wǎng)絡(luò)與信息安全、物聯(lián)網(wǎng)與移動計算等,指導(dǎo)碩士研究生20多人,指導(dǎo)研究生的學(xué)位論文曾獲校優(yōu)秀碩士論文一等獎。近年來主持福建省自然科學(xué)基金、福建省科技廳K類基金等項目10項,參與國家自然科學(xué)基金和省科技廳高校產(chǎn)學(xué)合作科技重大項目課題各1項。出版學(xué)術(shù)專著2本,教材1本。在Journal of Computer and System Sciences、Concurrency and Computation: Practice and Experience等期刊發(fā)表學(xué)術(shù)論文40多篇,申請專利10多項,軟件著作權(quán)10多項。擔(dān)任CTCIS和NSS等國內(nèi)和國際學(xué)術(shù)會議的程序委員會委員。
第1章 大數(shù)據(jù)概述 1
1.1 大數(shù)據(jù)的發(fā)展 1
1.2 大數(shù)據(jù)的概念及特征 2
1.2.1 大數(shù)據(jù)的概念 2
1.2.2 大數(shù)據(jù)的特征 2
1.3 大數(shù)據(jù)的產(chǎn)生及數(shù)據(jù)類型 3
1.3.1 大數(shù)據(jù)的產(chǎn)生 3
1.3.2 數(shù)據(jù)類型 3
1.4 大數(shù)據(jù)計算模式和系統(tǒng) 4
1.5 大數(shù)據(jù)的主要技術(shù)層面和技術(shù)內(nèi)容 4
1.6 大數(shù)據(jù)的典型應(yīng)用 6
1.7 本章小結(jié) 7
第2章 數(shù)據(jù)獲取 8
2.1 Scrapy環(huán)境搭建 8
2.2 爬蟲項目創(chuàng)建 8
2.3 采集目標(biāo)數(shù)據(jù)項定義 10
2.4 爬蟲核心實現(xiàn) 11
2.5 數(shù)據(jù)存儲 15
2.6 爬蟲運行 17
2.7 本章小結(jié) 18
第3章 Hadoop基礎(chǔ) 19
3.1 Hadoop概述 19
3.2 Hadoop原理 20
3.2.1 Hadoop HDFS原理 20
3.2.2 Hadoop MapReduce原理 21
3.2.3 Hadoop YARN原理 22
3.3 Hadoop的安裝與配置 24
3.4 Hadoop生態(tài)系統(tǒng)簡介 46
3.5 本章小結(jié) 47
第4章 HDFS基本應(yīng)用 48
4.1 實戰(zhàn)命令行接口 48
4.2 實戰(zhàn)Java接口 52
4.3 數(shù)據(jù)流 60
4.3.1 數(shù)據(jù)流簡介 60
4.3.2 數(shù)據(jù)流讀取 61
4.3.3 數(shù)據(jù)流寫入 62
4.4 本章小結(jié) 64
第5章 MapReduce應(yīng)用開發(fā) 65
5.1 配置Hadoop MapReduce開發(fā)環(huán)境 65
5.1.1 系統(tǒng)環(huán)境及所需文件 65
5.1.2 安裝Eclipse 65
5.1.3 向Eclipse中添加插件 66
5.2 編寫和運行第一個MapReduce程序前的準(zhǔn)備 69
5.2.1 系統(tǒng)環(huán)境及所需要的文件 69
5.2.2 建立運行MapReduce程序的依賴環(huán)境 69
5.2.3 建立編寫MapReduce程序的依賴包 70
5.3 MapReduce應(yīng)用案例 78
5.3.1 單詞計數(shù) 78
5.3.2 數(shù)據(jù)去重 82
5.3.3 排序 85
5.3.4 單表關(guān)聯(lián) 89
5.3.5 多表關(guān)聯(lián) 95
5.4 本章小結(jié) 102
第6章 分布式數(shù)據(jù)庫HBase 103
6.1 HBase簡介 103
6.2 HBase接口 103
6.3 安裝HBase集群 104
6.3.1 系統(tǒng)環(huán)境 104
6.3.2 安裝ZooKeeper 104
6.3.3 安裝HBase 106
6.4 HBase Shell 108
6.5 HBase API 110
6.6 HBase綜合實例 113
6.7 本章小結(jié) 118
第7章 數(shù)據(jù)倉庫工具Hive 119
7.1 Hive簡介 119
7.2 Hive接口實戰(zhàn) 119
7.3 Hive復(fù)雜語句實戰(zhàn) 124
7.4 Hive綜合實例 127
7.4.1 準(zhǔn)備數(shù)據(jù) 127
7.4.2 在Hive上創(chuàng)建數(shù)據(jù)庫和表 128
7.4.3 導(dǎo)入數(shù)據(jù) 129
7.4.4 算法分析與執(zhí)行HQL語句 130
7.4.5 運行結(jié)果分析 131
7.5 本章小結(jié) 132
第8章 開源集群計算環(huán)境Spark 133
8.1 Spark簡介 133
8.2 Spark接口實戰(zhàn) 133
8.2.1 環(huán)境要求 133
8.2.2 IDEA使用和打包 134
8.3 Spark編程的RDD 137
8.3.1 RDD 137
8.3.2 創(chuàng)建RDD 138
8.3.3 RDD中與Map和Reduce相關(guān)的API 138
8.4 Spark實戰(zhàn)案例——統(tǒng)計1000萬人口的平均年齡 141
8.4.1 案例描述 141
8.4.2 案例分析 143
8.4.3 編程實現(xiàn) 143
8.4.4 提交到集群運行 144
8.4.5 監(jiān)控執(zhí)行狀態(tài) 144
8.5 Spark MLlib實戰(zhàn)——聚類實戰(zhàn) 145
8.5.1 算法說明 145
8.5.2 實例介紹 145
8.5.3 測試數(shù)據(jù)說明 146
8.5.4 程序源碼 146
8.5.5 運行腳本 148
8.6 本章小結(jié) 150
第9章 流實時處理系統(tǒng)Storm 152
9.1 Storm概述 152
9.1.1 Storm簡介 152
9.1.2 Storm主要特點 152
9.2 Storm安裝與配置 153
9.3 本章小結(jié) 160
第10章 企業(yè)級、大數(shù)據(jù)流處理 Apex 161
10.1 Apache Apex簡介 161
10.2 Apache Apex開發(fā)環(huán)境配置 161
10.2.1 部署開發(fā)工具 161
10.2.2 安裝Apex組件 162
10.2.3 創(chuàng)建Top N Words應(yīng)用 164
10.3 運行TopN Words應(yīng)用 166
10.3.1 開啟Apex客戶端 166
10.3.2 執(zhí)行 166
10.4 本章小結(jié) 167
第11章 事件流OLAP之Druid 168
11.1 Druid簡介 168
11.2 Druid應(yīng)用場所 168
11.3 Druid集群 169
11.4 Druid單機環(huán)境 170
11.4.1 安裝Druid 170
11.4.2 安裝ZooKeeper 170
11.4.3 啟動Druid服務(wù) 171
11.4.4 批量加載數(shù)據(jù) 172
11.4.5 加載流數(shù)據(jù) 175
11.4.6 數(shù)據(jù)查詢 177
11.5 本章小結(jié) 180
第12章 事件數(shù)據(jù)流引擎Flink 181
12.1 Flink概述 181
12.2 Flink基本架構(gòu) 181
12.3 單機安裝Flink 182
12.4 Flink運行第一個例子 184
12.5 Flink集群部署 187
12.5.1 環(huán)境準(zhǔn)備 187
12.5.2 安裝和配置 187
12.5.3 啟動Flink集群 188
12.5.4 集群中添加JobManager/TaskManager 189
12.6 本章小結(jié) 189
第13章 分布式文件搜索 Elasticsearch 190
13.1 Elasticsearch簡介 190
13.2 Elasticsearch單節(jié)點安裝 192
13.3 插件Elasticsearch-head安裝 193
13.4 Elasticsearch的基本操作 195
13.5 綜合實戰(zhàn) 199
13.6 本章小結(jié) 202
第14章 實例電商數(shù)據(jù)分析 203
14.1 背景與挖掘目標(biāo) 203
14.2 分析方法與過程 203
14.2.1 數(shù)據(jù)收集 203
14.2.2 數(shù)據(jù)預(yù)處理 206
14.2.3 導(dǎo)入數(shù)據(jù)到Hadoop 206
14.2.4 數(shù)據(jù)取樣分析 209
14.3 本章小結(jié) 211
參考文獻 212