本書(shū)是學(xué)習(xí)大數(shù)據(jù)技術(shù)的入門(mén)教材,深入淺出地介紹了什么是大數(shù)據(jù)、大數(shù)據(jù)的價(jià)值及應(yīng)用、大數(shù)據(jù)的架構(gòu)、大數(shù)據(jù)的采集及預(yù)處理、大數(shù)據(jù)的存儲(chǔ)、大數(shù)據(jù)分析、大數(shù)據(jù)可視化等,為學(xué)生提供在實(shí)踐中解決大數(shù)據(jù)相關(guān)問(wèn)題的思路和方法。本書(shū)貫徹理論精簡(jiǎn)的原則,注重科普性,突出實(shí)用性,可作為職業(yè)院校相關(guān)專(zhuān)業(yè)的選修課教材,也可供大數(shù)據(jù)技術(shù)初學(xué)者及有關(guān)技術(shù)人員閱讀。
余戰(zhàn)秋,高級(jí)講師,任教于安徽工業(yè)經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院,出版過(guò)多本職業(yè)教育教材;蔡政策,高級(jí)講師,任教于安徽國(guó)際商務(wù)職業(yè)學(xué)院。
第1章 大數(shù)據(jù)概述 1
1.1 大數(shù)據(jù)是什么 1
1.1.1 大數(shù)據(jù)是怎么來(lái)的 1
1.1.2 大數(shù)據(jù)的定義與特征 4
1.1.3 大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)、互聯(lián)網(wǎng)之間的關(guān)系 5
1.2 大數(shù)據(jù)的意義及挑戰(zhàn) 7
1.2.1 研究大數(shù)據(jù)的意義 7
1.2.2 大數(shù)據(jù)的異構(gòu)性和不完備性 10
1.2.3 數(shù)據(jù)處理的時(shí)效性 10
1.2.4 數(shù)據(jù)安全與隱私保護(hù) 11
1.2.5 大數(shù)據(jù)的能耗 12
1.2.6 大數(shù)據(jù)管理易用性 12
1.3 大數(shù)據(jù)技術(shù)及應(yīng)用 13
1.3.1 大數(shù)據(jù)技術(shù)框架 13
1.3.2 大數(shù)據(jù)處理工具和技術(shù)發(fā)展趨勢(shì) 17
1.3.3 大數(shù)據(jù)的應(yīng)用 19
【思考題】 25
第2章 大數(shù)據(jù)的架構(gòu) 26
2.1 大數(shù)據(jù)平臺(tái)架構(gòu)簡(jiǎn)介 26
2.1.1 傳統(tǒng)計(jì)算方式的數(shù)據(jù)瓶頸 26
2.1.2 大數(shù)據(jù)處理平臺(tái)的技術(shù)架構(gòu) 27
2.1.3 主流大數(shù)據(jù)架構(gòu) 32
2.2 Hadoop體系架構(gòu) 37
2.2.1 Hadoop體系架構(gòu)簡(jiǎn)介 37
2.2.2 Hadoop的應(yīng)用 48
2.2.3 Hadoop MapReduce的應(yīng)用 50
2.2.4 Hadoop MapReduce應(yīng)用實(shí)例 58
【思考題】 74
第3章 大數(shù)據(jù)的采集及預(yù)處理 75
3.1 大數(shù)據(jù)采集 75
3.1.1 大數(shù)據(jù)采集簡(jiǎn)介 75
3.1.2 常用大數(shù)據(jù)采集工具 81
3.1.3 常用的數(shù)據(jù)采集方法 88
3.1.4 Kafka概述 91
3.1.5 Kafka安裝及使用 94
3.2 數(shù)據(jù)預(yù)處理 100
3.2.1 數(shù)據(jù)清洗 100
3.2.2 數(shù)據(jù)集成 104
3.2.3 數(shù)據(jù)變換 106
3.3 ETL技術(shù)及其工具 108
3.3.1 數(shù)據(jù)倉(cāng)庫(kù)技術(shù)ETL 108
3.3.2 常用ETL工具 111
3.3.3 Kettle 113
【思考題】 120
第4章 大數(shù)據(jù)的存儲(chǔ) 121
4.1 大數(shù)據(jù)的存儲(chǔ)方式 121
4.1.1 大數(shù)據(jù)存儲(chǔ)綜述 121
4.1.2 數(shù)據(jù)的存儲(chǔ)方法 125
4.1.3 大數(shù)據(jù)的基礎(chǔ)設(shè)施 128
4.1.4 大數(shù)據(jù)文件存儲(chǔ)方式 136
4.1.5 大數(shù)據(jù)存儲(chǔ)的特點(diǎn)及技術(shù)路線 142
4.2 數(shù)據(jù)倉(cāng)庫(kù)及開(kāi)發(fā)模型 144
4.2.1 數(shù)據(jù)倉(cāng)庫(kù)簡(jiǎn)介 144
4.2.2 數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì) 149
【思考題】 161
第5章 大數(shù)據(jù)分析 163
5.1 大數(shù)據(jù)分析概述 163
5.1.1 數(shù)據(jù)分析的概念和分類(lèi) 164
5.1.2 大數(shù)據(jù)存在模式與結(jié)構(gòu)大數(shù)據(jù) 167
5.1.3 大數(shù)據(jù)分析與數(shù)據(jù)分析的區(qū)別 169
5.1.4 大數(shù)據(jù)分析的背景及挑戰(zhàn) 170
5.2 大數(shù)據(jù)分析工具及方法 170
5.2.1 大數(shù)據(jù)分析工具及手段 170
5.2.2 大數(shù)據(jù)分析方法 175
5.3 數(shù)據(jù)挖掘 192
5.3.1 數(shù)據(jù)挖掘概述 192
5.3.2 數(shù)據(jù)挖掘工具 194
【思考題】 199
第6章 大數(shù)據(jù)可視化 200
6.1 數(shù)據(jù)可視化概述 200
6.2 大數(shù)據(jù)可視化的實(shí)現(xiàn) 204
6.2.1 數(shù)據(jù)可視化方式 204
6.2.2 大數(shù)據(jù)可視化模式及應(yīng)用 210
6.2.3 大數(shù)據(jù)可視化方法 210
6.2.4 大數(shù)據(jù)可視化的設(shè)計(jì) 217
6.3 主流大數(shù)據(jù)可視化工具及應(yīng)用 220
6.3.1 Excel及應(yīng)用 220
6.3.2 Processing及應(yīng)用 221
6.3.3 NodeXL及應(yīng)用 235
【思考題】 240
參考文獻(xiàn) 241