本書全面闡述了大數(shù)據(jù)的內(nèi)涵與特征、體系架構以及所涉及關鍵技術。全書共分7章,內(nèi)容包括大數(shù)據(jù)概論、大數(shù)據(jù)存儲、大數(shù)據(jù)處理、大數(shù)據(jù)分析、大數(shù)據(jù)可視化、大數(shù)據(jù)應用和大數(shù)據(jù)發(fā)展趨勢與展望,每章內(nèi)容都與主流技術和典型案例緊密結合,以便讀者對大數(shù)據(jù)及其關鍵技術有更好的了解和掌握。 本書適合作為高等院校數(shù)據(jù)科學與大數(shù)據(jù)技術、計算機、軟件工程、電子信息等相關專業(yè)以及創(chuàng)新創(chuàng)業(yè)或素質(zhì)教育的大數(shù)據(jù)課程教材,也可作為其他讀者深入了解大數(shù)據(jù)技術的參考用書。
本書緊緊圍繞大數(shù)據(jù)技術這一中心,以淺顯易懂的語言詳細介紹了大數(shù)據(jù)的基本特征、體系結構、相關技術及其應用領域,做到由淺入深、環(huán)環(huán)緊扣
本書全面闡述了大數(shù)據(jù)的內(nèi)涵與特征、體系架構以及所涉及關鍵技術。全書共分7章,內(nèi)容包括大數(shù)據(jù)概論、大數(shù)據(jù)存儲、大數(shù)據(jù)處理、大數(shù)據(jù)分析、大數(shù)據(jù)可視化、大數(shù)據(jù)應用和大數(shù)據(jù)發(fā)展趨勢與展望,每章內(nèi)容都與主流技術和典型案例緊密結合,以便讀者對大數(shù)據(jù)及其關鍵技術有更好的了解和掌握。
本書適合作為高等院校數(shù)據(jù)科學與大數(shù)據(jù)技術、計算機、軟件工程、電子信息等相關專業(yè)以及創(chuàng)新創(chuàng)業(yè)或素質(zhì)教育的大數(shù)據(jù)課程教材,也可作為其他讀者深入了解大數(shù)據(jù)技術的參考用書。
"
"如今大數(shù)據(jù)已被提升為國家戰(zhàn)略并寫進政府工作報告,相信該戰(zhàn)略的實施將對各行各業(yè)產(chǎn)生深遠的影響,同時會觸發(fā)社會思維的新變革。大數(shù)據(jù)技術的應用戰(zhàn)略落地生根,除政府政策支持外更需要大量的人才資源作為后盾。面對新需求,高等院校作為人才培養(yǎng)主陣地,將義不容辭地為普及相關技術知識作出應有的貢獻,本書正是出于此目的而編寫。
本書在結構安排與內(nèi)容撰寫時遵循教學規(guī)律,考慮讀者對象特點,緊緊圍繞大數(shù)據(jù)技術這一中心,以淺顯易懂的語言詳細介紹了大數(shù)據(jù)的基本特征、體系結構、相關技術及其應用領域,做到由淺入深、環(huán)環(huán)緊扣。章節(jié)中結合案例與典型應用幫助讀者增強對大數(shù)據(jù)技術的感性認識,了解大數(shù)據(jù)對未來學習、生活、工作與社會發(fā)展的重要性,理解構建大數(shù)據(jù)應用系統(tǒng)所需的技術、方法。
本書共分為7章,較全面地闡述分析了大數(shù)據(jù)的內(nèi)涵、體系結構以及所涉及的相關支撐技術。第1章主要分析大數(shù)據(jù)提出的背景及內(nèi)涵特征,并基于大數(shù)據(jù)的來源分析了大數(shù)據(jù)系統(tǒng)結構與主要相關技術;第2章介紹了大數(shù)據(jù)存儲相關技術的概念與原理,包括傳統(tǒng)大數(shù)據(jù)存儲系統(tǒng)的3種架構、分布式文件系統(tǒng)(HDFS)、NoSQL數(shù)據(jù)庫、分布式數(shù)據(jù)庫(HBase)以及NewSQL數(shù)據(jù)庫技術;第3章主要介紹了目前大數(shù)據(jù)處理主流技術和平臺以及Hadoop MapReduce并行處理和編程技術;第4章主要介紹了大數(shù)據(jù)分析的特點、類型、流程及大數(shù)據(jù)分析的各種方法和主要應用領域;第5章主要闡述了大數(shù)據(jù)可視化技術的基本概念、可視化流程、可視化編碼、可視化設計以及大數(shù)據(jù)可視化的一些軟件和工具;第6章主要介紹了大數(shù)據(jù)在互聯(lián)網(wǎng)行業(yè)、醫(yī)療、交通、自動問答等領域的具體應用;第7章主要介紹了大數(shù)據(jù)技術在安全與隱私保護、數(shù)據(jù)共享和數(shù)據(jù)科學等方面存在的挑戰(zhàn)與發(fā)展趨勢。
本書由周鳴爭、陶皖主編,楊丹、李臣龍、萬家山參與編寫。具體編寫分工如下:周鳴爭編寫第1章,李臣龍編寫第2、3章,陶皖編寫第4、6章,楊丹編寫第5章,萬家山編寫第7章。周鳴爭、陶皖負責全書的統(tǒng)稿及定編工作。
由于編者水平有限,書中疏漏與不足之處在所難免,望讀者提出意見和建議。
第1章 概論 1
1.1
什么是大數(shù)據(jù) 1
1.1.1
大數(shù)據(jù)產(chǎn)生的背景 1
1.1.2
大數(shù)據(jù)的概念及特征 5
1.2
大數(shù)據(jù)帶來的變革 7
1.3
大數(shù)據(jù)的價值與挑戰(zhàn) 9
1.3.1
大數(shù)據(jù)的價值 9
1.3.2
大數(shù)據(jù)時代面臨的新挑戰(zhàn) 10
1.4
大數(shù)據(jù)的相關技術 12
1.4.1
大數(shù)據(jù)存儲和管理技術 14
1.4.2
大數(shù)據(jù)分析技術 20
1.4.3
大數(shù)據(jù)處理工具與平臺 21
1.5
大數(shù)據(jù)的處理流程 22
1.5.1
數(shù)據(jù)抽取與集成 22
1.5.2
數(shù)據(jù)分析 23
1.5.3
數(shù)據(jù)解釋 23
1.5.4
大數(shù)據(jù)處理模型 24
1.6
大數(shù)據(jù)的發(fā)展機遇 28
習題 29
第2章 大數(shù)據(jù)存儲 30
2.1
大數(shù)據(jù)存儲概述 30
2.2
傳統(tǒng)的大數(shù)據(jù)存儲系統(tǒng) 30
2.3
分布式文件系統(tǒng) 33
2.3.1
HDFS相關概念 35
2.3.2
HDFS分布式文件系統(tǒng)的結構 36
2.3.3
HDFS存儲原理 37
2.3.4
HDFS數(shù)據(jù)讀/寫 41
2.4
NoSQL數(shù)據(jù)庫 43
2.4.1
NoSQL的產(chǎn)生 44
2.4.2
NoSQL與RDBMS 45
2.4.3
NoSQL的分類 46
2.4.4
HBase數(shù)據(jù)庫 47
2.4.5
NoSQL與NewSQL 52
習題 53
第3章 大數(shù)據(jù)處理 55
3.1
多處理器技術 55
3.2
并行計算 59
3.3
MapReduce并行計算技術 65
3.3.1
MapReduce簡介 65
3.3.2
MapReduce編程模型 68
3.3.3
Hadoop MapReduce 1 73
3.3.4
Yarn/MapReduce2 76
3.3.5
MapReduce性能調(diào)優(yōu) 79
習題 82
第4章 大數(shù)據(jù)分析 83
4.1
大數(shù)據(jù)分析概述 83
4.1.1
數(shù)據(jù)分析的原則 84
4.1.2
大數(shù)據(jù)分析的特點 84
4.1.3
大數(shù)據(jù)分析路線及流程 85
4.1.4
大數(shù)據(jù)分析技術 87
4.1.5
大數(shù)據(jù)分析的難點 90
4.2
大數(shù)據(jù)分析模型 91
4.2.1
大數(shù)據(jù)分析模型建立方法 91
4.2.2
分類分析模型 93
4.2.3
關聯(lián)分析模型 94
4.2.4
聚類分析模型 95
4.3
大數(shù)據(jù)分析算法 98
4.3.1
大數(shù)據(jù)算法概述 99
4.3.2
決策樹算法簡介 101
4.3.3
Apriori算法簡介 105
4.3.4
K-Means算法簡介 109
4.4
大數(shù)據(jù)分析應用 111
4.4.1
文本分析 111
4.4.2
情感分析 113
4.4.3
推薦系統(tǒng) 115
4.5
大數(shù)據(jù)分析常用工具 117
習題 119
第5章 大數(shù)據(jù)可視化 120
5.1
大數(shù)據(jù)可視化技術概述 120
5.1.1
數(shù)據(jù)可視化簡史 120
5.1.2
數(shù)據(jù)可視化的功能 122
5.1.3
大數(shù)據(jù)可視化簡介 123
5.2
大數(shù)據(jù)可視化技術基礎 126
5.2.1
數(shù)據(jù)可視化流程 126
5.2.2
數(shù)據(jù)可視化編碼 128
5.2.3
數(shù)據(jù)可視化設計 132
5.3
大數(shù)據(jù)可視化應用 134
5.3.1
文本可視化 135
5.3.2
社交網(wǎng)絡可視化 138
5.3.3
日志數(shù)據(jù)可視化 140
5.3.4
地理信息可視化 140
5.3.5
數(shù)據(jù)可視化交互 141
5.4
大數(shù)據(jù)可視化軟件和工具 143
5.4.1
大數(shù)據(jù)可視化軟件分類 143
5.4.2
科學可視化軟件和工具 144
5.4.3
可視化分析軟件和工具 145
5.4.4
信息可視化軟件和工具 147
習題 148
第6章 大數(shù)據(jù)應用 149
6.1
互聯(lián)網(wǎng)行業(yè)大數(shù)據(jù) 149
6.2
交通大數(shù)據(jù) 153
6.3
醫(yī)療大數(shù)據(jù) 159
6.4
問答系統(tǒng) 164
習題 169
第7章 大數(shù)據(jù)發(fā)展趨勢與展望
170
7.1 大數(shù)據(jù)安全與隱私保護
170
7.1.1
數(shù)據(jù)安全與隱私保護的現(xiàn)狀 170
7.1.2
大數(shù)據(jù)帶來的安全挑戰(zhàn) 171
7.1.3
大數(shù)據(jù)安全與隱私保護關鍵技術 172
7.2 大數(shù)據(jù)共享 174
7.2.1
大數(shù)據(jù)共享面臨的挑戰(zhàn) 174
7.2.2
大數(shù)據(jù)共享的措施與機制 175
7.3 數(shù)據(jù)科學 176
7.3.1
數(shù)據(jù)科學的概念 176
7.3.2
數(shù)據(jù)分析的難題 176
習題 177
參考文獻 178