本書第1章為大數(shù)據(jù)概述,介紹大數(shù)據(jù)的基本概念和應(yīng)用領(lǐng)域,回顧大數(shù)據(jù)理念和技術(shù)的發(fā)展歷程,闡述大數(shù)據(jù)的發(fā)展前景。第2~7章介紹大數(shù)據(jù)采集與預處理、大數(shù)據(jù)計算平臺、大數(shù)據(jù)管理、數(shù)據(jù)挖掘、大數(shù)據(jù)隱私與安全和人工智能6個大數(shù)據(jù)領(lǐng)域及其中的主要技術(shù)。第2章主要介紹大數(shù)據(jù)采集技術(shù),包括大數(shù)據(jù)的來源、采集方法及數(shù)據(jù)預處理方法等,*后對大數(shù)據(jù)采集應(yīng)用案例進行分析,幫助讀者更好地理解大數(shù)據(jù)采集技術(shù)。第3章介紹大數(shù)據(jù)處理架構(gòu)Hadoop以及與大數(shù)據(jù)技術(shù)密不可分的云計算技術(shù)及其應(yīng)用。由于Hadoop已經(jīng)成為應(yīng)用*廣泛的大數(shù)據(jù)技術(shù),本書的大數(shù)據(jù)相關(guān)技術(shù)主要圍繞Hadoop展開,包括HDFS和MapReduce。第4章介紹大數(shù)據(jù)管理,包括分布式數(shù)據(jù)庫(HBase)、常用的NoSQL數(shù)據(jù)庫和云數(shù)據(jù)庫。第5章從數(shù)據(jù)挖掘的概念入手,介紹數(shù)據(jù)挖掘的幾種算法以及算法的應(yīng)用。第6章提出大數(shù)據(jù)面臨的安全隱患,介紹大數(shù)據(jù)安全的基本概念以及大數(shù)據(jù)安全與隱私保護的主要方法。第7章介紹人工智能的起源和基本概念,通過案例介紹一些經(jīng)典的機器學習算法在實際中的應(yīng)用。第8~11章包含4個實驗,對應(yīng)數(shù)據(jù)采集技術(shù)、云計算技術(shù)和數(shù)據(jù)挖掘技術(shù)展開。本書在重視理論的前提下,不忽視實際的可操作性,注重問題的解決,大數(shù)據(jù)基礎(chǔ)與大數(shù)據(jù)技術(shù)部分每章均設(shè)有習題,以幫助讀者鞏固所學知識。
本書以大數(shù)據(jù)技術(shù)為主線,將大數(shù)據(jù)系統(tǒng)處理數(shù)據(jù)過程中的核心技術(shù)串接起來,分為基礎(chǔ)部分、技術(shù)部分及實驗部分。不同技術(shù)配套一個當前的熱門話題案例,讓學生明白技術(shù)的應(yīng)用范圍及領(lǐng)域,從而找到適合自己發(fā)展的大數(shù)據(jù)技術(shù)方向。
隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算等新一代信息技術(shù)的應(yīng)用和推廣,大數(shù)據(jù)技術(shù)成為又一顛覆性的技術(shù),備受人們關(guān)注。身處大數(shù)據(jù)時代,我們已經(jīng)感受到大數(shù)據(jù)對人們的思維模式和生活方式的改變,大數(shù)據(jù)對人類的社會生產(chǎn)和生活必將產(chǎn)生重大而深遠的影響。本書定位為大數(shù)據(jù)技術(shù)入門教材,以大數(shù)據(jù)的基本技術(shù)路線為框架,通過基本理論和應(yīng)用實例相結(jié)合的方式,介紹大數(shù)據(jù)技術(shù),幫助讀者形成對大數(shù)據(jù)知識體系及其應(yīng)用領(lǐng)域的輪廓性認識,為讀者在大數(shù)據(jù)領(lǐng)域的繼續(xù)深造奠定基礎(chǔ)。本書旨在服務(wù)大數(shù)據(jù)初學者,為適應(yīng)初學者學習特點,適當增加了廣度而降低了深度,在數(shù)據(jù)挖掘部分盡可能少地使用數(shù)學知識,對于一些不可避免的部分,力求展現(xiàn)其中的精華,而在大數(shù)據(jù)實驗部分,必須掌握的基礎(chǔ)性編程語言也有涉及。本書主要以Java語言為基礎(chǔ)。本書第1章為大數(shù)據(jù)概述,介紹大數(shù)據(jù)的基本概念和應(yīng)用領(lǐng)域,回顧大數(shù)據(jù)理念和技術(shù)的發(fā)展歷程,闡述大數(shù)據(jù)的發(fā)展前景。第2~7章介紹大數(shù)據(jù)采集與預處理、大數(shù)據(jù)計算平臺、大數(shù)據(jù)管理、數(shù)據(jù)挖掘、大數(shù)據(jù)隱私與安全和人工智能6個大數(shù)據(jù)領(lǐng)域及其中的主要技術(shù)。第2章主要介紹大數(shù)據(jù)采集技術(shù),包括大數(shù)據(jù)的來源、采集方法及數(shù)據(jù)預處理方法等,*后對大數(shù)據(jù)采集應(yīng)用案例進行分析,幫助讀者更好地理解大數(shù)據(jù)采集技術(shù)。第3章介紹大數(shù)據(jù)處理架構(gòu)Hadoop以及與大數(shù)據(jù)技術(shù)密不可分的云計算技術(shù)及其應(yīng)用。由于Hadoop已經(jīng)成為應(yīng)用*廣泛的大數(shù)據(jù)技術(shù),本書的大數(shù)據(jù)相關(guān)技術(shù)主要圍繞Hadoop展開,包括HDFS和MapReduce。第4章介紹大數(shù)據(jù)管理,包括分布式數(shù)據(jù)庫(HBase)、常用的NoSQL數(shù)據(jù)庫和云數(shù)據(jù)庫。第5章從數(shù)據(jù)挖掘的概念入手,介紹數(shù)據(jù)挖掘的幾種算法以及算法的應(yīng)用。第6章提出大數(shù)據(jù)面臨的安全隱患,介紹大數(shù)據(jù)安全的基本概念以及大數(shù)據(jù)安全與隱私保護的主要方法。第7章介紹人工智能的起源和基本概念,通過案例介紹一些經(jīng)典的機器學習算法在實際中的應(yīng)用。第8~11章包含4個實驗,對應(yīng)數(shù)據(jù)采集技術(shù)、云計算技術(shù)和數(shù)據(jù)挖掘技術(shù)展開。本書在重視理論的前提下,不忽視實際的可操作性,注重問題的解決,大數(shù)據(jù)基礎(chǔ)與大數(shù)據(jù)技術(shù)部分每章均設(shè)有習題,以幫助讀者鞏固所學知識。本書由武漢華夏理工學院劉春燕和司曉梅主編。在本書編寫的過程中,編者參考了國內(nèi)外大量大數(shù)據(jù)及云計算技術(shù)的文獻資料,且書中部分案例來自網(wǎng)絡(luò),在此一并對相關(guān)作者表示感謝。由于編者能力有限,書中難免存在不妥之處,懇請讀者朋友提出寶貴意見,不勝感激。
劉春燕,女,副教授,計算機與網(wǎng)絡(luò)工程系副主任。從事專業(yè):計算機科學與技術(shù),研究方向:數(shù)據(jù)庫應(yīng)用、大數(shù)據(jù)技術(shù)。近5年,主持省教育廳項目1項,主持湖北省交通物聯(lián)網(wǎng)實驗室開放基金項目1項,主持湖南省高鐵研究中心開放基金項目1項,參與多項省級、院級教科研項目。在國內(nèi)外期刊雜志和學術(shù)會議上發(fā)表學術(shù)論文10余篇,其中中文核心期刊2篇,EI檢索會議論文4篇,參編教材2部。指導學生參加藍橋杯全國軟件和信息技術(shù)專業(yè)人才大賽獲全國優(yōu)秀獎,被評為優(yōu)秀指導教師。先后榮獲優(yōu)秀科研工作者、年度優(yōu)秀員工、教學質(zhì)量優(yōu)秀獎等榮譽稱號。
第1章 大數(shù)據(jù)概述/001
1.1 大數(shù)據(jù)興起之謎/001
1.2 無處不在的大數(shù)據(jù)/004
1.3 大數(shù)據(jù)的概念和特征/013
1.4 大數(shù)據(jù)的關(guān)鍵技術(shù)/016
1.5 大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)/022
1.6 大數(shù)據(jù)的發(fā)展、應(yīng)用及挑戰(zhàn)/027
第2章 大數(shù)據(jù)采集與預處理/032
2.1 大數(shù)據(jù)的來源/032
2.2 大數(shù)據(jù)的采集方法/034
2.3 數(shù)據(jù)預處理/044
2.4 大數(shù)據(jù)采集應(yīng)用案例互聯(lián)網(wǎng)行業(yè) 職場分析/052
第3章 大數(shù)據(jù)計算平臺/058
3.1 Hadoop平臺/058
3.2 HDFS /062
3.3 大數(shù)據(jù)計算模式/067
3.4 MapReduce /069
3.5 Spark平臺/078
3.6 流計算框架Storm /087
3.7 云計算平臺/091
3.8 云計算的關(guān)鍵技術(shù)/096
第4章 大數(shù)據(jù)管理大數(shù)據(jù)的高效之道/101
4.1 大數(shù)據(jù)管理之NoSQL數(shù)據(jù)庫/101
4.2 NoSQL與關(guān)系型數(shù)據(jù)庫的比較/104
4.3 NoSQL的四大類型/107
4.4 NoSQL的三大基石/111
4.5 新興數(shù)據(jù)庫技術(shù)/114
4.6 大數(shù)據(jù)應(yīng)用案例在北上廣打拼是怎樣一種體驗/120
第5章 數(shù)據(jù)挖掘大數(shù)據(jù)的智慧之道/126
5.1 數(shù)據(jù)挖掘概述/126
5.2 大數(shù)據(jù)挖掘技術(shù)/128
5.3 分類和預測/129
5.4 聚類分析/139
5.5 關(guān)聯(lián)規(guī)則分析/138
5.6 商業(yè)智能的分析預測/154
5.7 社交大數(shù)據(jù)的成功密碼/158
5.8 大數(shù)據(jù)應(yīng)用案例大數(shù)據(jù)預測/163
第6章 大數(shù)據(jù)隱私與安全/1686.1 安全與隱私問題/168
6.2 大數(shù)據(jù)面臨的問題/169
6.3 大數(shù)據(jù)的安全防護策略/171
6.4 如何解決隱私保護問題/171
6.5 大數(shù)據(jù)應(yīng)用案例智慧城市中的 安全防護/175
第7章 人工智能科幻到現(xiàn)實的蛻變/182
7.1 人工智能的起源/182
7.2 當人工智能遇上大數(shù)據(jù)/190
7.3 人機大戰(zhàn):AI會挑戰(zhàn)人類嗎?/192
7.4 AI會取代人類嗎?/194
7.5 AI時代的教育與個人發(fā)展/199
7.6 大數(shù)據(jù)應(yīng)用案例神秘AI的魅力 /203
第8章 數(shù)據(jù)采集實驗/206
第9章 CloudSim虛擬平臺實驗/212
第10章 數(shù)據(jù)挖掘算法之Apriori算法實驗/215
第11章 數(shù)據(jù)挖掘算法之決策樹算法實驗/216
附錄A /218
附錄B /219
附錄C /229
參考文獻/239