本書較為全面地介紹了大數(shù)據(jù)相關(guān)技術(shù)和應(yīng)用的現(xiàn)狀。全書共7章:第1章主要介紹大數(shù)據(jù)的基礎(chǔ)概念;第2章和第3章對主流大數(shù)據(jù)框架從不同側(cè)面進行了分析對比;第4章主要介紹了信息挖掘中的經(jīng)典算法(C4.5、kmeans、支持向量機、Apriori、EM、PageRank、AdaBoost、Naive Bayes、CART);第5章內(nèi)容為數(shù)據(jù)的可視化;第6章涉及大數(shù)據(jù)與人工智能的聯(lián)系;第7章介紹大數(shù)據(jù)在現(xiàn)實生活中的實際用例。本書既可作為學生教材,也可供大數(shù)據(jù)技術(shù)愛好者閱讀參考。
辛陽,男,博士,北京郵電大學信息安全中心副教授。長期從事信息安全及災(zāi)備領(lǐng)域研究工作,主要涉及電信網(wǎng)安全、下一代網(wǎng)絡(luò)安全、移動通信安全、存儲災(zāi)備技術(shù)等,主持及參與過國家863計劃、國家發(fā)改委信息安全專項等近20項國家級及省部級項目。申請專利30多項,軟件著作權(quán)12項,出版網(wǎng)絡(luò)安全書籍5本,主導(dǎo)國家災(zāi)備標準四項的編寫工作。
目錄第1章緒論1
1.1什么是大數(shù)據(jù)1
1.2大數(shù)據(jù)的特征2
1.3大數(shù)據(jù)分析的發(fā)展情況3
1.4大數(shù)據(jù)的相關(guān)政策4
第2章面向大數(shù)據(jù)的分布式存儲系統(tǒng)5
2.1Bigtable5
2.1.1Bigtable構(gòu)件5
2.1.2Bigtable實現(xiàn)7
2.1.3Tablet7
2.1.4Bigtable優(yōu)化10
2.1.5Bigtable性能13
2.1.6實際應(yīng)用14
2.2Google File System16
2.2.1GFS框架16
2.2.2Master節(jié)點17
2.2.3Chunk數(shù)據(jù)塊18
2.2.4元數(shù)據(jù)18
2.2.5系統(tǒng)交互20
2.2.6容錯和診斷22
2.3Dynamo23
2.3.1系統(tǒng)架構(gòu)24
2.3.2系統(tǒng)實現(xiàn)28
2.3.3故障處理29
2.4小結(jié)30
第3章面向大數(shù)據(jù)的分布式處理框架31
3.1Hadoop31
3.1.1概述31
3.1.2實現(xiàn)運行32
3.1.3實際應(yīng)用32
3.2MapReduce34
3.2.1MapReduce實現(xiàn)34
3.2.2MapReduce的實際應(yīng)用37
3.3Spark38
3.3.1概述38
3.3.2RDD38
3.3.3Spark處理框架39
3.3.4Spark在實際中的應(yīng)用40
3.4小結(jié)41
第4章面向大數(shù)據(jù)信息挖掘的算法42
4.1C4.542
4.1.1算法描述43
4.1.2算法特性46
4.1.3軟件實現(xiàn)48
4.1.4應(yīng)用示例48
4.1.5相關(guān)研究50
4.1.6小結(jié)51
4.2kmeans52
4.2.1算法描述52
4.2.2軟件實現(xiàn)55
4.2.3應(yīng)用示例55
4.2.4相關(guān)研究58
4.2.5小結(jié)59
4.3支持向量機59
4.3.1支持向量分類器60
4.3.2支持向量分類器的軟間隔優(yōu)化61
4.3.3核技巧62
4.3.4理論基礎(chǔ)64
4.3.5支持向量回歸器66
4.3.6軟件實現(xiàn)67
4.3.7相關(guān)研究67
4.3.8小結(jié)69
4.4Apriori70
4.4.1算法描述70
4.4.2挖掘序列模式74
4.4.3軟件實現(xiàn)76
4.4.4應(yīng)用示例77
4.4.5相關(guān)研究79
4.4.6小結(jié)84
4.5EM85
4.5.1引言85
4.5.2算法描述86
4.5.3軟件實現(xiàn)86
4.5.4應(yīng)用示例87
4.5.5相關(guān)研究88
4.5.6小結(jié)89
4.6PageRank90
4.6.1算法描述91
4.6.2擴展:TimedPageRank94
4.6.3小結(jié)95
4.7AdaBoost95
4.7.1算法描述96
4.7.2軟件實現(xiàn)99
4.7.3應(yīng)用示例99
4.7.4相關(guān)研究103
4.7.5小結(jié)104
4.8k最近鄰104
4.8.1算法描述105
4.8.2軟件實現(xiàn)107
4.8.3相關(guān)研究107
4.8.4小結(jié)108
4.9Naive Bayes108
4.9.1算法描述108
4.9.2獨立變量110
4.9.3模型擴展111
4.9.4軟件實現(xiàn)113
4.9.5應(yīng)用示例113
4.9.6相關(guān)研究115
4.9.7小結(jié)116
4.10分類和回歸樹算法116
4.10.1算法描述116
4.10.2深度討論118
4.10.3軟件實現(xiàn)120
4.10.4相關(guān)研究121
4.10.5小結(jié)121
第5章數(shù)據(jù)可視化122
5.1基本可視化圖表122
5.2示例125
5.2.1全國就業(yè)和薪酬分析126
5.2.22015年國內(nèi)外搜索分析128
5.3可視化工具131
5.4D3.js133
5.4.1簡介133
5.4.2搭建一個簡易的D3開發(fā)環(huán)境134
5.4.3如何深入學習D3.js134
第6章大數(shù)據(jù)與人工智能136
6.1什么是深度學習1