大數(shù)據(jù)、數(shù)據(jù)挖掘理論與應用實踐
定 價:69 元
叢書名:高等院校數(shù)據(jù)科學與大數(shù)據(jù)專業(yè)"互聯(lián)網(wǎng)+"創(chuàng)新規(guī)劃教材
- 作者:李文書 等
- 出版時間:2020/12/1
- ISBN:9787301318997
- 出 版 社:北京大學出版社
- 中圖法分類:TP274
- 頁碼:400
- 紙張:
- 版次:1
- 開本:16開
人們每天都會通過互聯(lián)網(wǎng)、移動設備等產生海量數(shù)據(jù),如何從其中洞悉這些數(shù)據(jù)背后所隱含的“真知灼見”,是我們研究它的意義所在。以前人們總說信息就是力量,現(xiàn)如今對大數(shù)據(jù)進行分析、利用和挖掘才是力量之所在。作為大數(shù)據(jù)方面的一部著作,本書是作者長期從事大數(shù)據(jù)、數(shù)據(jù)挖掘等科研工作的總結。其從大數(shù)據(jù)、數(shù)據(jù)挖掘、實際案例等三部分深入淺出地介紹了大數(shù)據(jù)領域的知識。
第一部分是大數(shù)據(jù)篇,其主要從數(shù)據(jù)起源、生態(tài)系統(tǒng)、生命周期以及行業(yè)應用來分析大數(shù)據(jù)的研究方向和趨勢。并就數(shù)據(jù)預處理、可視化、安全等大數(shù)據(jù)技術進行了詳細的闡述,讓深奧的知識淺顯易懂;第二部分是數(shù)據(jù)挖掘認知篇,其主要從線性回歸、聚類、關聯(lián)規(guī)則、分類與預測、時間序列等方面剖析數(shù)據(jù)挖掘技術;第三部分是實踐篇,其主要從業(yè)務和技術角度闡述已有的科研成果,讓讀者從理論到實踐過程中深刻理解大數(shù)據(jù)的用途及技術的本質。
本書的讀者對象主要是從事智能信息處理、大數(shù)據(jù)、云服務等領域的科研工作者和廣大工程技術人員,也可作為大學本科教材和自學讀者用書。
1.李文書,教授,工學博士,現(xiàn)任浙江理工大學信息學院,智能檢測與系統(tǒng)實驗室主任,碩士生導師。IEEE (1-1163129461)、中國計算機學會(E200016385M)會員和杭州市計算機學會會員。2.吳奇石,工學博士,西北大學國家級特聘教授,鄭州大學講座教授,西安電子科技大學華山學者,天津大學客座教授。3.蔡霞,女,計算機科學與技術碩士,浙江理工大學信息學院講師,主要研究方向為數(shù)據(jù)挖掘、機器學習,獲得CIIT大數(shù)據(jù)開發(fā)工程師證書。4.李楊,男,工學博士,現(xiàn)任浙江理工大學信息學院講師,中國生物醫(yī)學工程學會會員,主要研究方向為醫(yī)學圖像分析、機器學習,發(fā)表SCI/EI論文10余篇,申請發(fā)明專利3項。5.黃海,男,工學博士,現(xiàn)任浙江理工大學信息學院計算機系副教授,碩士生導師,主要研究方向為信息安全與密碼學、大數(shù)據(jù)安全以及云計算安全等。6.蘇先創(chuàng),男,工學博士,現(xiàn)任浙江理工大學信息學院講師,主要研究方向為機器學習、仿生智能系統(tǒng),發(fā)表SCI/EI論文10余篇,獲授權專利3項。
第1章 緒論 3
1.1 什么是大數(shù)據(jù) 4
1.1.1 大數(shù)據(jù)的來源 4
1.1.2 大數(shù)據(jù)的表現(xiàn)形式 5
1.1.3 大數(shù)據(jù)的特征 7
1.2 什么是商業(yè)智能 8
1.3 大數(shù)據(jù)生命周期 9
1.4 數(shù)據(jù)科學研究的主要問題 11
1.5 數(shù)據(jù)科學的模型方法 14
1.5.1 有監(jiān)督學習 14
1.5.2 無監(jiān)督學習 15
1.5.3 半監(jiān)督學習 15
1.6 大數(shù)據(jù)方向 16
1.6.1 大數(shù)據(jù)架構方向 16
1.6.2 大數(shù)據(jù)分析方向 16
1.6.3 大數(shù)據(jù)開發(fā)方向 17
第2章 數(shù)據(jù)預處理 19
2.1 統(tǒng)計分析 20
2.1.1 統(tǒng)計描述 21
2.1.2 統(tǒng)計分析中的基本概念 25
2.1.3 參數(shù)估計和假設檢驗 27
2.1.4 區(qū)間估計和檢驗 28
2.1.5 方差分析 31
2.2 數(shù)據(jù)預處理 41
2.2.1 數(shù)據(jù)清洗 42
2.2.2 數(shù)據(jù)集成 45
2.2.3 數(shù)據(jù)變換 46
2.2.4 數(shù)據(jù)歸約 47
第3章 大數(shù)據(jù)可視化 63
3.1 數(shù)據(jù)可視化的發(fā)展歷程 64
3.1.1 萌芽時期 66
3.1.2 拉開帷幕 68
3.1.3 初露鋒芒 69
3.1.4 黃金時代 70
3.1.5 穩(wěn)步發(fā)展 72
3.1.6 日新月異 73
3.2 數(shù)據(jù)可視化的分類 74
3.2.1 依據(jù)數(shù)據(jù)類型分類 74
3.2.2 依據(jù)展示方式分類 77
3.2.3 依據(jù)應用場景分類 77
3.3 數(shù)據(jù)可視化設計的原則 78
3.3.1 親密性(分組) 78
3.3.2 對齊 78
3.3.3 重復/統(tǒng)一 79
3.3.4 對比/強調 79
3.3.5 力求表達準確、到位、簡潔、易懂 80
3.4 數(shù)據(jù)可視化的流程 80
3.4.1 了解需求 80
3.4.2 可視化設計 82
3.5 應用實踐 82
3.5.1 折線圖 83
3.5.2 散點圖 84
3.5.3 柱狀圖 85
3.5.4 詞云圖 86
3.5.5 雷達圖 88
第4章 大數(shù)據(jù)安全 91
4.1 大數(shù)據(jù)安全概述 92
4.1.1 保密性 92
4.1.2 完整性 93
4.1.3 可用性 93
4.2 基本的密碼技術 93
4.2.1 加密技術 93
4.2.2 數(shù)字簽名技術 94
4.2.3 Hash函數(shù)和MAC算法 95
4.3 全同態(tài)加密技術 95
4.3.1 基本定義 95
4.3.2 全同態(tài)加密技術原理 96
4.3.3 全同態(tài)加密技術的應用 98
4.4 安全多方計算 100
4.4.1 基本定義 100
4.4.2 安全多方計算原理 100
4.4.3 安全多方計算的應用 102
4.5 差分隱私 103
4.5.1 基本定義 104
4.5.2 差分隱私原理 105
4.5.3 差分隱私的應用 107
4.6 區(qū)塊鏈 109
4.6.1 基本定義 110
4.6.2 區(qū)塊鏈技術原理 111
4.6.3 區(qū)塊鏈技術的應用 112
第5章 線性回歸分析 119
5.1 一元線性回歸 120
5.1.1 一元線性回歸概述 120
5.1.2 一元線性回歸的參數(shù)估計 123
5.1.3 一元線性回歸模型的檢驗 125
5.1.4 一元線性回歸的預測 127
5.2 多元線性回歸分析 128
5.2.1 多元線性回歸模型及假定 129
5.2.2 參數(shù)估計 129
5.2.3 模型檢驗 130
5.2.4 預測 131
5.3 應用實踐 133
5.3.1 基于Lasso回歸的波士頓房價預測 133
5.3.2 基于線性回歸的降雨量預測 136
第6章 聚類分析 142
6.1 聚類概述 143
6.2 幾種常用的度量方法 143
6.2.1 歐幾里得距離(Euclidean distance) 144
6.2.2 曼哈頓距離(Manhattan distance) 144
6.2.3 切比雪夫距離(Chebyshev distance) 145
6.2.4 冪距離(Power distance) 145
6.2.5 馬氏距離(Mahalanobis distance) 146
6.2.6 余弦相似度(Cosine similarity) 148
6.2.7 Pearson相關系數(shù)(Pearson correlation coefficient) 148
6.2.8 Jaccard相似系數(shù)(Jaccard similarity coefficient) 148
6.3 聚類的方法 150
6.3.1 層次聚類 150
6.3.2 密度聚類 151
6.3.3 分割聚類 152
6.4 應用實踐 154
6.4.1 基于DBSCAN密度聚類的鳶尾花品種分類 154
6.4.2 基于聚類和可視化的世界國家幸福指數(shù)分析 157
第7章 關聯(lián)規(guī)則分析 164
7.1 關聯(lián)規(guī)則分析概述 165
7.2 關聯(lián)規(guī)則分析常用的基本概念 166
7.3 基于Apriori算法的關聯(lián)規(guī)則分析 168
7.3.1 連接(linking)步驟 168
7.3.2 剪枝(pruning)步驟 169
7.3.3 Apriori算法處理流程 169
7.3.4 Apriori算法實例 170
7.3.5 由頻繁項集生成關聯(lián)規(guī)則 172
7.4 改進的Apriori算法 172
7.4.1 基于劃分的方法 172
7.4.2 基于抽樣的方法 173
7.4.3 增量更新的方法 173
7.4.4 概念層次的方法 174
7.4.5 基于散列和壓縮技術的方法 174
7.5 基于FP-Growth算法的關聯(lián)規(guī)則分析 175
7.6 多維和多層關聯(lián)規(guī)則 177
7.6.1 多維關聯(lián)規(guī)則挖掘 177
7.6.2 多層關聯(lián)規(guī)則挖掘 178
7.7 應用實踐 179
7.7.1 基于Apriori算法的用戶購物關聯(lián)度分析 179
7.7.2 基于FP-Growth算法的用戶購物關聯(lián)度分析 183
第8章 分類與預測 195
8.1 分類問題評價準則 196
8.2 線性分類 198
8.2.1 Logistic模型 199
8.2.2 判別分析 202
8.3 決策樹 206
8.3.1 決策樹的概念及基本算法 206
8.3.2 基于信息熵的決策樹歸納算法 208
8.3.3 決策樹修剪 212
8.3.4 提取決策規(guī)則 212
8.3.5 決策樹的改進 213
8.4 AdaBoost算法 215
8.5 隨機森林算法 217
8.5.1 設計隨機森林分類器 217
8.5.2 構建隨機森林 218
8.6 應用實踐 223
8.6.1 基于隨機森林算法預測是否被錄取 223
8.6.2 基于決策樹算法預測是否被錄取 227
第9章 時間序列分析 231
9.1 時間序列分析概述 232
9.2 ARIMA模型 233
9.2.1 ARIMA模型的基本概念 233
9.2.2 ARIMA模型預測步驟 234
9.2.3 預測實例 234
9.3 HMM 241
9.3.1 HMM的基本概念 241
9.3.2 HMM的基本問題 243
9.3.3 HMM基本問題的解法 244
9.4 動態(tài)貝葉斯網(wǎng)絡 248
9.4.1 動態(tài)貝葉斯網(wǎng)絡的基本概念 248
9.4.2 動態(tài)貝葉斯網(wǎng)絡的學習 250
9.4.3 動態(tài)貝葉斯網(wǎng)絡的推理 252
9.5 應用實踐 252
9.5.1 基于ARIMA模型的二氧化碳濃度預測 252
9.5.2 基于HMM的比特幣投資預測 258
第10章 大數(shù)據(jù)工具 271
10.1 分布式系統(tǒng)概述 272
10.2 Hadoop概述 273
10.3 Hadoop偽分布式的安裝和配置 273
10.3.1 安裝前準備 273
10.3.2 安裝Hadoop 275
10.3.3 偽分布式配置 275
10.4 MapReduce 277
10.4.1 MapReduce任務的工作流程 278
10.4.2 MapReduce編程 280
10.5 利用MapReduce中的矩陣相乘 281
10.5.1 數(shù)據(jù)準備 281
10.5.2 矩陣的存儲方式 282
10.6 Hive 286
10.6.1 Hive簡介 286
10.6.2 數(shù)據(jù)存儲 287
10.6.3 用Python執(zhí)行HQL命令 288
10.6.4 必知的HQL知識 289
10.6.5 HQL實例 294
10.7 HBase 295
10.7.1 數(shù)據(jù)模型 296
10.7.2 HBase的特點 297
10.7.3 獲取數(shù)據(jù) 297
10.7.4 存儲數(shù)據(jù) 298
第11章 基于卷積神經網(wǎng)絡和深度
哈希編碼的圖像檢索方法 301
11.1 圖像檢索方法的發(fā)展歷程 302
11.2 卷積深度哈希網(wǎng)絡的基本框架 303
11.2.1 卷積子網(wǎng)絡 303
11.2.2 損失函數(shù) 304
11.2.3 哈希層 304
11.3 實驗結果與性能分析 305
11.3.1 神經網(wǎng)絡參數(shù) 305
11.3.2 數(shù)據(jù)庫和評價指標 305
11.3.3 實驗結果分析 306
第12章 蛋白質作用網(wǎng)絡模型 310
第13章 基于改進的長短期記憶網(wǎng)絡的道路交通事故預測模型 322
第14章 大數(shù)據(jù)工作流的性能建模和預測 364
附錄 數(shù)學基礎知識 379
參考文獻 386