本書以大數(shù)據(jù)分析與挖掘的常用技術(shù)與真實案例相結(jié)合的方式,按照“概念和原理講解、案例分析、能力拓展——Python 軟件應(yīng)用”的層次進行闡述,深入淺出地介紹大數(shù)據(jù)分析與挖掘的重要內(nèi)容。全書共 11 章,第 1 章作為全書的緒論,介紹了大數(shù)據(jù)分析與挖掘的基本概念、行業(yè)應(yīng)用等;第2 章介紹了 Python 的安裝、編程基礎(chǔ)以及常用的數(shù)據(jù)分析工具;第 3 章介紹了數(shù)據(jù)的類型、質(zhì)量和相似度與相異度;第 4 章介紹了數(shù)據(jù)探索的常用方法,包括質(zhì)量分析、描述性統(tǒng)計分析、可視化分析和多維數(shù)據(jù)分析;第 5 章介紹了數(shù)據(jù)預(yù)處理的常用方法,包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)歸約和數(shù)據(jù)變換與離散化;第 6 章介紹了回歸與分類的方法,包括多元線性回歸、邏輯回歸、決策樹分類、樸素貝葉斯分類等;第 7 章介紹了聚類的方法,包括 K-Means 算法、DBSCAN 算法等;第 8 章介紹了關(guān)聯(lián)規(guī)則,包括 Apriori 算法和 FP-Growth 算法等;第 9 章介紹了時間序列,包括平穩(wěn)時間序列分析和非平穩(wěn)時間序列分析等;第 10 章介紹了離群點檢測,包括基于統(tǒng)計學(xué)、鄰近性、聚類、分類的離群點檢測方法;第 11 章介紹了大數(shù)據(jù)分析與挖掘的前沿知識。本書大部分章節(jié)包含真實案例和課后習(xí)題,通過練習(xí)和操作實踐,幫助讀者鞏固所學(xué)的內(nèi)容。本書可作為高校數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)或人工智能相關(guān)專業(yè)教材,也可作為數(shù)據(jù)挖掘愛好者的自學(xué)用書。
云本勝,男,1980年生,博士,浙江科技大學(xué)副教授,碩士生導(dǎo)師,中國計算機學(xué)會會員、中國人工智能學(xué)會會員。2010年獲同濟大學(xué)系統(tǒng)工程工學(xué)博士,2016年美國中佛羅里達大學(xué)訪學(xué)學(xué)者。主持中國高校產(chǎn)學(xué)研創(chuàng)新基金、浙江省基礎(chǔ)公益研究計劃項目、浙江省教育廳科研項目、浙江省一流本科課程、浙江省普通本科高!笆奈濉笔着鹿た浦攸c建設(shè)教材、浙江省產(chǎn)學(xué)合作協(xié)同育人項目、教育部產(chǎn)學(xué)合作協(xié)同育人項目等課題多項;主持企業(yè)橫向課題2項;參與國家863、國家自然科學(xué)基金項目等4項;已發(fā)表學(xué)術(shù)論文20余篇;授權(quán)發(fā)明專利2項。指導(dǎo)大學(xué)生創(chuàng)新訓(xùn)練項目、新苗人才計劃項目等課題多項。
目 錄
第1章 緒論 001
1.1 大數(shù)據(jù)分析與挖掘的基本概念 002
1.2 大數(shù)據(jù)分析與挖掘的行業(yè)應(yīng)用 002
1.3 大數(shù)據(jù)分析與挖掘的基本任務(wù) 004
1.4 大數(shù)據(jù)分析與挖掘的建模過程 004
1.4.1 明確任務(wù) 005
1.4.2 數(shù)據(jù)采集 005
1.4.3 數(shù)據(jù)探索 006
1.4.4 數(shù)據(jù)預(yù)處理 006
1.4.5 挖掘建模 007
1.4.6 模型評價 007
1.5 大數(shù)據(jù)分析與挖掘的建模工具 007
小結(jié) 009
習(xí)題 009
第2章 Python簡介 011
2.1 Python安裝 012
2.2 Python編程基礎(chǔ) 015
2.2.1 基本命令 016
2.2.2 數(shù)據(jù)類型 019
2.2.3 運算符 023
2.2.4 函數(shù) 027
2.3 Python數(shù)據(jù)分析工具 029
小結(jié) 033
習(xí)題 034
第3章 數(shù)據(jù) 036
3.1 數(shù)據(jù)類型 037
3.1.1 數(shù)據(jù)集的類型 037
3.1.2 屬性的定義 039
3.1.3 屬性的分類 040
3.2 數(shù)據(jù)質(zhì)量 041
3.3 數(shù)據(jù)的相似度與相異度度量 042
3.3.1 屬性之間的相似度與相異度 042
3.3.2 數(shù)據(jù)對象之間的相異度 045
3.3.3 數(shù)據(jù)對象之間的相似度 049
3.3.4 度量方法的選取 054
小結(jié) 055
習(xí)題 055
第4章 數(shù)據(jù)探索 058
4.1 數(shù)據(jù)質(zhì)量分析 059
4.1.1 缺失值分析 059
4.1.2 異常值分析 060
4.1.3 一致性分析 063
4.2 數(shù)據(jù)描述性統(tǒng)計分析 064
4.2.1 集中趨勢度量 065
4.2.2 離散程度度量 066
4.2.3 多元數(shù)據(jù)統(tǒng)計分析 069
4.3 數(shù)據(jù)可視化分析 070
4.3.1 可視化技術(shù) 070
4.3.2 高維數(shù)據(jù)可視化 076
4.4 多維數(shù)據(jù)分析 082
4.4.1 多維數(shù)組 082
4.4.2 數(shù)據(jù)立方體 083
4.4.3 切片與切塊 084
4.4.4 上卷與下鉆 085
4.5 Python數(shù)據(jù)探索案例分析 086
4.5.1 公共自行車租賃系統(tǒng)數(shù)據(jù)集 086
4.5.2 數(shù)據(jù)探索分析 087
小結(jié) 092
習(xí)題 092
第5章 數(shù)據(jù)預(yù)處理 095
5.1 數(shù)據(jù)清洗 096
5.1.1 缺失值處理 096
5.1.2 異常值處理 098
5.2 數(shù)據(jù)集成 100
5.2.1 實體識別 100
5.2.2 數(shù)據(jù)合并 101
5.2.3 冗余屬性識別 104
5.3 數(shù)據(jù)歸約 106
5.3.1 抽樣 106
5.3.2 采樣 106
5.3.3 屬性子集選擇 108
5.4 數(shù)據(jù)變換與離散化 110
5.4.1 數(shù)據(jù)規(guī)范化 110
5.4.2 簡單函數(shù)變換 112
5.4.3 屬性構(gòu)造 113
5.4.4 連續(xù)屬性離散化 114
5.5 Python數(shù)據(jù)預(yù)處理案例分析 116
5.5.1 案例背景 116
5.5.2 城市春運出行數(shù)據(jù)說明 116
5.5.3 數(shù)據(jù)預(yù)處理 117
小結(jié) 125
習(xí)題 126
第6章 回歸與分類 128
6.1 基本概念 130
6.1.1 回歸概述 131
6.1.2 分類概述 131
6.2 回歸分析 131
6.2.1 一元線性回歸 132
6.2.2 多元線性回歸 134
6.2.3 多項式回歸 142
6.2.4 邏輯回歸 145
6.3 決策樹分類 148
6.3.1 決策樹基本原理 148
6.3.2 建立決策樹 149
6.3.3 決策樹算法 151
6.3.4 隨機森林算法 155
6.4 樸素貝葉斯分類 157
6.4.1 樸素貝葉斯模型基本原理 157
6.4.2 樸素貝葉斯模型代碼實現(xiàn) 160
6.5 K最近鄰分類 161
6.5.1 K最近鄰分類基本原理 162
6.5.2 K最近鄰分類代碼實現(xiàn) 163
6.6 支持向量機 164
6.6.1 支持向量機基本原理 164
6.6.2 數(shù)據(jù)線性可分的情況 165
6.6.3 數(shù)據(jù)線性不可分的情況 166
6.7 神經(jīng)網(wǎng)絡(luò) 169
6.7.1 神經(jīng)網(wǎng)絡(luò)基本概念 169
6.7.2 BP神經(jīng)網(wǎng)絡(luò)算法 170
6.8 回歸與分類的評估方法 174
6.8.1 回歸的評估方法 174
6.8.2 分類的評估方法 175
6.8.3 提高類不平衡數(shù)據(jù)的分類準確率 178
6.9 集成學(xué)習(xí)技術(shù) 178
6.9.1 集成學(xué)習(xí)方法概述 178
6.9.2 Bagging 179
6.9.3 Stacking 179
6.9.4 Boosting 180
6.10 Python回歸與分類案例分析 182
6.10.1 回歸案例分析 182
6.10.2 分類案例分析 185
小結(jié) 188
習(xí)題 189
第7章 聚類 193
7.1 基本概念 194
7.2 劃分聚類 194
7.2.1 K-Means算法 195
7.2.2 K-中心點算法 200
7.3 層次聚類 206
7.3.1 凝聚的層次聚類 207
7.3.2 分裂的層次聚類 207
7.3.3 簇間距離度量方法 208
7.3.4 不同距離度量的層次聚類 210
7.4 基于密度的聚類方法 214
7.4.1 基于中心方法的密度定義 215
7.4.2 DBSCAN算法 216
7.5 概率模型聚類 222
7.5.1 模糊簇 222
7.5.2 概率模型聚類步驟 223
7.5.3 期望最大化算法 223
7.6 聚類評估 226
7.6.1 估計聚類趨勢 226
7.6.2 確定正確的簇的個數(shù) 228
7.6.3 聚類質(zhì)量評估 229
7.7 Python聚類案例分析 232
7.7.1 數(shù)據(jù)說明 232
7.7.2 數(shù)據(jù)預(yù)處理 233
7.7.3 構(gòu)建聚類模型 236
小結(jié) 239
習(xí)題 239
第8章 關(guān)聯(lián)規(guī)則 243
8.1 基本概念 244
8.1.1 基本元素的概念 244
8.1.2 閉頻繁項集和極大頻繁項集 249
8.2 Apriori算法 252
8.2.1 Apriori算法簡介 252
8.2.2 改進的Apriori算法 256
8.3 FP-Growth算法 257
8.3.1 FP-Growth算法的實現(xiàn)過程 257
8.3.2 使用FP-Growth算法實現(xiàn)新聞網(wǎng)站點擊數(shù)據(jù)頻繁項集挖掘 261
8.4 關(guān)聯(lián)規(guī)則評估方法 262
8.4.1 關(guān)聯(lián)規(guī)則興趣度評估 262
8.4.2 關(guān)聯(lián)規(guī)則相關(guān)度評估 264
8.4.3 其他評估度量方法 264
8.5 多維關(guān)聯(lián)規(guī)則挖掘 265
8.6 多層關(guān)聯(lián)規(guī)則挖掘 266
8.7 Python關(guān)聯(lián)規(guī)則案例分析 268
8.7.1 基于Apriori算法實現(xiàn)電影觀看規(guī)則挖掘 268
8.7.2 基于FP-Growth算法實現(xiàn)商品購買規(guī)則挖掘 274
小結(jié) 278
習(xí)題 278
第9章 時間序列 282
9.1 時間序列基本概念 283
9.1.1 特征統(tǒng)計量 283
9.1.2 時間序列的特點 284
9.2 時間序列預(yù)處理 285
9.2.1 平穩(wěn)性 285
9.2.2 白噪聲 287
9.3 平穩(wěn)時間序列分析 288
9.3.1 AR模型 288
9.3.2 MA模型 289
9.3.3 ARMA模型 289
9.3.4 平穩(wěn)時間序列建模 290
9.4 非平穩(wěn)時間序列分析 291
9.4.1 差分運算 291
9.4.2 ARIMA模型 292
9.5 Python時間序列案例分析 300
9.5.1 背景與目標 300
9.5.2 數(shù)據(jù)預(yù)處理 301
9.5.3 分析建模 303
小結(jié) 305
習(xí)題 306
第10章 離群點檢測 309
10.1 離群點概述 310
10.2 離群點檢測方法 311
10.2.1 基于統(tǒng)計學(xué)的方法 311
10.2.2 基于鄰近性的方法 317
10.2.3 基于聚類的方法 321
10.2.4 基于分類的方法 324
10.3 高維數(shù)據(jù)中的離群點檢測 327
10.3.1 擴充的傳統(tǒng)離群點檢測 327
10.3.2 發(fā)現(xiàn)子空間中的離群點 328
10.3.3 高維離群點建模 329
10.4 Python離群點檢測案例分析 330
10.4.1 背景與目標 330
10.4.2 使用LOF算法進行離群點檢測 330
10.4.3 繪制離群點檢測圖 331
小結(jié) 333
習(xí)題 334
第11章 大數(shù)據(jù)分析與挖掘的發(fā)展前沿 336
11.1 復(fù)雜的大數(shù)據(jù)挖掘 337
11.1.1 復(fù)雜的數(shù)據(jù) 337
11.1.2 復(fù)雜的挖掘方式 338
11.2 大數(shù)據(jù)挖掘與人工智能 340
11.2.1 深度學(xué)習(xí) 340
11.2.2 知識圖譜 341
11.2.3 遷移學(xué)習(xí) 344
11.2.4 強化學(xué)習(xí) 345
11.2.5 聯(lián)邦學(xué)習(xí) 347
小結(jié) 348
習(xí)題 348
參考文獻 350