本書著力于介紹數(shù)據(jù)挖掘基礎(chǔ)知識、基本原理、常用算法,主要內(nèi)容包括數(shù)據(jù)挖掘概述、數(shù)據(jù)的描述與可視化、數(shù)據(jù)的采集和預(yù)處理、數(shù)據(jù)的歸約、關(guān)聯(lián)規(guī)則挖掘、分類與預(yù)測、 非線性預(yù)測模型、聚類分析、深度學(xué)習(xí)簡介、使用 Weka 進(jìn)行數(shù)據(jù)挖掘。本書通俗易懂,注重基礎(chǔ)知識、基本原理和基本方法,注重啟發(fā)和引申,以培養(yǎng)學(xué)生獨立思考和獨立發(fā)現(xiàn)的能力。本書適合作為數(shù)據(jù)科學(xué)與大數(shù)據(jù)、信息管理、統(tǒng)計等專業(yè)的本科層次基礎(chǔ)課教材,也可作為相關(guān)專業(yè)研究生層次的參考用書。
本書是基于人工智能和大數(shù)據(jù)及相關(guān)專業(yè)的新工科教材,重點介紹了數(shù)據(jù)挖掘領(lǐng)域具有代表性的概念和算法基礎(chǔ)。全書側(cè)重基本概念,并配有大量通俗易懂案例。本教材適合48學(xué)時、32學(xué)時的本科和專科教材,也可作為研究生的入門參考書。
隨著信息技術(shù)的普及和應(yīng)用,各行各業(yè)產(chǎn)生了大量的數(shù)據(jù),人們持續(xù)不斷地探索
處理這些數(shù)據(jù)的方法,以期大程度地從中挖掘有用信息,面對如潮水般不斷增加的
數(shù)據(jù),人們不再滿足于數(shù)據(jù)的查詢和統(tǒng)計分析,而是期望從數(shù)據(jù)中提取信息或者知識
為決策服務(wù)。數(shù)據(jù)挖掘技術(shù)突破數(shù)據(jù)分析技術(shù)的種種局限,結(jié)合統(tǒng)計學(xué)、數(shù)據(jù)庫、機(jī)
器學(xué)習(xí)等技術(shù)解決從數(shù)據(jù)中發(fā)現(xiàn)新的信息并輔助決策這一難題,是正在飛速發(fā)展的前
沿學(xué)科。近年來,隨著教育部新工科建設(shè)的不斷推進(jìn),大數(shù)據(jù)技術(shù)受到廣泛的關(guān)
注,數(shù)據(jù)挖掘作為大數(shù)據(jù)技術(shù)的重要實現(xiàn)手段,能夠挖掘數(shù)據(jù)的關(guān)聯(lián)規(guī)則,實現(xiàn)數(shù)據(jù)
的分類、聚類、異常檢測和時間序列分析等,解決商務(wù)管理、生產(chǎn)控制、市場分析、
工程設(shè)計和科學(xué)探索等各行各業(yè)中的數(shù)據(jù)分析與信息挖掘問題。
截至 2018 年本書出版,共有 283 所高校獲批數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè),
其中 985 及 211 高校占比為 13%。目前國內(nèi)數(shù)據(jù)人才缺口更是達(dá)到百萬級。數(shù)據(jù)科學(xué)
是一門交叉學(xué)科,除了計算機(jī)相關(guān)知識,還需要統(tǒng)計和數(shù)學(xué)基礎(chǔ),以及業(yè)務(wù)應(yīng)用能力。
目前,
數(shù)據(jù)科學(xué)與大數(shù)據(jù)逐漸成為高校信息類、
管理類和數(shù)學(xué)統(tǒng)計類專業(yè)的必修課程,
同時,作為面向各專業(yè)的通識課也廣受歡迎。
本書作為立足于應(yīng)用型本科數(shù)據(jù)科學(xué)與大數(shù)據(jù)教學(xué)的入門級教材,具有如下特色:
(1)內(nèi)容安排合理且全面,從數(shù)據(jù)的預(yù)處理到常用數(shù)據(jù)挖掘算法的描述,循序漸
進(jìn),深入淺出。
(2)難度適中,適用于本科中低年級的入門級教材,零基礎(chǔ)要求,對編程及數(shù)學(xué)
知識不作要求。
(3)融入了大量本領(lǐng)域的前沿知識與方法,如包括基于 GAN 網(wǎng)絡(luò)的深度學(xué)習(xí)的
新進(jìn)展。
(4)理論與案例相結(jié)合,理論與實踐相結(jié)合,包含了 Weka 工具的使用。特別地
在第 10 章還給出了完整的數(shù)據(jù)挖掘應(yīng)用案例,使讀者能夠在數(shù)據(jù)挖掘平臺上感受完
整的數(shù)據(jù)分析過程。
本書全面介紹了數(shù)據(jù)挖掘的基礎(chǔ)知識、
基本原理、 常用算法以及相應(yīng)的實踐工具,
主要內(nèi)容分為以下四塊內(nèi)容:
(1)數(shù)據(jù)挖掘基本知識。第 1 章為數(shù)據(jù)挖掘概述,主要介紹數(shù)據(jù)挖掘的基本概念、
基本流程及算法等。第 2 章介紹數(shù)據(jù)的描述與可視化,包括數(shù)據(jù)按屬性分類、數(shù)據(jù)的
基本統(tǒng)計描述、數(shù)據(jù)的相似性度量方法及數(shù)據(jù)的可視化技術(shù)等。
(2)數(shù)據(jù)預(yù)處理。第 3 章介紹數(shù)據(jù)的采集和預(yù)處理,包括數(shù)據(jù)的采集、數(shù)據(jù)預(yù)處
理的目的和任務(wù)、數(shù)據(jù)清洗、數(shù)據(jù)集成和數(shù)據(jù)變換等。第 4 章介紹數(shù)據(jù)的歸約,包括
線性回歸和主成分分析。
(3)數(shù)據(jù)挖掘算法詳解。第 5 章介紹關(guān)聯(lián)規(guī)則挖掘,包括關(guān)聯(lián)規(guī)則挖掘的概念、
關(guān)聯(lián)規(guī)則挖掘算法及應(yīng)用實例。第 6 章介紹分類與預(yù)測,包括決策樹模型、貝葉斯分?jǐn)?shù)據(jù)挖掘
2
類模型、線性判別模型、邏輯回歸模型以及模型的評估與選擇方法。第 7 章介紹非線
性預(yù)測模型,包括支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)。第 8 章介紹聚類分析,包括聚類分析概
述、 k-均值聚類、 k-中心聚類以及聚類評估。第 9 章介紹深度學(xué)習(xí),包括深度學(xué)習(xí)
的來由、深度學(xué)習(xí)網(wǎng)絡(luò)的基本結(jié)構(gòu)、卷積神經(jīng)網(wǎng)絡(luò)及一個應(yīng)用實例。
(4)數(shù)據(jù)挖掘?qū)嵺`。第 10 章為使用 Weka 進(jìn)行數(shù)據(jù)挖掘,包括 Weka 的基本操作、
如何使用 Weka 進(jìn)行關(guān)聯(lián)規(guī)則挖掘、分類、回歸和聚類等。
另外,附錄還介紹了拉格朗日乘子法在支持向量機(jī)中的優(yōu)化算法。
本書由宋萬清、楊壽淵、陳劍雪、高永彬編著。具體分工如下:上海工程技術(shù)大
學(xué)宋萬清編寫第 2、5、6、8、10 章和附錄,上海工程技術(shù)大學(xué)陳劍雪編寫第 3、7 章,
上海工程技術(shù)大學(xué)高永彬編寫第 9 章,江西財經(jīng)大學(xué)楊壽淵編寫第 1、4 章。全書由
上海工程技術(shù)大學(xué)方志軍、上海交通大學(xué)錢亮宏主審。同時,本書部分內(nèi)容借鑒了許
多學(xué)者的研究成果,在此深表謝意!
由于編者水平有限,加之時間倉促,書中難免存在疏漏和不足之處,敬請讀者批
評指正。
編
者
2018 年 8 月
宋萬清:上海工程技術(shù)大學(xué)電子電氣工程學(xué)院教授,主要研究方向:狀態(tài)監(jiān)測與故障診斷,隨機(jī)信號分析,大數(shù)據(jù)處理,機(jī)電一體化控制與現(xiàn)場總線技術(shù)。主講了智能控制、系統(tǒng)辨識、數(shù)據(jù)挖掘等25門本科生與研究生課程。
第 1 章
數(shù)據(jù)挖掘概述 ...................... 1
1.1 什么是數(shù)據(jù)挖掘
...................... 1
1.1.1 數(shù)據(jù)、信息和知識 ........ 1
1.1.2 數(shù)據(jù)挖掘的定義 ............
2
1.1.3 數(shù)據(jù)挖掘的發(fā)展簡史 .... 3
1.2 數(shù)據(jù)挖掘的基本流程
及方法概述 ............................. 4
1.2.1 數(shù)據(jù)挖掘的基本流程 .... 4
1.2.2 數(shù)據(jù)挖掘的任務(wù)
和方法概述 ................... 6
1.3 數(shù)據(jù)挖掘的應(yīng)用
...................... 9
1.3.1 數(shù)據(jù)挖掘在商務(wù)
領(lǐng)域的應(yīng)用 ................... 9
1.3.2 數(shù)據(jù)挖掘在醫(yī)療
和醫(yī)學(xué)領(lǐng)域的應(yīng)用 ...... 10
1.3.3 數(shù)據(jù)挖掘在銀行
和保險領(lǐng)域的應(yīng)用 ...... 10
1.3.4 數(shù)據(jù)挖掘在社交
媒體領(lǐng)域的應(yīng)用 ......... 11
習(xí)題 ............................................... 11
第 2 章
數(shù)據(jù)的描述與可視化.......... 12
2.1 概述
...................................... 12
2.2 數(shù)據(jù)對象與屬性類型.............
12
2.2.1 什么是屬性
................. 12
2.2.2 標(biāo)稱屬性
..................... 12
2.2.3 二元屬性
..................... 13
2.2.4 序數(shù)屬性
..................... 13
2.2.5 數(shù)值屬性
..................... 14
2.2.6 離散屬性與連續(xù)
屬性 ............................ 14
2.3 數(shù)據(jù)的基本統(tǒng)計描述
............ 15
2.3.1 中心趨勢度量 .............
15
2.3.2 度量數(shù)據(jù)散布:極差、
四分位數(shù)、方差、
標(biāo)準(zhǔn)差和四分位數(shù)
極差 ............................ 17
2.3.3 數(shù)據(jù)基本統(tǒng)計的
圖形描述 .................... 19
2.4 數(shù)據(jù)可視化
........................... 23
2.4.1 基于像素的可視化 ...... 23
2.4.2 幾何投影可視化.......... 25
2.4.3 基于圖符的可視化 ...... 27
2.4.4 層次可視化
................. 28
2.4.5 可視化復(fù)雜對象和
關(guān)系 ............................ 30
2.5 數(shù)據(jù)相似性和相異性度量 ..... 32
2.5.1 數(shù)據(jù)矩陣與相異性
矩陣 ............................ 32
2.5.2 標(biāo)稱屬性的鄰近性
度量 ............................ 33
2.5.3 二元屬性的鄰近性
度量 ............................ 34
2.5.4 數(shù)值屬性的相異性:
閔可夫斯基距離 ......... 36
2.5.5 序數(shù)屬性的鄰近性
度量 ............................ 37
2.5.6 混合類型屬性的
相異性 ........................ 38
2.5.7 余弦相似性
................. 40
習(xí)題............................................... 40
第 3 章
數(shù)據(jù)的采集和預(yù)處理 .......... 42
3.1 概述
...................................... 42
3.1.1 大數(shù)據(jù)采集的特點 ...... 42數(shù)據(jù)挖掘
2
3.1.2 大數(shù)據(jù)采集的方法 ...... 43
3.2 數(shù)據(jù)預(yù)處理的目的和任務(wù) ..... 44
3.3 數(shù)據(jù)清洗
............................... 45
3.3.1 缺失值清洗
................. 46
3.3.2 異常值清洗
................. 48
3.3.3 格式內(nèi)容清洗 .............
50
3.3.4 邏輯錯誤清洗 .............
50
3.3.5 非需求數(shù)據(jù)清洗 .......... 51
3.3.6 關(guān)聯(lián)性驗證
................. 51
3.4 數(shù)據(jù)集成
............................... 52
3.5 數(shù)據(jù)變換 ...............................
53
習(xí)題 ............................................... 56
第 4 章
數(shù)據(jù)的歸約........................ 57
4.1 概述
...................................... 57
4.2 屬性的選擇與數(shù)值歸約 .........
57
4.2.1 屬性的評估準(zhǔn)則 .......... 58
4.2.2 屬性子集選擇方法 ...... 59
4.2.3 數(shù)值歸約
..................... 60
4.3 線性回歸
............................... 61
4.4 主成分分析
........................... 63
習(xí)題 ............................................... 66
第 5 章
關(guān)聯(lián)規(guī)則挖掘 .................... 67
5.1 概述
...................................... 67
5.2 關(guān)聯(lián)規(guī)則的分類
.................... 68
5.3 關(guān)聯(lián)規(guī)則的研究步驟.............
68
5.3.1 關(guān)聯(lián)規(guī)則挖掘算法的
分類 ............................ 69
5.3.2 各種算法類型的
對比 ............................ 70
5.4 Apriori 算法分析
................... 70
5.5 實例分析
............................... 70
5.6 關(guān)聯(lián)規(guī)則的推廣(GRI) ...... 72
5.7 關(guān)聯(lián)規(guī)則的深入挖掘.............
74
習(xí)題 ............................................... 75
第 6 章
分類與預(yù)測........................ 76
6.1 概述
...................................... 76
6.1.1 基本概念
..................... 76
6.1.2 數(shù)據(jù)分類的
一般方法 .................... 77
6.2 決策樹模型
........................... 77
6.2.1 決策樹的工作原理 ...... 78
6.2.2 決策樹的適用問題 ...... 78
6.2.3 ID3 算法
..................... 79
6.2.4 決策樹的結(jié)點劃分 ...... 80
6.3 貝葉斯分類模型
.................... 81
6.3.1 貝葉斯定理
................. 81
6.3.2 貝葉斯模型的特點 ...... 82
6.4 線性判別模型
....................... 82
6.5 邏輯回歸模型
....................... 83
6.5.1 邏輯回歸模型
概述 ............................ 83
6.5.2 邏輯回歸模型的
基本概念 .................... 83
6.6 模型的評估與選擇
................ 85
6.6.1 評估分類器性能的
度量 ............................ 85
6.6.2 保持方法和隨機(jī)
二次抽樣 .................... 90
6.6.3 交叉驗證
..................... 90
6.6.4 自助法
........................ 91
6.6.5 使用統(tǒng)計顯著性檢驗
選擇模型 .................... 91
習(xí)題............................................... 93
第 7 章
非線性預(yù)測模型 ................. 94
7.1 概述
...................................... 94
7.2 支持向量機(jī)
........................... 94
7.2.1 支持向量機(jī)分類
原理 ............................ 95
7.2.2 非線性支持向量機(jī) ...... 99
7.2.3 支持向量機(jī)回歸
預(yù)測 .......................... 102
7.2.4 基于支持向量機(jī)的
預(yù)測分析 .................. 106
7.3 神經(jīng)網(wǎng)絡(luò)
............................. 108
7.3.1 人工神經(jīng)網(wǎng)絡(luò)模型
與分類 ...................... 108
7.3.2 BP 神經(jīng)網(wǎng)絡(luò) .............
112目 錄
3
7.3.3 RBF 神經(jīng)網(wǎng)絡(luò) ........... 117
7.3.4 基于神經(jīng)網(wǎng)絡(luò)的
預(yù)測分析................... 121
習(xí)題 ............................................. 124
第 8 章
聚類分析 ......................... 125
8.1 概述
.................................... 125
8.2 k-均值聚類
......................... 126
8.3 k-中心聚類
......................... 129
8.4 聚類評估
............................. 130
8.4.1 外部法
...................... 130
8.4.2 內(nèi)部法
...................... 131
8.4.3 可視化方法 ...............
131
習(xí)題 ............................................. 131
第 9 章
深度學(xué)習(xí)簡介 .................. 133
9.1 概述
.................................... 133
9.2 來自人類視覺機(jī)理的啟發(fā) ... 134
9.3 深層神經(jīng)網(wǎng)絡(luò)......................
136
9.4 卷積神經(jīng)網(wǎng)絡(luò)......................
137
9.4.1 卷積和池化 ...............
138
9.4.2 CNN 網(wǎng)絡(luò)框架 .......... 141
9.4.3 CNN 的應(yīng)用 ..............
142
9.5 RNN 循環(huán)神經(jīng)網(wǎng)絡(luò) .............
144
9.5.1 RNN 的結(jié)構(gòu) ..............
145
9.5.2 RNN 的缺陷 ..............
146
9.5.3 RNN 的應(yīng)用 ..............
147
9.6 生成對抗網(wǎng)絡(luò)
..................... 147
9.6.1 GAN 的原理與架構(gòu) .. 148
9.6.2 GAN 的應(yīng)用 ..............
150
習(xí)題............................................. 151
第 10 章
使用 Weka 進(jìn)行
數(shù)據(jù)挖掘 ....................... 153
10.1 概述
.................................. 153
10.2 Weka 關(guān)聯(lián)數(shù)據(jù)挖掘的
基本操作 ........................... 153
10.3 數(shù)據(jù)格式
........................... 158
10.4 關(guān)聯(lián)規(guī)則挖掘
................... 160
10.5 分類與回歸
....................... 163
10.6 聚類分析
........................... 166
習(xí)題............................................. 167
附錄 A 拉格朗日優(yōu)化法 ............... 169
參考文獻(xiàn)........................................ 177