本書全面系統(tǒng)地介紹數(shù)據(jù)挖掘的概念、技術(shù)、算法及應(yīng)用, 力求為初學(xué)者構(gòu)建一個合適的學(xué)習(xí)框架。全書將數(shù)據(jù)挖掘歸納成數(shù)據(jù)預(yù)處理、數(shù)據(jù)探索、決策樹、貝葉斯分類、人工神經(jīng)網(wǎng)絡(luò)、支持向量機、關(guān)聯(lián)規(guī)則分析、聚類、時間序列預(yù)測等幾個主題, 不僅詳解技術(shù)原理和算法實現(xiàn), 而且還結(jié)合復(fù)雜多樣的實際數(shù)據(jù)環(huán)境, 探討其應(yīng)用場景和使用方法。
更多科學(xué)出版社服務(wù),請掃碼獲取。
目錄
前言
第1章 引言 1
1.1 數(shù)據(jù)挖掘的定義 1
1.2 數(shù)據(jù)挖掘的起源 2
1.3 數(shù)據(jù)挖掘的類型 2
1.3.1 數(shù)據(jù)庫數(shù)據(jù) 2
1.3.2 數(shù)據(jù)倉庫 3
1.3.3 事務(wù)數(shù)據(jù) 3
1.3.4 時間序列數(shù)據(jù) 3
1.3.5 文本和多媒體數(shù)據(jù) 4
1.3.6 空間數(shù)據(jù) 4
1.4 數(shù)據(jù)挖掘的功能與模式 4
1.4.1 數(shù)據(jù)特征化與數(shù)據(jù)區(qū)分 5
1.4.2 頻繁模式、關(guān)聯(lián)和相關(guān)性分析 6
1.4.3 分類和回歸 6
1.4.4 聚類分析 6
1.4.5 離群點分析 7
1.5 數(shù)據(jù)挖掘常用技術(shù)及其優(yōu)缺點 7
1.6 數(shù)據(jù)挖掘的步驟 7
1.7 數(shù)據(jù)挖掘的應(yīng)用 8
1.7.1 數(shù)據(jù)統(tǒng)計應(yīng)用現(xiàn)狀 8
1.7.2 個性化技術(shù)應(yīng)用現(xiàn)狀 8
1.7.3 預(yù)測技術(shù)應(yīng)用現(xiàn)狀 9
1.7.4 分類和回歸技術(shù)應(yīng)用現(xiàn)狀 9
1.7.5 輔助決策系統(tǒng)應(yīng)用現(xiàn)狀 9
1.8 數(shù)據(jù)挖掘面臨的困難與挑戰(zhàn) 10
習(xí)題 11
第2章 數(shù)據(jù)預(yù)處理 12
2.1 認識數(shù)據(jù) 12
2.1.1 數(shù)據(jù)對象與屬性的類型 12
2.1.2 數(shù)據(jù)集的類型 15
2.2 原始數(shù)據(jù)存在的問題 16
2.3 數(shù)據(jù)預(yù)處理方法 18
2.3.1 數(shù)據(jù)預(yù)處理的步驟 18
2.3.2 數(shù)據(jù)清理 19
2.3.3 數(shù)據(jù)集成 22
2.3.4 數(shù)據(jù)歸約 24
2.3.5 數(shù)據(jù)變換 28
習(xí)題 31
實踐練習(xí) 31
第3章 數(shù)據(jù)探索 32
3.1 數(shù)據(jù)的基本統(tǒng)計描述 32
3.1.1 中心趨勢度量 32
3.1.2 數(shù)據(jù)散布度量 35
3.2 可視化分析 36
3.2.1 一般概念 36
3.2.2 不同數(shù)據(jù)的可視化 38
3.3 聯(lián)機分析處理 44
3.3.1 OLAP的概念 44
3.3.2 OLAP的多維數(shù)據(jù)概念 45
3.3.3 OLAP的多維數(shù)據(jù)結(jié)構(gòu) 45
3.3.4 OLAP的多維數(shù)據(jù)庫 47
3.3.5 OALP的多維數(shù)據(jù)分析 48
習(xí)題 48
實踐練習(xí) 48
第4章 決策樹 49
4.1 決策樹概述 49
4.1.1 決策樹的含義及相關(guān)概念 49
4.1.2 決策樹算法構(gòu)造基本流程 52
4.1.3 決策樹的特點 53
4.2 ID3算法 53
4.2.1 ID3算法原理 53
4.2.2 ID3算法代碼實現(xiàn) 55
4.3 C4.5算法 56
4.3.1 C4.5算法原理 56
4.3.2 C4.5算法代碼實現(xiàn) 57
4.4 隨機森林 63
4.4.1 基本原理 63
4.4.2 隨機森林構(gòu)造步驟 63
4.4.3 隨機森林代碼實現(xiàn) 64
習(xí)題 70
實踐練習(xí) 71
第5章 貝葉斯分類 72
5.1 貝葉斯定理 72
5.2 樸素貝葉斯分類器 73
5.2.1 樸素貝葉斯分類器工作原理 73
5.2.2 樸素貝葉斯分類器應(yīng)用案例 74
5.3 半樸素貝葉斯分類器 75
5.4 貝葉斯網(wǎng)絡(luò) 76
5.4.1 貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu) 77
5.4.2 貝葉斯網(wǎng)絡(luò)的建立 77
5.4.3 貝葉斯網(wǎng)絡(luò)的特點 78
5.5 貝葉斯分類器實例分析 78
習(xí)題 79
實踐練習(xí) 80
第6章 人工神經(jīng)網(wǎng)絡(luò) 81
6.1 人工神經(jīng)網(wǎng)絡(luò)概述 81
6.2 人工神經(jīng)網(wǎng)絡(luò)基本原理 82
6.2.1 人工神經(jīng)元模型 82
6.2.2 激活函數(shù) 83
6.2.3 人工神經(jīng)網(wǎng)絡(luò)的拓撲結(jié)構(gòu) 86
6.2.4 人工神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)與工作 89
6.2.5 感知機模型 90
6.2.6 誤差反向傳播算法 93
6.3 算法改進 101
6.3.1 交叉熵—神經(jīng)元飽和 101
6.3.2 正則化—過擬合 102
6.3.3 權(quán)值初始化—隱藏層神經(jīng)元飽和 102
6.4 應(yīng)用及實例分析 103
習(xí)題 106
實踐練習(xí) 106
第7章 支持向量機 107
7.1 SVM分類 107
7.1.1 最大間隔分類器 107
7.1.2 軟間隔優(yōu)化 112
7.1.3 線性規(guī)劃SVM 113
7.2 SVM回歸 114
7.2.1 ε不敏感損失函數(shù) 114
7.2.2 SVR實現(xiàn)原理及過程 115
7.3 SVM實例應(yīng)用 117
習(xí)題 119
實踐練習(xí) 119
第8章 關(guān)聯(lián)規(guī)則分析 121
8.1 關(guān)聯(lián)規(guī)則分析概述 121
8.1.1 關(guān)聯(lián)規(guī)則基本概念 122
8.1.2 關(guān)聯(lián)規(guī)則度量及基本過程 122
8.2 關(guān)聯(lián)規(guī)則分類 124
8.2.1 單層關(guān)聯(lián)規(guī)則—頻繁項集的產(chǎn)生 124
8.2.2 不產(chǎn)生候選頻繁項集的算法 130
8.3 多層多維關(guān)聯(lián)規(guī)則挖掘 139
8.3.1 事務(wù)型數(shù)據(jù)庫挖掘多層關(guān)聯(lián)規(guī)則 139
8.3.2 興趣度度量 139
8.3.3 關(guān)聯(lián)挖掘與相關(guān)分析 139
8.3.4 有約束的關(guān)聯(lián)挖掘 140
8.4 關(guān)聯(lián)規(guī)則分析應(yīng)用場景 140
習(xí)題 143
實踐練習(xí) 144
第9章 聚類 145
9.1 聚類概述 145
9.1.1 聚類的含義 145
9.1.2 聚類算法的分類 145
9.2 相似性測度指標(biāo) 146
9.2.1 距離測度指標(biāo) 146
9.2.2 非距離測度指標(biāo) 148
9.3 k-means算法 149
9.3.1 k-means算法原理 149
9.3.2 k-means算法特點 151
9.3.3 k-means實例分析 151
9.4 k-中心點算法 153
9.4.1 算法原理 153
9.4.2 k-中心點算法特點 154
9.4.3 k-中心點實例分析 155
習(xí)題 157
實踐練習(xí) 158
第10章 時間序列預(yù)測 159
10.1 時間序列概述 159
10.2 預(yù)測的定量方法 166
10.2.1 平滑法 166
10.2.2 趨勢推測法 169
10.3 預(yù)測的定性方法 171
10.3.1 德爾菲法 171
10.3.2 專家判斷法 171
10.3.3 主觀概率預(yù)測法 171
10.3.4 情景預(yù)測法 172
10.4 常用模型介紹 172
10.4.1 平穩(wěn)性檢驗 172
10.4.2 差分法 173
10.4.3 白噪聲檢驗 174
10.4.4 時間序列模型預(yù)測的基本步驟 175
10.4.5 AR模型 176
10.4.6 MA模型 184
10.4.7 ARMA模型 188
10.4.8 ARIMA模型 191
習(xí)題 200
實踐練習(xí) 200
參考文獻 201