定 價:79 元
叢書名:數(shù)據(jù)科學與工程技術(shù)叢書
- 作者:丁兆云,周鋆,杜振國
- 出版時間:2021/12/1
- ISBN:9787111696308
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:TP311.131
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
目前,數(shù)據(jù)挖掘類課程已成為我國新工科教育的數(shù)據(jù)科學思維提升課程,成為信息、電子等各類工科專業(yè)本科生與研究生的必修課。本書深入淺出地介紹了數(shù)據(jù)挖掘和數(shù)據(jù)分析的知識、常用的各類算法;系統(tǒng)梳理與比較各類算法的優(yōu)缺點與適用場景。本書內(nèi)容結(jié)合作者多年的科研和教學經(jīng)驗,大量案例來自作者的項目和科研成果,不僅適合作為大數(shù)據(jù)特色類專業(yè)的本科生和研究生教材,同時也適合機械、航空等其他工科專業(yè)的入門與自學教材,還可作為各專業(yè)本科生與研究生考試復習的參考資料。
隨著大數(shù)據(jù)、人工智能的快速發(fā)展,各高校越來越重視大數(shù)據(jù)相關(guān)專業(yè)與課程的建設(shè),很多高校開設(shè)了大數(shù)據(jù)學院或數(shù)據(jù)科學/大數(shù)據(jù)專業(yè)。隨著數(shù)據(jù)科學的普及,數(shù)據(jù)挖掘逐漸成為一種通用技術(shù),廣泛應用于人們社會生活的各個領(lǐng)域,因此掌握數(shù)據(jù)挖掘的基本概念和技術(shù)十分重要。
筆者近年來一直從事數(shù)據(jù)挖掘領(lǐng)域的研究以及課程的建設(shè),通過將復雜的數(shù)據(jù)挖掘知識點與實際案例結(jié)合,形成了一套以案例為牽引的數(shù)據(jù)挖掘知識體系,使不同學科背景的本科生、研究生更容易理解和掌握數(shù)據(jù)挖掘技術(shù)。
本書以深入淺出、簡要易懂的方式薈萃了數(shù)據(jù)挖掘的各類算法知識點;系統(tǒng)地梳理和比較了各類算法的優(yōu)缺點與適用場景;以案例為驅(qū)動說明了數(shù)據(jù)挖掘算法的運用。本書知識點難度適中,適合理工科相關(guān)專業(yè)的本科生與研究生作為教材使用,也可作為相關(guān)領(lǐng)域的科研與工程技術(shù)人員的參考書。另外,本書選取了筆者所在高校各類數(shù)據(jù)挖掘課程的試題,這些試題不僅涵蓋數(shù)據(jù)挖掘經(jīng)典的知識點,而且涉及互聯(lián)網(wǎng)公司在招聘數(shù)據(jù)挖掘、機器學習、人工智能等方向的工程師時的筆試知識點。這些試題覆蓋面廣、新穎性強,適合本科生與研究生進行考前復習以及應聘筆試和面試時參考。本書的組織結(jié)構(gòu)如下:
第1章闡述為什么要學習數(shù)據(jù)挖掘、什么是數(shù)據(jù)挖掘、數(shù)據(jù)挖掘的主要技術(shù),使讀者從整體上把握本書的內(nèi)容。
第2章從數(shù)據(jù)的基本概念、基本統(tǒng)計特性、可視化以及相似性計算等方面綜合認識數(shù)據(jù),讓讀者知道在真實數(shù)據(jù)場景中,應該從哪幾個方面初步認識數(shù)據(jù)。
第3章主要包括數(shù)據(jù)質(zhì)量的衡量因素、數(shù)據(jù)預處理的方法以及特征工程的常見方法等內(nèi)容,讓讀者知道針對真實的質(zhì)量不高的數(shù)據(jù),如何通過數(shù)據(jù)預處理與特征工程提高數(shù)據(jù)質(zhì)量。
第4章至第11章主要介紹數(shù)據(jù)分類,將從決策樹分類、規(guī)則和近鄰分類、回歸、支持向量機、神經(jīng)網(wǎng)絡、集成學習以及模型的評價等方面來詳細闡述數(shù)據(jù)分類算法,讓讀者能夠針對實際數(shù)據(jù)挖掘問題,深入理解數(shù)據(jù)分類算法,并且靈活運用到實踐中。
第12章主要從劃分方法、層次方法、密度方法等方面詳細闡述數(shù)據(jù)聚類的算法,讓讀者能夠深入理解聚類算法的原理,掌握算法的應用場景。
第13章主要從Apriori算法、FP-Growth算法、關(guān)聯(lián)分析評估等方面詳細闡述關(guān)聯(lián)規(guī)則挖掘算法,讓讀者能夠深入理解頻繁項挖掘與規(guī)則挖掘的原理,熟練運用算法解決大項事物數(shù)據(jù)庫關(guān)聯(lián)規(guī)則挖掘的問題。
第14章詳細闡述了圖數(shù)據(jù)中的節(jié)點影響力評估模型,讓讀者能夠針對實際大型圖數(shù)據(jù)的場景,利用影響力計算模型挖掘圖中的關(guān)鍵節(jié)點。
第15章主要針對現(xiàn)實中大量的個性化推薦需求,詳細闡述基于內(nèi)容的信息推薦、基于協(xié)同的信息推薦以及混合推薦等內(nèi)容,讓讀者能夠熟練運用推薦算法解決現(xiàn)實中的推薦問題。
第16章主要針對近年來人工智能中熱門的自然語言處理問題,詳細闡述分布式詞向量、循環(huán)神經(jīng)網(wǎng)絡、卷積神經(jīng)網(wǎng)絡、BERT模型等內(nèi)容,使讀者能夠深入理解神經(jīng)網(wǎng)絡在自然語言處理中的模型。
附錄匯編了數(shù)據(jù)挖掘的各類試題,讀者可以通過試題的解答進一步理解知識點,試題答案可從華章網(wǎng)站下載。
本書在提煉數(shù)據(jù)挖掘知識點的基礎(chǔ)上,在中國大學MOOC上開設(shè)了“數(shù)據(jù)挖掘”MOOC課程(https://www.icourse163.org/course/NUDT-1461782176),并在頭歌平臺上開設(shè)了“數(shù)據(jù)挖掘”實驗課程(http://www.educoder.net/path/4153),讀者可通過在線視頻課程的學習、作業(yè)訓練與編程實踐加深對數(shù)據(jù)挖掘知識點的理解,提高運用能力。
數(shù)據(jù)挖掘是一個快速發(fā)展的領(lǐng)域,加之編寫時間、作者水平所限,書中難免有疏漏之處,請各位讀者、同行不吝指正。
前言
第1章 緒論1
1.1 數(shù)據(jù)挖掘的出現(xiàn)1
1.2 為什么要學習數(shù)據(jù)挖掘1
1.2.1 數(shù)據(jù)爆炸但知識貧乏1
1.2.2 從商業(yè)數(shù)據(jù)到商業(yè)智能的進化2
1.2.3 科學發(fā)展范式2
1.3 什么是數(shù)據(jù)挖掘3
1.3.1 數(shù)據(jù)挖掘的出現(xiàn)3
1.3.2 數(shù)據(jù)挖掘的定義3
1.3.3 數(shù)據(jù)的含義4
1.3.4 信息的含義4
1.3.5 知識的含義5
1.3.6 數(shù)據(jù)、信息、知識的關(guān)系5
1.3.7 數(shù)據(jù)挖掘過程5
1.3.8 數(shù)據(jù)挖掘的關(guān)聯(lián)課程6
1.4 數(shù)據(jù)挖掘的內(nèi)容7
1.4.1 關(guān)聯(lián)規(guī)則挖掘7
1.4.2 分類7
1.4.3 聚類9
1.4.4 回歸10
1.5 本章小結(jié)10
第2章 認識數(shù)據(jù)11
2.1 數(shù)據(jù)的基本概念11
2.1.1 數(shù)據(jù)對象11
2.1.2 數(shù)據(jù)屬性12
2.1.3 屬性的類型13
2.1.4 屬性類型的對比14
2.1.5 離散屬性與連續(xù)屬性14
2.2 數(shù)據(jù)的基本統(tǒng)計方法15
2.2.1 中心化趨勢統(tǒng)計量:均值、中位數(shù)和眾數(shù)15
2.2.2 離散度度量16
2.2.3 分布形狀度量17
2.3 數(shù)據(jù)的基本可視化方法18
2.3.1 箱線圖可視化18
2.3.2 直方圖可視化19
2.3.3 散點圖可視化19
2.4 數(shù)據(jù)相似性的計算方法20
2.4.1 數(shù)據(jù)相似性和相異性度量的基本概念20
2.4.2 標稱屬性的鄰近性度量21
2.4.3 二值屬性的鄰近性度量22
2.4.4 序數(shù)屬性的鄰近性度量23
2.4.5 數(shù)值屬性的鄰近性度量23
2.4.6 混合類型屬性的鄰近性度量25
2.4.7 余弦相似性25
2.5 本章小結(jié)26
第3章 數(shù)據(jù)預處理27
3.1 數(shù)據(jù)質(zhì)量27
3.2 數(shù)據(jù)預處理的主要任務27
3.2.1 數(shù)據(jù)清理27
3.2.2 數(shù)據(jù)集成28
3.2.3 數(shù)據(jù)規(guī)約32
3.2.4 數(shù)據(jù)規(guī)范化和數(shù)據(jù)離散化37
3.3 特征構(gòu)造38
3.3.1 為什么需要特征構(gòu)造38
3.3.2 基本特征構(gòu)造法38
3.3.3 時間類型數(shù)據(jù)特征構(gòu)造法39
3.3.4 時間序列數(shù)據(jù)特征構(gòu)造法41
3.3.5 離散數(shù)據(jù)特征啞編碼42
3.4 本章小結(jié)43
第4章 分類的基本概念與樸素貝葉斯分類器44
4.1 分類的基本概念44
4.2 樸素貝葉斯分類的基礎(chǔ)理論45
4.2.1 貝葉斯示例45
4.2.2 貝葉斯定理46
4.2.3 極大后驗假設(shè)46
4.2.4 多維屬性的聯(lián)合概率47
4.2.5 獨立性假設(shè)47
4.2.6 訓練集介紹47
4.3 貝葉斯分類的案例48
4.3.1 案例一:購買電腦預測48
4.3.2 案例二:垃圾郵件分類49
4.4 連續(xù)類型數(shù)據(jù)分類50
4.5 本章小結(jié)50
第5章 決策樹分類51
5.1 決策樹51
5.2 決策樹構(gòu)建的兩個問題52
5.2.1 如何構(gòu)建決策樹52
5.2.2 構(gòu)造什么樣的決策樹是合適的53
5.3 決策樹算法54
5.3.1 Hunt算法54
5.3.2 構(gòu)建決策樹的關(guān)鍵問題56
5.3.3 信息增益算法57
5.3.4 C4.5算法59
5.3.5 CART算法61
5.4 本章小結(jié)64
第6章 規(guī)則和近鄰分類器66
6.1 基于規(guī)則的分類66
6.1.1 基于規(guī)則的分類示例66
6.1.2 規(guī)則的質(zhì)量68
6.1.3 規(guī)則分類器的特征68
6.1.4 基于規(guī)則的分類器的建立69
6.1.5 規(guī)則分類的特點76
6.2 急切學習與惰性學習76
6.3 近鄰分類器77
6.3.1 近鄰算法的定義77
6.3.2 K近鄰分類算法78
6.4 本章小結(jié)79
第7章 回歸算法80
7.1 線性回歸的案例:房價預測80
7.2 線性回歸算法81
7.2.1 線性回歸的提出81
7.2.2 線性回歸建模81
7.2.3 小二乘法82
7.3 優(yōu)化求解方法83
7.3.1 梯度下降83
7.3.2 梯度下降法求解83
7.3.3 學習率分析84
7.3.4 梯度下降法收斂85
7.3.5 梯度下降法的變體86
7.4 邏輯回歸87
7.4.1 邏輯回歸函數(shù)87
7.4.2 邏輯回歸的特點87
7.4.3 優(yōu)勢比88
7.4.4 邏輯回歸參數(shù)估計89
7.4.5 邏輯回歸正則化90
7.4.6 邏輯回歸數(shù)值優(yōu)化91
7.4.7 邏輯回歸訓練方法的優(yōu)化93
7.5 決策樹回歸94
7.5.1 決策樹回歸的基本概念94
7.5.2 決策樹分類劃分點的選擇94
7.5.3 決策樹回歸算法96
7.6 本章小結(jié)96
第8章 模型的評價97
8.1 分類模型的評價指標97
8.1.1 混淆矩陣97
8.1.2 準確率97
8.1.3 精確率與召回率98
8.1.4 ROC曲線99
8.2 不平衡分類102
8.2.1 基于抽樣的方法103
8.2.2 兩階段學習104
8.2.3 代價敏感學習104
8.3 過擬合與欠擬合105
8.3.1 訓練誤差和泛化誤差105
8.3.2 噪聲導致的過擬合107
8.3.3 缺乏代表性樣本導致的過擬合107
8.3.4 解決過擬合的方法一:減少泛化誤差109
8.3.5 解決過擬合的方法二:使用確認集估計泛化誤差110
8.4 其他模型評價指標113
8.4.1 回歸模型113
8.4.2 聚類模型114
8.4.3 關(guān)聯(lián)規(guī)則模型115
8.5 本章小結(jié)117
第9章 支持向量機分類器118
9.1 支持向量機的提出118
9.1.1 支持向量機簡介118
9.1.2 傳統(tǒng)分類方法的不足118
9.1.3 支持向量機的總體思想119
9.1.4 從Logistic回歸到SVM分析119
9.1.5 支持向量機的應用120
9.2 深入支持向量機121
9.2.1 支持向量機算法的原理121
9.2.2 支持向量機建模122
9.2.3 支持向量機求解123
9.3 非線性支持向量機126
9.3.1 基于軟間隔的C-SVM126
9.3.2 非線性SVM與核變換129
9.3.3 支持向量機二分類推廣131
9.4 本章小結(jié)131
第10章 神經(jīng)網(wǎng)絡分類器132
10.1 人工神經(jīng)網(wǎng)絡出現(xiàn)的背景 132
10.1.1 發(fā)展歷程132
10.1.2 端到端的學習133