機器學(xué)習(xí)實踐:基于Python進行數(shù)據(jù)分析
定 價:139 元
叢書名:智能系統(tǒng)與技術(shù)叢書
- 作者:[沙]阿卜杜勒哈密特·蘇巴西(Abdulhamit Subasi)
- 出版時間:2022/1/1
- ISBN:9787111698180
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:TP181
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
本書是一本創(chuàng)建真實世界智能系統(tǒng)的問題解決指南。提供了一種包含概念、實踐、實際示例和代碼示例的綜合方法,教給讀者理解和解決機器學(xué)習(xí)不同問題所需的重要技能。通過介紹Python機器學(xué)習(xí)生態(tài)系統(tǒng)中的真實案例研究,教授成為一個成功的實踐者所必需的機器學(xué)習(xí)技術(shù)。本書還側(cè)重于機器學(xué)習(xí)的基礎(chǔ)知識,以解決不同領(lǐng)域的真實世界案例,包括生物醫(yī)學(xué)信號分析、醫(yī)療保健、安全、經(jīng)濟和金融。此外,它涵蓋了廣泛的機器學(xué)習(xí)模型,包括回歸、分類和預(yù)測。
機器學(xué)習(xí)解決方案的飛速發(fā)展及其在工業(yè)界的廣泛應(yīng)用極大地推動了其從不同領(lǐng)域中觀察(學(xué)習(xí))數(shù)據(jù),從而學(xué)習(xí)到復(fù)雜模型解決實際問題的能力。通常,創(chuàng)造出高效的學(xué)習(xí)模型并且得到可靠的結(jié)果需要付出大量的時間和成本。掌握項目的主要概念一般可以通過以下方式完成:構(gòu)建可靠的數(shù)據(jù)流程管道,通過特征提取及選擇進行數(shù)據(jù)分析和可視化,建模。因此,對于一個可靠的機器學(xué)習(xí)解決方案而言,不僅包括機器學(xué)習(xí)模型開發(fā)框架本身,還包括成功的預(yù)處理模塊、可視化、系統(tǒng)集成以及健全的運行時部署和維護設(shè)定。Python是一種具有多種功能的創(chuàng)新編程語言,其簡單的實現(xiàn)和集成、活躍的開發(fā)者社區(qū)以及不斷成長的機器學(xué)習(xí)生態(tài)系統(tǒng),對于機器學(xué)習(xí)的發(fā)展及廣泛應(yīng)用做出了極大的貢獻。
技術(shù)的不斷進步使得智能組織以及數(shù)據(jù)驅(qū)動的企業(yè)成為現(xiàn)實。如今,當數(shù)據(jù)成了重中之重,市場對于機器學(xué)習(xí)以及數(shù)據(jù)科學(xué)從業(yè)人員的需求十分龐大。實際上,我們正面臨著數(shù)據(jù)科學(xué)家以及機器學(xué)習(xí)專家的短缺。從事21世紀熱門的職業(yè)毫無疑問要在這個領(lǐng)域有專家級的經(jīng)驗。
機器學(xué)習(xí)技術(shù)是一系列計算機算法,包括人工神經(jīng)網(wǎng)絡(luò)、k近鄰算法、支持向量機、決策樹算法以及深度學(xué)習(xí)。機器學(xué)習(xí)當前應(yīng)用于許多領(lǐng)域,尤其是經(jīng)濟學(xué)、安全、醫(yī)療保健、生物醫(yī)學(xué)以及生物醫(yī)學(xué)工程。本書介紹如何使用機器學(xué)習(xí)技術(shù)來分析這些領(lǐng)域的數(shù)據(jù)。
本書作者有很多使用Python及其機器學(xué)習(xí)生態(tài)系統(tǒng)來解決實際問題的經(jīng)驗。本書旨在提升讀者的技能水平,使大家能夠創(chuàng)建實際的機器學(xué)習(xí)解決方案。同時,本書亦是一本構(gòu)建實際智能系統(tǒng)的問題解決指南,它提供了一個包括原則、過程、實際案例以及代碼的系統(tǒng)框架。同時,本書也包括讀者在理解和解決不同的機器學(xué)習(xí)問題時所需的重要技能。
對于正在進行機器學(xué)習(xí)開發(fā)的讀者而言,本書是一本絕佳的參考,因為書中包含了眾多使用Python機器學(xué)習(xí)環(huán)境進行開發(fā)的實際案例。本書旨在為讀者使用機器學(xué)習(xí)知識解決不同領(lǐng)域的實際問題打下堅實基礎(chǔ),這些實際問題涉及生物醫(yī)學(xué)信號分析、醫(yī)療保健、安全、經(jīng)濟以及金融領(lǐng)域。此外,本書還介紹了一系列機器學(xué)習(xí)模型,包括回歸、分類、聚類以及預(yù)測等方向。
本書共七章。第1章主要介紹基于機器學(xué)習(xí)的數(shù)據(jù)分析。第2章概述一些數(shù)據(jù)預(yù)處理技術(shù),例如特征提取、轉(zhuǎn)換、特征選擇以及降維。第3章概述一些常見的用于預(yù)報、預(yù)測和分類的機器學(xué)習(xí)技術(shù),例如樸素貝葉斯、k近鄰、人工神經(jīng)網(wǎng)絡(luò)、支持向量機、決策樹、隨機森林、裝袋、提升、堆疊、投票、深度神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)。第4章主要呈現(xiàn)一些醫(yī)療保健領(lǐng)域中的分類案例,包括常用于生物醫(yī)學(xué)信號分析和識別的技術(shù),例如心電圖(ECG)、腦電圖(EEG)和肌電圖(EMG)信號處理。此外,第4章還會介紹一些醫(yī)療數(shù)據(jù)分類案例,例如人體行為識別,基于微陣列基因表達的癌癥、乳腺癌、糖尿病和心臟病檢測等。第5章主要介紹一些實際應(yīng)用,包括入侵檢測、釣魚網(wǎng)站檢測、垃圾郵件檢測、信用評分、信用卡欺詐檢測、手寫數(shù)字識別、圖像分類和文本分類。第6章主要介紹一些回歸技術(shù)的案例,例如股市分析、經(jīng)濟變量預(yù)測、電力負荷預(yù)測、風(fēng)速預(yù)測、旅游需求預(yù)測以及房價預(yù)測。第7章包括一些無監(jiān)督學(xué)習(xí)技術(shù)的案例(聚類)。
本書主要目的是幫助包括IT專業(yè)人員、分析師、開發(fā)人員、數(shù)據(jù)科學(xué)家和工程師在內(nèi)的廣大讀者掌握解決實際問題的能力。此外,本書也可作為數(shù)據(jù)科學(xué)和機器學(xué)習(xí)領(lǐng)域的研究生教材。同時,本書還能幫助研究人員建立起使用機器學(xué)習(xí)技術(shù)進行數(shù)據(jù)分析的基礎(chǔ)。另外,本書還將幫助包括研究人員、專業(yè)人士、學(xué)者和一系列學(xué)科的研究生在內(nèi)的廣大讀者,尤其是那些剛開始尋求在生物醫(yī)學(xué)信號分析、醫(yī)療數(shù)據(jù)分析、金融和經(jīng)濟數(shù)據(jù)預(yù)測以及計算機安全等領(lǐng)域應(yīng)用機器學(xué)習(xí)技術(shù)的讀者。
執(zhí)行本書所提供的代碼示例需要在macOS、Linux或Microsoft Windows上安裝Python 3.x或更高版本。本書中的代碼示例經(jīng)常使用Python的基本庫,例如SciPy、NumPy、scikit-learn、matplotlib、pandas、OpenCV、TensorFlow和Keras。
譯者序
前言
致謝
第1章 簡介1
1.1 什么是機器學(xué)習(xí)1
1.1.1 為什么需要使用機器學(xué)習(xí)2
1.1.2 做出數(shù)據(jù)驅(qū)動決策3
1.1.3 定義以及關(guān)鍵術(shù)語4
1.1.4 機器學(xué)習(xí)的關(guān)鍵任務(wù)6
1.1.5 機器學(xué)習(xí)技術(shù)6
1.2 機器學(xué)習(xí)框架6
1.2.1 數(shù)據(jù)收集7
1.2.2 數(shù)據(jù)描述7
1.2.3 探索性數(shù)據(jù)分析7
1.2.4 數(shù)據(jù)質(zhì)量分析8
1.2.5 數(shù)據(jù)準備8
1.2.6 數(shù)據(jù)集成8
1.2.7 數(shù)據(jù)整理8
1.2.8 特征縮放和特征提取9
1.2.9 特征選擇及降維9
1.2.10 建模9
1.2.11 選擇建模技術(shù)9
1.2.12 構(gòu)建模型10
1.2.13 模型評估及調(diào)優(yōu)10
1.2.14 實現(xiàn)以及檢驗已經(jīng)創(chuàng)建的模型10
1.2.15 監(jiān)督學(xué)習(xí)框架11
1.2.16 無監(jiān)督學(xué)習(xí)框架11
1.3 性能評估12
1.3.1 混淆矩陣13
1.3.2 F值分析14
1.3.3 ROC分析15
1.3.4 Kappa統(tǒng)計量15
1.3.5 度量了什么16
1.3.6 如何度量17
1.3.7 如何解釋估計17
1.3.8 scikit-learn中的k折交叉驗證18
1.3.9 如何選擇正確的算法18
1.4 Python機器學(xué)習(xí)環(huán)境18
1.4.1 缺陷20
1.4.2 缺點20
1.4.3 NumPy庫20
1.4.4 Pandas20
1.5 本章小結(jié)21
1.6 參考文獻22
第2章 數(shù)據(jù)預(yù)處理23
2.1 簡介23
2.2 特征提取和轉(zhuǎn)換24
2.2.1 特征類型24
2.2.2 統(tǒng)計特征25
2.2.3 結(jié)構(gòu)化特征27
2.2.4 特征轉(zhuǎn)換28
2.2.5 閾值化和離散化28
2.2.6 數(shù)據(jù)操作28
2.2.7 標準化29
2.2.8 歸一化和校準33
2.2.9 不完整的特征34
2.2.10 特征提取的方法36
2.2.11 使用小波變換進行特征提取38
2.3 降維45
2.3.1 特征構(gòu)造和選擇47
2.3.2 單變量特征選擇48
2.3.3 遞歸式特征消除51
2.3.4 從模型選擇特征52
2.3.5 主成分分析53
2.3.6 增量PCA57
2.3.7 核PCA58
2.3.8 鄰近成分分析59
2.3.9 獨立成分分析61
2.3.10 線性判別分析65
2.3.11 熵67
2.4 基于聚類的特征提取和降維68
2.5 參考文獻75
第3章 機器學(xué)習(xí)技術(shù)77
3.1 簡介77
3.2 什么是機器學(xué)習(xí)78
3.2.1 理解機器學(xué)習(xí)78
3.2.2 如何讓機器學(xué)習(xí)78
3.2.3 多學(xué)科領(lǐng)域79
3.2.4 機器學(xué)習(xí)問題80
3.2.5 機器學(xué)習(xí)的目標80
3.2.6 機器學(xué)習(xí)的挑戰(zhàn)81
3.3 Python庫81
3.3.1 scikit-learn81
3.3.2 TensorFlow83
3.3.3 Keras84
3.3.4 使用Keras構(gòu)建模型84
3.3.5 自然語言工具包85
3.4 學(xué)習(xí)場景87
3.5 監(jiān)督學(xué)習(xí)算法88
3.5.1 分類89
3.5.2 預(yù)報、預(yù)測和回歸90
3.5.3 線性模型90
3.5.4 感知機98
3.5.5 邏輯回歸100
3.5.6 線性判別分析102
3.5.7 人工神經(jīng)網(wǎng)絡(luò)105
3.5.8 k近鄰109
3.5.9 支持向量機113
3.5.10 決策樹分類器118
3.5.11 樸素貝葉斯123
3.5.12 集成學(xué)習(xí)126
3.5.13 bagging算法127
3.5.14 隨機森林131
3.5.15 boosting算法136
3.5.16 其他集成方法146
3.5.17 深度學(xué)習(xí)151
3.5.18 深度神經(jīng)網(wǎng)絡(luò)152
3.5.19 循環(huán)神經(jīng)網(wǎng)絡(luò)155
3.5.20 自編碼器157
3.5.21 長短期記憶網(wǎng)絡(luò)157
3.5.22 卷積神經(jīng)網(wǎng)絡(luò)160
3.6 無監(jiān)督學(xué)習(xí)162
3.6.1 k均值算法163
3.6.2 輪廓系數(shù)165
3.6.3 異常檢測167
3.6.4 關(guān)聯(lián)規(guī)則挖掘170
3.7 強化學(xué)習(xí)170
3.8 基于實例的學(xué)習(xí)171
3.9 本章小結(jié)171
3.10 參考文獻172
第4章 醫(yī)療保健分類示例174
4.1 簡介174
4.2 腦電圖信號分析175
4.2.1 癲癇癥的預(yù)測和檢測176
4.2.2 情緒識別194
4.2.3 局灶性和非局灶性癲癇EEG信號的分類201
4.2.4 偏頭痛檢測212
4.3 EMG信號分析217
4.3.1 神經(jīng)肌肉疾病的診斷218
4.3.2 假體控制中的EMG信號225
4.3.3 康復(fù)機器人中的EMG信號232
4.4 心電圖信號分析238
4.5 人類活動識別247
4.5.1 基于傳感器的人類活動識別248
4.5.2 基于智能手機的人類活動識別250
4.6 用于癌癥檢測的微陣列基因表達數(shù)據(jù)分類256
4.7 乳腺癌檢測257
4.8 預(yù)測胎兒風(fēng)險的心電圖數(shù)據(jù)分類260
4.9 糖尿病檢測263
4.10 心臟病檢測267
4.11 慢性腎臟病的診斷270
4.12 本章小結(jié)273
4.13 參考文獻273
第5章 其他分類示例277
5.1 入侵檢測277
5.2 釣魚網(wǎng)站檢測280
5.3 垃圾郵件檢測283
5.4 信用評分287
5.5 信用卡欺詐檢測290
5.6 使用CNN進行手寫數(shù)字識別297
5.7 使用CNN進行Fashion-MNIST圖像分類306
5.8 使用CNN進行CIFAR圖像分類313
5.9 文本分類321
5.10 本章小結(jié)334
5.11 參考文獻334
第6章 回歸示例337
6.1 簡介337
6.2 股票市場價格指數(shù)收益預(yù)測338
6.3 通貨膨脹預(yù)測356
6.4 電力負荷預(yù)測358
6.5 風(fēng)速預(yù)測365
6.6 旅游需求預(yù)測370
6.7 房價預(yù)測380
6.8 單車使用情況預(yù)測395
6.9 本章小結(jié)399
6.10 參考文獻400
第7章 聚類示例402
7.1 簡介402
7.2 聚類403
7.2.1 評估聚類輸出404
7.2.2 聚類分析的應(yīng)用404
7.2.3 可能的聚類數(shù)405
7.2.4 聚類算法種類405
7.3 k均值聚類算法406
7.4 k中心點聚類算法408
7.5 層次聚類409
7.5.1 聚集聚類算法409
7.5.2 分裂聚類算法412
7.6 模糊c均值聚類算法416
7.7 基于密度的聚類算法418
7.7.1 DBSCAN算法418
7.7.2 OPTICS聚類算法420
7.8 基于期望化的混合高斯模型聚類算法423
7.9 貝葉斯聚類426
7.10 輪廓分析428
7.11 基于聚類的圖像分割430
7.12 基于聚類的特征提取433
7.13 基于聚類的分類439
7.14 本章小結(jié)442
7.15 參考文獻442