機(jī)器學(xué)習(xí)實(shí)踐:基于Python進(jìn)行數(shù)據(jù)分析
定 價(jià):139 元
叢書名:智能系統(tǒng)與技術(shù)叢書
- 作者:[沙]阿卜杜勒哈密特·蘇巴西(Abdulhamit Subasi)
- 出版時(shí)間:2022/1/1
- ISBN:9787111698180
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP181
- 頁(yè)碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
本書是一本創(chuàng)建真實(shí)世界智能系統(tǒng)的問題解決指南。提供了一種包含概念、實(shí)踐、實(shí)際示例和代碼示例的綜合方法,教給讀者理解和解決機(jī)器學(xué)習(xí)不同問題所需的重要技能。通過介紹Python機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)中的真實(shí)案例研究,教授成為一個(gè)成功的實(shí)踐者所必需的機(jī)器學(xué)習(xí)技術(shù)。本書還側(cè)重于機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí),以解決不同領(lǐng)域的真實(shí)世界案例,包括生物醫(yī)學(xué)信號(hào)分析、醫(yī)療保健、安全、經(jīng)濟(jì)和金融。此外,它涵蓋了廣泛的機(jī)器學(xué)習(xí)模型,包括回歸、分類和預(yù)測(cè)。
機(jī)器學(xué)習(xí)解決方案的飛速發(fā)展及其在工業(yè)界的廣泛應(yīng)用極大地推動(dòng)了其從不同領(lǐng)域中觀察(學(xué)習(xí))數(shù)據(jù),從而學(xué)習(xí)到復(fù)雜模型解決實(shí)際問題的能力。通常,創(chuàng)造出高效的學(xué)習(xí)模型并且得到可靠的結(jié)果需要付出大量的時(shí)間和成本。掌握項(xiàng)目的主要概念一般可以通過以下方式完成:構(gòu)建可靠的數(shù)據(jù)流程管道,通過特征提取及選擇進(jìn)行數(shù)據(jù)分析和可視化,建模。因此,對(duì)于一個(gè)可靠的機(jī)器學(xué)習(xí)解決方案而言,不僅包括機(jī)器學(xué)習(xí)模型開發(fā)框架本身,還包括成功的預(yù)處理模塊、可視化、系統(tǒng)集成以及健全的運(yùn)行時(shí)部署和維護(hù)設(shè)定。Python是一種具有多種功能的創(chuàng)新編程語(yǔ)言,其簡(jiǎn)單的實(shí)現(xiàn)和集成、活躍的開發(fā)者社區(qū)以及不斷成長(zhǎng)的機(jī)器學(xué)習(xí)生態(tài)系統(tǒng),對(duì)于機(jī)器學(xué)習(xí)的發(fā)展及廣泛應(yīng)用做出了極大的貢獻(xiàn)。
技術(shù)的不斷進(jìn)步使得智能組織以及數(shù)據(jù)驅(qū)動(dòng)的企業(yè)成為現(xiàn)實(shí)。如今,當(dāng)數(shù)據(jù)成了重中之重,市場(chǎng)對(duì)于機(jī)器學(xué)習(xí)以及數(shù)據(jù)科學(xué)從業(yè)人員的需求十分龐大。實(shí)際上,我們正面臨著數(shù)據(jù)科學(xué)家以及機(jī)器學(xué)習(xí)專家的短缺。從事21世紀(jì)熱門的職業(yè)毫無(wú)疑問要在這個(gè)領(lǐng)域有專家級(jí)的經(jīng)驗(yàn)。
機(jī)器學(xué)習(xí)技術(shù)是一系列計(jì)算機(jī)算法,包括人工神經(jīng)網(wǎng)絡(luò)、k近鄰算法、支持向量機(jī)、決策樹算法以及深度學(xué)習(xí)。機(jī)器學(xué)習(xí)當(dāng)前應(yīng)用于許多領(lǐng)域,尤其是經(jīng)濟(jì)學(xué)、安全、醫(yī)療保健、生物醫(yī)學(xué)以及生物醫(yī)學(xué)工程。本書介紹如何使用機(jī)器學(xué)習(xí)技術(shù)來分析這些領(lǐng)域的數(shù)據(jù)。
本書作者有很多使用Python及其機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)來解決實(shí)際問題的經(jīng)驗(yàn)。本書旨在提升讀者的技能水平,使大家能夠創(chuàng)建實(shí)際的機(jī)器學(xué)習(xí)解決方案。同時(shí),本書亦是一本構(gòu)建實(shí)際智能系統(tǒng)的問題解決指南,它提供了一個(gè)包括原則、過程、實(shí)際案例以及代碼的系統(tǒng)框架。同時(shí),本書也包括讀者在理解和解決不同的機(jī)器學(xué)習(xí)問題時(shí)所需的重要技能。
對(duì)于正在進(jìn)行機(jī)器學(xué)習(xí)開發(fā)的讀者而言,本書是一本絕佳的參考,因?yàn)闀邪吮姸嗍褂肞ython機(jī)器學(xué)習(xí)環(huán)境進(jìn)行開發(fā)的實(shí)際案例。本書旨在為讀者使用機(jī)器學(xué)習(xí)知識(shí)解決不同領(lǐng)域的實(shí)際問題打下堅(jiān)實(shí)基礎(chǔ),這些實(shí)際問題涉及生物醫(yī)學(xué)信號(hào)分析、醫(yī)療保健、安全、經(jīng)濟(jì)以及金融領(lǐng)域。此外,本書還介紹了一系列機(jī)器學(xué)習(xí)模型,包括回歸、分類、聚類以及預(yù)測(cè)等方向。
本書共七章。第1章主要介紹基于機(jī)器學(xué)習(xí)的數(shù)據(jù)分析。第2章概述一些數(shù)據(jù)預(yù)處理技術(shù),例如特征提取、轉(zhuǎn)換、特征選擇以及降維。第3章概述一些常見的用于預(yù)報(bào)、預(yù)測(cè)和分類的機(jī)器學(xué)習(xí)技術(shù),例如樸素貝葉斯、k近鄰、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、決策樹、隨機(jī)森林、裝袋、提升、堆疊、投票、深度神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)。第4章主要呈現(xiàn)一些醫(yī)療保健領(lǐng)域中的分類案例,包括常用于生物醫(yī)學(xué)信號(hào)分析和識(shí)別的技術(shù),例如心電圖(ECG)、腦電圖(EEG)和肌電圖(EMG)信號(hào)處理。此外,第4章還會(huì)介紹一些醫(yī)療數(shù)據(jù)分類案例,例如人體行為識(shí)別,基于微陣列基因表達(dá)的癌癥、乳腺癌、糖尿病和心臟病檢測(cè)等。第5章主要介紹一些實(shí)際應(yīng)用,包括入侵檢測(cè)、釣魚網(wǎng)站檢測(cè)、垃圾郵件檢測(cè)、信用評(píng)分、信用卡欺詐檢測(cè)、手寫數(shù)字識(shí)別、圖像分類和文本分類。第6章主要介紹一些回歸技術(shù)的案例,例如股市分析、經(jīng)濟(jì)變量預(yù)測(cè)、電力負(fù)荷預(yù)測(cè)、風(fēng)速預(yù)測(cè)、旅游需求預(yù)測(cè)以及房?jī)r(jià)預(yù)測(cè)。第7章包括一些無(wú)監(jiān)督學(xué)習(xí)技術(shù)的案例(聚類)。
本書主要目的是幫助包括IT專業(yè)人員、分析師、開發(fā)人員、數(shù)據(jù)科學(xué)家和工程師在內(nèi)的廣大讀者掌握解決實(shí)際問題的能力。此外,本書也可作為數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域的研究生教材。同時(shí),本書還能幫助研究人員建立起使用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行數(shù)據(jù)分析的基礎(chǔ)。另外,本書還將幫助包括研究人員、專業(yè)人士、學(xué)者和一系列學(xué)科的研究生在內(nèi)的廣大讀者,尤其是那些剛開始尋求在生物醫(yī)學(xué)信號(hào)分析、醫(yī)療數(shù)據(jù)分析、金融和經(jīng)濟(jì)數(shù)據(jù)預(yù)測(cè)以及計(jì)算機(jī)安全等領(lǐng)域應(yīng)用機(jī)器學(xué)習(xí)技術(shù)的讀者。
執(zhí)行本書所提供的代碼示例需要在macOS、Linux或Microsoft Windows上安裝Python 3.x或更高版本。本書中的代碼示例經(jīng)常使用Python的基本庫(kù),例如SciPy、NumPy、scikit-learn、matplotlib、pandas、OpenCV、TensorFlow和Keras。
譯者序
前言
致謝
第1章 簡(jiǎn)介1
1.1 什么是機(jī)器學(xué)習(xí)1
1.1.1 為什么需要使用機(jī)器學(xué)習(xí)2
1.1.2 做出數(shù)據(jù)驅(qū)動(dòng)決策3
1.1.3 定義以及關(guān)鍵術(shù)語(yǔ)4
1.1.4 機(jī)器學(xué)習(xí)的關(guān)鍵任務(wù)6
1.1.5 機(jī)器學(xué)習(xí)技術(shù)6
1.2 機(jī)器學(xué)習(xí)框架6
1.2.1 數(shù)據(jù)收集7
1.2.2 數(shù)據(jù)描述7
1.2.3 探索性數(shù)據(jù)分析7
1.2.4 數(shù)據(jù)質(zhì)量分析8
1.2.5 數(shù)據(jù)準(zhǔn)備8
1.2.6 數(shù)據(jù)集成8
1.2.7 數(shù)據(jù)整理8
1.2.8 特征縮放和特征提取9
1.2.9 特征選擇及降維9
1.2.10 建模9
1.2.11 選擇建模技術(shù)9
1.2.12 構(gòu)建模型10
1.2.13 模型評(píng)估及調(diào)優(yōu)10
1.2.14 實(shí)現(xiàn)以及檢驗(yàn)已經(jīng)創(chuàng)建的模型10
1.2.15 監(jiān)督學(xué)習(xí)框架11
1.2.16 無(wú)監(jiān)督學(xué)習(xí)框架11
1.3 性能評(píng)估12
1.3.1 混淆矩陣13
1.3.2 F值分析14
1.3.3 ROC分析15
1.3.4 Kappa統(tǒng)計(jì)量15
1.3.5 度量了什么16
1.3.6 如何度量17
1.3.7 如何解釋估計(jì)17
1.3.8 scikit-learn中的k折交叉驗(yàn)證18
1.3.9 如何選擇正確的算法18
1.4 Python機(jī)器學(xué)習(xí)環(huán)境18
1.4.1 缺陷20
1.4.2 缺點(diǎn)20
1.4.3 NumPy庫(kù)20
1.4.4 Pandas20
1.5 本章小結(jié)21
1.6 參考文獻(xiàn)22
第2章 數(shù)據(jù)預(yù)處理23
2.1 簡(jiǎn)介23
2.2 特征提取和轉(zhuǎn)換24
2.2.1 特征類型24
2.2.2 統(tǒng)計(jì)特征25
2.2.3 結(jié)構(gòu)化特征27
2.2.4 特征轉(zhuǎn)換28
2.2.5 閾值化和離散化28
2.2.6 數(shù)據(jù)操作28
2.2.7 標(biāo)準(zhǔn)化29
2.2.8 歸一化和校準(zhǔn)33
2.2.9 不完整的特征34
2.2.10 特征提取的方法36
2.2.11 使用小波變換進(jìn)行特征提取38
2.3 降維45
2.3.1 特征構(gòu)造和選擇47
2.3.2 單變量特征選擇48
2.3.3 遞歸式特征消除51
2.3.4 從模型選擇特征52
2.3.5 主成分分析53
2.3.6 增量PCA57
2.3.7 核PCA58
2.3.8 鄰近成分分析59
2.3.9 獨(dú)立成分分析61
2.3.10 線性判別分析65
2.3.11 熵67
2.4 基于聚類的特征提取和降維68
2.5 參考文獻(xiàn)75
第3章 機(jī)器學(xué)習(xí)技術(shù)77
3.1 簡(jiǎn)介77
3.2 什么是機(jī)器學(xué)習(xí)78
3.2.1 理解機(jī)器學(xué)習(xí)78
3.2.2 如何讓機(jī)器學(xué)習(xí)78
3.2.3 多學(xué)科領(lǐng)域79
3.2.4 機(jī)器學(xué)習(xí)問題80
3.2.5 機(jī)器學(xué)習(xí)的目標(biāo)80
3.2.6 機(jī)器學(xué)習(xí)的挑戰(zhàn)81
3.3 Python庫(kù)81
3.3.1 scikit-learn81
3.3.2 TensorFlow83
3.3.3 Keras84
3.3.4 使用Keras構(gòu)建模型84
3.3.5 自然語(yǔ)言工具包85
3.4 學(xué)習(xí)場(chǎng)景87
3.5 監(jiān)督學(xué)習(xí)算法88
3.5.1 分類89
3.5.2 預(yù)報(bào)、預(yù)測(cè)和回歸90
3.5.3 線性模型90
3.5.4 感知機(jī)98
3.5.5 邏輯回歸100
3.5.6 線性判別分析102
3.5.7 人工神經(jīng)網(wǎng)絡(luò)105
3.5.8 k近鄰109
3.5.9 支持向量機(jī)113
3.5.10 決策樹分類器118
3.5.11 樸素貝葉斯123
3.5.12 集成學(xué)習(xí)126
3.5.13 bagging算法127
3.5.14 隨機(jī)森林131
3.5.15 boosting算法136
3.5.16 其他集成方法146
3.5.17 深度學(xué)習(xí)151
3.5.18 深度神經(jīng)網(wǎng)絡(luò)152
3.5.19 循環(huán)神經(jīng)網(wǎng)絡(luò)155
3.5.20 自編碼器157
3.5.21 長(zhǎng)短期記憶網(wǎng)絡(luò)157
3.5.22 卷積神經(jīng)網(wǎng)絡(luò)160
3.6 無(wú)監(jiān)督學(xué)習(xí)162
3.6.1 k均值算法163
3.6.2 輪廓系數(shù)165
3.6.3 異常檢測(cè)167
3.6.4 關(guān)聯(lián)規(guī)則挖掘170
3.7 強(qiáng)化學(xué)習(xí)170
3.8 基于實(shí)例的學(xué)習(xí)171
3.9 本章小結(jié)171
3.10 參考文獻(xiàn)172
第4章 醫(yī)療保健分類示例174
4.1 簡(jiǎn)介174
4.2 腦電圖信號(hào)分析175
4.2.1 癲癇癥的預(yù)測(cè)和檢測(cè)176
4.2.2 情緒識(shí)別194
4.2.3 局灶性和非局灶性癲癇EEG信號(hào)的分類201
4.2.4 偏頭痛檢測(cè)212
4.3 EMG信號(hào)分析217
4.3.1 神經(jīng)肌肉疾病的診斷218
4.3.2 假體控制中的EMG信號(hào)225
4.3.3 康復(fù)機(jī)器人中的EMG信號(hào)232
4.4 心電圖信號(hào)分析238
4.5 人類活動(dòng)識(shí)別247
4.5.1 基于傳感器的人類活動(dòng)識(shí)別248
4.5.2 基于智能手機(jī)的人類活動(dòng)識(shí)別250
4.6 用于癌癥檢測(cè)的微陣列基因表達(dá)數(shù)據(jù)分類256
4.7 乳腺癌檢測(cè)257
4.8 預(yù)測(cè)胎兒風(fēng)險(xiǎn)的心電圖數(shù)據(jù)分類260
4.9 糖尿病檢測(cè)263
4.10 心臟病檢測(cè)267
4.11 慢性腎臟病的診斷270
4.12 本章小結(jié)273
4.13 參考文獻(xiàn)273
第5章 其他分類示例277
5.1 入侵檢測(cè)277
5.2 釣魚網(wǎng)站檢測(cè)280
5.3 垃圾郵件檢測(cè)283
5.4 信用評(píng)分287
5.5 信用卡欺詐檢測(cè)290
5.6 使用CNN進(jìn)行手寫數(shù)字識(shí)別297
5.7 使用CNN進(jìn)行Fashion-MNIST圖像分類306
5.8 使用CNN進(jìn)行CIFAR圖像分類313
5.9 文本分類321
5.10 本章小結(jié)334
5.11 參考文獻(xiàn)334
第6章 回歸示例337
6.1 簡(jiǎn)介337
6.2 股票市場(chǎng)價(jià)格指數(shù)收益預(yù)測(cè)338
6.3 通貨膨脹預(yù)測(cè)356
6.4 電力負(fù)荷預(yù)測(cè)358
6.5 風(fēng)速預(yù)測(cè)365
6.6 旅游需求預(yù)測(cè)370
6.7 房?jī)r(jià)預(yù)測(cè)380
6.8 單車使用情況預(yù)測(cè)395
6.9 本章小結(jié)399
6.10 參考文獻(xiàn)400
第7章 聚類示例402
7.1 簡(jiǎn)介402
7.2 聚類403
7.2.1 評(píng)估聚類輸出404
7.2.2 聚類分析的應(yīng)用404
7.2.3 可能的聚類數(shù)405
7.2.4 聚類算法種類405
7.3 k均值聚類算法406
7.4 k中心點(diǎn)聚類算法408
7.5 層次聚類409
7.5.1 聚集聚類算法409
7.5.2 分裂聚類算法412
7.6 模糊c均值聚類算法416
7.7 基于密度的聚類算法418
7.7.1 DBSCAN算法418
7.7.2 OPTICS聚類算法420
7.8 基于期望化的混合高斯模型聚類算法423
7.9 貝葉斯聚類426
7.10 輪廓分析428
7.11 基于聚類的圖像分割430
7.12 基于聚類的特征提取433
7.13 基于聚類的分類439
7.14 本章小結(jié)442
7.15 參考文獻(xiàn)442