機(jī)器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、矩陣論、神經(jīng)網(wǎng)絡(luò)、計(jì)算機(jī)等多門學(xué)科。其目標(biāo)是模擬人類的學(xué)習(xí)活動(dòng),從數(shù)據(jù)中獲取知識(shí)和技能,重新組織已有的知識(shí)結(jié)構(gòu),從而不斷改善系統(tǒng)性能。本書共9項(xiàng)目。項(xiàng)目1介紹機(jī)器學(xué)習(xí)基礎(chǔ),概要介紹機(jī)器學(xué)習(xí)的發(fā)展簡(jiǎn)史和一般步驟,以及本書涉及的方法和算法;項(xiàng)目2項(xiàng)目7討論k近鄰算法、線性回歸、決策樹(shù)、貝葉斯分類、支持向量機(jī)、集成學(xué)習(xí)等監(jiān)督學(xué)習(xí)方法;項(xiàng)目8介紹聚類的基本知識(shí),闡述無(wú)監(jiān)督學(xué)習(xí)方法;項(xiàng)目9討論深度神經(jīng)網(wǎng)絡(luò),主要論述卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)兩種模型。本書由大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)教師和企業(yè)工程師合力打造,采用大量項(xiàng)目案例講解概念和算法,內(nèi)容編排采用工作手冊(cè)式教材形式,項(xiàng)目2項(xiàng)目9相互獨(dú)立,學(xué)生可選擇知識(shí)點(diǎn)和涉及的技術(shù),滿足不同生源定制化學(xué)習(xí)的需要。同時(shí),華育興業(yè)科技公司開(kāi)發(fā)有教材配套的實(shí)驗(yàn)實(shí)訓(xùn)在線平臺(tái),將教材內(nèi)容和動(dòng)手實(shí)踐緊密結(jié)合起來(lái)。本書可作為高職高專院校電子信息領(lǐng)域相關(guān)專業(yè)的教材,也可作為相關(guān)科技人員的參考用書,以及應(yīng)用型本科的實(shí)驗(yàn)補(bǔ)充教材。
艾旭升,男,博士,2003年于鄭州大學(xué)獲碩士,2005年在思科(蘇州)研發(fā)中心工作,負(fù)責(zé)網(wǎng)絡(luò)會(huì)議開(kāi)放接口設(shè)計(jì)和開(kāi)發(fā),2016年于蘇州大學(xué)獲博士學(xué)位,主要研究機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘,目前在蘇州工業(yè)職業(yè)技術(shù)學(xué)院任教,擔(dān)任大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)帶頭人
項(xiàng)目1?項(xiàng)目環(huán)境的準(zhǔn)備
任務(wù)1.1?項(xiàng)目相關(guān)基本概念
1.1.1?概述
1.1.2?機(jī)器學(xué)習(xí)發(fā)展簡(jiǎn)史
1.1.3?機(jī)器學(xué)習(xí)的一般步驟
1.1.4?機(jī)器學(xué)習(xí)的主要任務(wù)
1.1.5?模型評(píng)估
1.1.6?如何選擇合適的算法
1.1.7?項(xiàng)目中關(guān)鍵術(shù)語(yǔ)
任務(wù)1.2?項(xiàng)目中常用模型
1.2.1?k近鄰
1.2.2?回歸
1.2.3?決策樹(shù)
1.2.4?貝葉斯分類
1.2.5?支持向量機(jī)
1.2.6?集成學(xué)習(xí)
1.2.7?聚類
1.2.8?深度神經(jīng)網(wǎng)絡(luò)
任務(wù)1.3?Python+PyCharm環(huán)境配置
1.3.1?為什么選用Python
1.3.2?PyCharm+Python開(kāi)發(fā)環(huán)境配置
1.3.3?NumPy安裝與PyCharm引入
任務(wù)1.4?常用Python分析工具配置
1.4.1?基本知識(shí)
1.4.2?第一機(jī)器學(xué)習(xí)案例電影分類業(yè)務(wù)理解
1.4.3?應(yīng)用Pandas實(shí)現(xiàn)電影分類數(shù)據(jù)讀取
1.4.4?應(yīng)用Matplotlib實(shí)現(xiàn)電影分類數(shù)據(jù)可視化
1.4.5?應(yīng)用Sklearn實(shí)現(xiàn)電影分類學(xué)習(xí)過(guò)程
1.5?項(xiàng)目復(fù)盤
1.6?實(shí)操練習(xí)
項(xiàng)目2?k近鄰回歸與分類
任務(wù)2.1?k近鄰算法概述
2.1.1?什么是k近鄰算法
2.1.2?應(yīng)用Python實(shí)現(xiàn)k近鄰算法
2.1.3?值的選擇與過(guò)擬合問(wèn)題
任務(wù)2.2?k近鄰算法實(shí)現(xiàn)葡萄酒分類
2.2.1?葡萄酒數(shù)據(jù)的準(zhǔn)備
2.2.2?應(yīng)用Pandas讀取葡萄酒實(shí)驗(yàn)文本數(shù)據(jù)
2.2.3?數(shù)據(jù)分布可視化分析
2.2.4?數(shù)據(jù)清洗
2.2.5?數(shù)據(jù)標(biāo)準(zhǔn)化
2.2.6?值的選擇
2.2.7?構(gòu)建完整可用的葡萄酒kNN分類器
2.2.8?結(jié)果分析
2.3?項(xiàng)目復(fù)盤
2.4?實(shí)操練習(xí)
項(xiàng)目3?線性回歸預(yù)測(cè)與邏輯回歸分類
任務(wù)3.1?項(xiàng)目準(zhǔn)備
3.1.1?線性回歸基本知識(shí)
3.1.2?普通最小二乘法
3.1.3?回歸方程評(píng)估
3.1.4?欠擬合問(wèn)題
3.1.5?多重共線性問(wèn)題
3.1.6?嶺回歸
任務(wù)3.2?波士頓房?jī)r(jià)線性回歸預(yù)測(cè)
3.2.1?數(shù)據(jù)的準(zhǔn)備
3.2.2?應(yīng)用Pandas讀取數(shù)據(jù)
3.2.3?使用Matplotlib進(jìn)行數(shù)據(jù)可視化分析
3.2.4?特征降維處理
3.2.5?線性回歸模型降維分析
3.2.6?多項(xiàng)式特征生成
任務(wù)3.3?蔦尾花邏輯回歸分類
3.3.1?邏輯回歸基本知識(shí)
3.3.2?鳶尾花邏輯回歸分類
3.3.3?性能指標(biāo)ROC和AUC
3.4?項(xiàng)目復(fù)盤
3.5?實(shí)操練習(xí)
項(xiàng)目4?決策樹(shù)分類與回歸
任務(wù)4.1?決策樹(shù)構(gòu)造
4.1.1?決策樹(shù)歸納算法基本策略
4.1.2?樹(shù)的劃分規(guī)則
4.1.3?樹(shù)的剪枝處理
任務(wù)4.2?鳶尾花決策樹(shù)分類
4.2.1?決策樹(shù)分類Python編程
4.2.2?鳶尾花決策樹(shù)分類深度與過(guò)擬合
4.2.3?鳶尾花決策樹(shù)分類模型與評(píng)估
任務(wù)4.3?波士頓房?jī)r(jià)決策樹(shù)回歸
4.3.1?決策樹(shù)回歸Python編程
4.3.2?波士頓房?jī)r(jià)決策樹(shù)回歸深度與過(guò)擬合
4.3.3?波士頓房?jī)r(jià)決策樹(shù)回歸模型預(yù)測(cè)與評(píng)估
4.4?項(xiàng)目復(fù)盤
4.5?實(shí)操練習(xí)
項(xiàng)目5?貝葉斯分類
任務(wù)5.1?知識(shí)準(zhǔn)備
5.1.1?概述
5.1.2?貝葉斯推斷
5.1.3?樸素貝葉斯推斷
任務(wù)5.2?鳶尾花GaussianNB分類
5.2.1?高斯樸素貝葉斯
5.2.2?鳶尾花分類Python編程
任務(wù)5.3?郵件MultinomialNB分類
5.3.1?多項(xiàng)式樸素貝葉斯
5.3.2?郵件貝葉斯過(guò)濾分類
5.3.3?數(shù)據(jù)準(zhǔn)備與停用詞表準(zhǔn)備
5.3.4?中文切分與字符過(guò)濾及停用詞處理
5.3.5?獲取全部訓(xùn)練集中單詞列表和頻次最高的單詞集
5.3.6?獲取高頻詞數(shù)據(jù)集在郵件中的頻次
5.3.7?應(yīng)用MultinomialNB創(chuàng)建貝葉斯模型訓(xùn)練數(shù)據(jù)
5.3.8?應(yīng)用MultinomialNB實(shí)現(xiàn)未知郵件分類預(yù)測(cè)
5.4?項(xiàng)目復(fù)盤
5.5?實(shí)操練習(xí)
項(xiàng)目6?支持向量機(jī)
任務(wù)6.1?知識(shí)準(zhǔn)備
6.1.1?基本原理
6.1.2?線性可分與線性不可分
6.1.3?二分類實(shí)現(xiàn)
6.1.4?硬間隔與軟間隔
6.1.5?應(yīng)用GridSearchCV自動(dòng)優(yōu)選超參數(shù)
任務(wù)6.2?基于SVM手寫數(shù)字識(shí)別技術(shù)
6.2.1?數(shù)據(jù)的準(zhǔn)備與業(yè)務(wù)分析
6.2.2?手寫數(shù)字圖片可視化顯示
6.2.3?應(yīng)用GridSearchCV尋找高斯核最優(yōu)參數(shù)
6.2.4?數(shù)字識(shí)別模型實(shí)現(xiàn)
任務(wù)6.3?半導(dǎo)體制造過(guò)程信息傳遞判定
6.3.1?準(zhǔn)備并解析數(shù)據(jù)
6.3.2?應(yīng)用Python讀取和探查數(shù)據(jù)
6.3.3?組織需要的數(shù)據(jù)
6.3.4?數(shù)據(jù)預(yù)處理
6.3.5?建立半導(dǎo)體制造過(guò)程智能分類模型
6.3.6?保存訓(xùn)練模型和分類的結(jié)果
6.3.7?模型性能分析
6.3.8?模型性能可視化分析
6.5?項(xiàng)目復(fù)盤
6.6?實(shí)操練習(xí)
項(xiàng)目7?個(gè)體學(xué)習(xí)與集成學(xué)習(xí)
任務(wù)7.1?知識(shí)準(zhǔn)備
任務(wù)7.2?基于kNN學(xué)習(xí)器Bagging應(yīng)用
7.2.1?Bagging基本知識(shí)
7.2.2?Python鳶尾花分類編程
任務(wù)7.3?隨機(jī)森林回歸與分類
7.3.1?隨機(jī)森林基本知識(shí)
7.3.2?隨機(jī)森林波士頓房?jī)r(jià)回歸預(yù)測(cè)
7.3.3?隨機(jī)森林鳶尾花數(shù)據(jù)兩特征組合分類
任務(wù)7.4?Boosting應(yīng)用
7.4.1?Boosting基本知識(shí)
7.4.2?AdaBoost鳶尾花數(shù)據(jù)兩特征組合分類
7.4.3?XGBoost葡萄酒分類
7.5?項(xiàng)目復(fù)盤
7.6?實(shí)操練習(xí)
項(xiàng)目8?聚類
任務(wù)8.1?知識(shí)準(zhǔn)備
8.1.1?聚類基本知識(shí)
8.1.2?聚類中的主要問(wèn)題
8.1.3?常用聚類算法
任務(wù)8.2?基于K-Means鳶尾花分類
8.2.1?基本知識(shí)
8.2.2?數(shù)據(jù)讀取
8.2.3?構(gòu)建K-Means分類模型
8.2.4?K-Means模型性能評(píng)估
8.2.5?K-Means模型結(jié)果可視化
8.3?項(xiàng)目復(fù)盤
8.4?實(shí)操練習(xí)
項(xiàng)目9?深度神經(jīng)網(wǎng)絡(luò)
任務(wù)9.1?知識(shí)準(zhǔn)備
9.1.1?深度前饋神經(jīng)網(wǎng)絡(luò)
9.1.2?示例:印第安人糖尿病診斷
9.1.3?卷積神經(jīng)網(wǎng)絡(luò)
9.1.4?循環(huán)神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶網(wǎng)絡(luò)
9.1.5?示例:基于LSTM的國(guó)際旅行人數(shù)預(yù)測(cè)
任務(wù)9.2?基于CNN的時(shí)間戳圖像識(shí)別
9.2.1?準(zhǔn)備數(shù)據(jù):從視頻圖像中分割時(shí)間數(shù)字
9.2.2?分析數(shù)據(jù):初始化CNN的網(wǎng)絡(luò)結(jié)構(gòu)
9.2.3?處理數(shù)據(jù):訓(xùn)練CNN的網(wǎng)絡(luò)參數(shù)
9.2.4?使用算法:時(shí)間戳識(shí)別算法
9.2.5?結(jié)果分析:測(cè)試CNN模型
9.3?項(xiàng)目復(fù)盤
9.4?實(shí)操練習(xí)