機(jī)器學(xué)習(xí)方法及應(yīng)用
定 價(jià):48 元
叢書名:全國(guó)高等院校人工智能系列“十三五”規(guī)劃教材
- 作者:袁景凌,賁可榮,魏娜 著
- 出版時(shí)間:2020/5/1
- ISBN:9787113268183
- 出 版 社:中國(guó)鐵道出版社
- 中圖法分類:TP181
- 頁(yè)碼:236
- 紙張:膠版紙
- 版次:1
- 開本:16開
數(shù)據(jù)是載體,智能是目標(biāo),而機(jī)器學(xué)習(xí)則是從數(shù)據(jù)通往智能的技術(shù)途徑。機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)的核心,是現(xiàn)代人工智能的本質(zhì)。本書內(nèi)容包括機(jī)器學(xué)習(xí)概述、決策樹學(xué)習(xí)、多層感知器、維度約簡(jiǎn)、支持向量機(jī)、無(wú)監(jiān)督學(xué)習(xí)、概率圖模型、強(qiáng)化學(xué)習(xí)、深度學(xué)習(xí)。本書除介紹常用的機(jī)器學(xué)習(xí)方法外,還綜述各主要方法的應(yīng)用現(xiàn)狀。通過(guò)各章案例的詳細(xì)描述,讀者可以系統(tǒng)地掌握機(jī)器學(xué)習(xí)方法。本書應(yīng)用案例采用Python語(yǔ)言編寫,并提供下載網(wǎng)址。
本書適合作為高等院校人工智能、數(shù)據(jù)科學(xué)與大數(shù)據(jù)、計(jì)算機(jī)科學(xué)與技術(shù)、軟件工程等計(jì)算機(jī)類專業(yè)的本科生及研究生“機(jī)器學(xué)習(xí)”課程教材,也適合作為機(jī)器學(xué)習(xí)愛好者的參考讀物。
基礎(chǔ)性:注重基礎(chǔ)理論,運(yùn)用基本方法;
應(yīng)用性:剖析典型案例,給出應(yīng)用全景;
啟發(fā)性:推薦資源平臺(tái),激發(fā)學(xué)習(xí)興趣。
機(jī)器學(xué)習(xí)方法分類
機(jī)器學(xué)習(xí)(Machine Learning)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。
1按照有無(wú)監(jiān)督分類
有監(jiān)督學(xué)習(xí)(Supervised Learning):從給定的有標(biāo)注的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)出一個(gè)函數(shù)(模型參數(shù)),當(dāng)新的數(shù)據(jù)到來(lái)時(shí)可以根據(jù)這個(gè)函數(shù)預(yù)測(cè)結(jié)果。常見任務(wù)包括分類與回歸。
無(wú)監(jiān)督學(xué)習(xí)(Unsupervised Learning):沒有標(biāo)注的訓(xùn)練數(shù)據(jù)集,需要根據(jù)樣本間的統(tǒng)計(jì)規(guī)律對(duì)樣本集進(jìn)行分析,常見任務(wù)如聚類等。
半監(jiān)督學(xué)習(xí)(Semisupervised Learning):結(jié)合(少量的)標(biāo)注訓(xùn)練數(shù)據(jù)和(大量的)未標(biāo)注數(shù)據(jù)來(lái)進(jìn)行數(shù)據(jù)的分類學(xué)習(xí)。
增強(qiáng)學(xué)習(xí)(Reinforcement Learning):外部環(huán)境對(duì)輸出只給出評(píng)價(jià)信息而非正確答案,學(xué)習(xí)機(jī)通過(guò)強(qiáng)化受獎(jiǎng)勵(lì)的動(dòng)作來(lái)改善自身的性能。
多任務(wù)學(xué)習(xí)(Multitask Learning):把多個(gè)相關(guān)(Related)的任務(wù)放在一起同時(shí)學(xué)習(xí)。
2按照解決問(wèn)題分類
按照解決問(wèn)題可分為:分類問(wèn)題、回歸問(wèn)題、聚類問(wèn)題和其他問(wèn)題。
隱馬爾可夫模型是一個(gè)關(guān)于時(shí)序的概率模型,描述由隱馬爾可夫鏈隨機(jī)生成觀測(cè)序列的過(guò)程,屬于生成模型。隱馬爾可夫模型在語(yǔ)音識(shí)別、自然語(yǔ)言處理、生物信息等領(lǐng)域有著廣泛的應(yīng)用。
條件隨機(jī)場(chǎng)是一個(gè)序列標(biāo)注模型,其優(yōu)點(diǎn)在于為一個(gè)位置進(jìn)行標(biāo)注的過(guò)程中可以利用豐富的內(nèi)部及上下文特征信息。
LDA主題模型是一種文檔主題生成模型,是一種非監(jiān)督機(jī)器學(xué)習(xí)技術(shù)。通過(guò)模擬文檔生成過(guò)程,可以用來(lái)識(shí)別大規(guī)模文檔集或語(yǔ)料庫(kù)中潛藏的主題信息。
機(jī)器學(xué)習(xí)面臨的難題與挑戰(zhàn)
(1)數(shù)據(jù)稀疏性:訓(xùn)練一個(gè)模型,需要大量(標(biāo)注)數(shù)據(jù),但是數(shù)據(jù)往往比較稀疏。例如:想訓(xùn)練一個(gè)模型表征某人“購(gòu)物興趣”,但是這個(gè)人在網(wǎng)站上瀏覽行為很少,購(gòu)物歷史很少,很難訓(xùn)練出一個(gè)“有意義模型”來(lái)預(yù)測(cè)應(yīng)該給這個(gè)人推薦什么商品等。
(2)高數(shù)量和高質(zhì)量標(biāo)注數(shù)據(jù)需求:獲取標(biāo)定數(shù)據(jù)需要耗費(fèi)大量人力和財(cái)力。而且,人會(huì)出錯(cuò),有主觀性。如何獲取高數(shù)量和高質(zhì)量標(biāo)定數(shù)據(jù),或者用機(jī)器學(xué)習(xí)方法只標(biāo)注“關(guān)鍵”數(shù)據(jù)(主動(dòng)學(xué)習(xí))值得深入研究。
(3)冷啟動(dòng)問(wèn)題:一個(gè)好互聯(lián)網(wǎng)產(chǎn)品,用的人越多,得到的數(shù)據(jù)越多;得到的數(shù)據(jù)越多,模型訓(xùn)練得越好,產(chǎn)品會(huì)變得更好用,用的人就會(huì)更多……進(jìn)入良性循環(huán)(漣漪效益)。對(duì)于一個(gè)新產(chǎn)品,在初期要面臨數(shù)據(jù)不足的冷啟動(dòng)問(wèn)題。
(4)泛化能力問(wèn)題:訓(xùn)練數(shù)據(jù)不能全面、均衡地代表真實(shí)數(shù)據(jù)。
(5)模型抽象困難:總結(jié)歸納實(shí)際問(wèn)題中的數(shù)學(xué)表示非常困難。
(6)模型評(píng)估困難:在很多實(shí)際問(wèn)題中,很難形式化地、定量地評(píng)估一個(gè)模型的結(jié)果是好還是不好。
(7)尋找最優(yōu)解困難:要解決的實(shí)際問(wèn)題非常復(fù)雜,將其形式化后的目標(biāo)函數(shù)也非常復(fù)雜,往往在目前還不存在一個(gè)有效的算法能找到目標(biāo)函數(shù)的最優(yōu)值。
(8)可擴(kuò)展性是互聯(lián)網(wǎng)的核心問(wèn)題之一。搜索引擎索引的重要網(wǎng)頁(yè)超過(guò)100億:如果1臺(tái)機(jī)器每秒處理1 000個(gè)網(wǎng)頁(yè),需要至少100天。所以出現(xiàn)了MapReduce、MPI、Spark、Pegasus、Pregel、Hama等分布式計(jì)算構(gòu)架。選擇什么樣的計(jì)算平臺(tái),與算法設(shè)計(jì)緊密相關(guān)。
(9)速度是互聯(lián)網(wǎng)核心的用戶體驗(yàn)。線下模型訓(xùn)練可以花費(fèi)很長(zhǎng)時(shí)間,如Google某個(gè)模型更新一次需要幾千臺(tái)機(jī)器,大約訓(xùn)練半年時(shí)間。但是,線上使用模型時(shí)要求一定要“快,并且實(shí)時(shí)”。
(10)在線學(xué)習(xí):互聯(lián)網(wǎng)每時(shí)每刻都在產(chǎn)生大量新數(shù)據(jù),要求模型隨之不停更新,所以在線學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)重要研究方向。
機(jī)器學(xué)習(xí)發(fā)展的啟示
“機(jī)器學(xué)習(xí)”在其十年的黃金發(fā)展期,機(jī)器學(xué)習(xí)界并沒有過(guò)多地炒作“智能”或者“認(rèn)知”,而是關(guān)注于引入統(tǒng)計(jì)學(xué)等來(lái)建立學(xué)科的理論基礎(chǔ),面向數(shù)據(jù)分析與處理,以無(wú)監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)為兩大主要的研究問(wèn)題,提出和開發(fā)了一系列模型、方法和計(jì)算算法等,切實(shí)地解決了工業(yè)界所面臨的一些實(shí)際問(wèn)題。因?yàn)榇髷?shù)據(jù)的驅(qū)動(dòng)和計(jì)算能力的極大提升,一批面向機(jī)器學(xué)習(xí)的底層架構(gòu)先后被開發(fā)出來(lái)。神經(jīng)網(wǎng)絡(luò)其實(shí)在20世紀(jì)80年代末或90年代初就被廣泛研究,但后來(lái)沉寂了。而基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)強(qiáng)勢(shì)崛起,給工業(yè)界帶來(lái)了深刻的變革和機(jī)遇。深度學(xué)習(xí)的成功不是源自腦科學(xué)或認(rèn)知科學(xué)的進(jìn)展,而是因?yàn)榇髷?shù)據(jù)的驅(qū)動(dòng)和計(jì)算能力的極大提升。
機(jī)器學(xué)習(xí)的發(fā)展詮釋了多學(xué)科交叉的重要性和必要性。然而這種交叉不是簡(jiǎn)單地彼此知道幾個(gè)名詞或概念就可以的,是需要真正融會(huì)貫通。統(tǒng)計(jì)學(xué)家弗萊德曼早期從事物理學(xué)研究,他是優(yōu)化算法大師,而且他的編程能力同樣令人贊嘆。喬丹教授既是一流的計(jì)算機(jī)學(xué)家,又是一流的統(tǒng)計(jì)學(xué)家,而他的博士專業(yè)為心理學(xué),他能夠承擔(dān)起建立統(tǒng)計(jì)機(jī)器學(xué)習(xí)的重任。辛頓教授是世界最著名的認(rèn)知心理學(xué)家和計(jì)算機(jī)科學(xué)家。雖然他很早就成就斐然,在學(xué)術(shù)界久負(fù)盛名,但他依然始終活躍在一線,自己寫代碼。他提出的許多想法簡(jiǎn)單、可行又非常有效,被稱為偉大的思想家。正是由于他的睿智和身體力行,深度學(xué)習(xí)技術(shù)迎來(lái)了革命性的突破。這些學(xué)者非常務(wù)實(shí),從不提那些空洞無(wú)物的概念和框架。他們遵循自下而上的方式,從具體問(wèn)題、模型、方法、算法等著手,一步一步實(shí)現(xiàn)系統(tǒng)化。
可以說(shuō)機(jī)器學(xué)習(xí)是由學(xué)術(shù)界、工業(yè)界、創(chuàng)業(yè)界(或競(jìng)賽界)等合力造就的。學(xué)術(shù)界是引擎,工業(yè)界是驅(qū)動(dòng),創(chuàng)業(yè)界是活力和未來(lái)。學(xué)術(shù)界和工業(yè)界應(yīng)該有各自的職責(zé)和分工。學(xué)術(shù)界的職責(zé)在于建立和發(fā)展機(jī)器學(xué)習(xí)學(xué)科,培養(yǎng)機(jī)器學(xué)習(xí)領(lǐng)域的專門人才;而大項(xiàng)目、大工程更應(yīng)該由市場(chǎng)來(lái)驅(qū)動(dòng),由工業(yè)界來(lái)實(shí)施和完成。
本書內(nèi)容包括機(jī)器學(xué)習(xí)概述、決策樹學(xué)習(xí)、多層感知器、維度約簡(jiǎn)、支持向量機(jī)、無(wú)監(jiān)督學(xué)習(xí)、概率圖模型、強(qiáng)化學(xué)習(xí)、深度學(xué)習(xí)。除包括基本概念、基本知識(shí)外,每章均包括相關(guān)技術(shù)的應(yīng)用概述及典型應(yīng)用案例。
本書適合作為高等院校人工智能、數(shù)據(jù)科學(xué)與大數(shù)據(jù)、計(jì)算機(jī)科學(xué)與技術(shù)、軟件工程等計(jì)算機(jī)類專業(yè)的本科生及研究生“機(jī)器學(xué)習(xí)”課程的教材,也可作為機(jī)器學(xué)習(xí)各類培訓(xùn)用書和愛好者的參考書。
賁可榮、魏娜撰寫第1、2、3、5、9章及第66節(jié),張獻(xiàn)參與第9章的撰寫。其余章節(jié)(含第25節(jié))由袁景凌老師撰寫,董建升、丁遠(yuǎn)遠(yuǎn)、曹陽(yáng)、肖嵩參加了部分案例編寫。賁可榮組織了本書編寫,并撰寫前言。南京大學(xué)徐潔磐教授審閱了全書,并提出寶貴意見,特此致謝。最后感謝參考文獻(xiàn)的所有作者。
由于時(shí)間倉(cāng)促及編者水平所限,必定存在許多不足,懇請(qǐng)讀者批評(píng)指正,將不勝感謝。
編者2019年11月
袁景凌:武漢理工大學(xué)教授,博士/博士生導(dǎo)師。中國(guó)計(jì)算機(jī)學(xué)會(huì)高級(jí)會(huì)員,湖北省計(jì)算機(jī)學(xué)會(huì)理事。獲得湖北省自然科學(xué)二等獎(jiǎng),湖北省科技進(jìn)步二等獎(jiǎng)/三等獎(jiǎng),湖北省技術(shù)發(fā)明三等獎(jiǎng),湖北省教學(xué)成果一等獎(jiǎng)。
編寫《智能方法及應(yīng)用》、《離散數(shù)學(xué)》、《軟件工程》等專著及教材。
賁可榮:海軍工程大學(xué)教授、博士生導(dǎo)師。主編《人工智能》入選普通高等教育“十二五”國(guó)家級(jí)規(guī)劃教材。CCF理論計(jì)算機(jī)科學(xué)專委副主任、《計(jì)算機(jī)科學(xué)與探索》執(zhí)行編委,《海軍新軍事變革叢書》編委會(huì)常務(wù)副主任。軍隊(duì)人工智能專家組成員,海軍人工智能專業(yè)組副組長(zhǎng)。評(píng)為教育部骨干教師、首屆湖北省優(yōu)秀研究生導(dǎo)師、海軍名師工作室領(lǐng)銜名師、第三屆大學(xué)教學(xué)名師,獲軍隊(duì)院校育才獎(jiǎng)金獎(jiǎng)。
目錄
第1章機(jī)器學(xué)習(xí)概述1
1.1學(xué)習(xí)中的元素2
1.2目標(biāo)函數(shù)的表示4
1.3機(jī)器學(xué)習(xí)系統(tǒng)的基本結(jié)構(gòu)6
1.4學(xué)習(xí)任務(wù)的類型7
1.5機(jī)器學(xué)習(xí)的定義和發(fā)展史9
1.6機(jī)器學(xué)習(xí)可完成的事11
1.7機(jī)器學(xué)習(xí)的成功案例13
習(xí)題16
第2章決策樹學(xué)習(xí)17
2.1決策樹的組成及分類17
2.2決策樹的構(gòu)造算法CLS18
2.3基本的決策樹算法ID320
2.4信息熵和信息增益及其案例21
2.5隨機(jī)森林及其應(yīng)用案例24
2.5.1隨機(jī)森林概述24
2.5.2隨機(jī)森林應(yīng)用案例27
2.6決策樹和隨機(jī)森林應(yīng)用概述29
2.6.1決策樹的應(yīng)用概述29
2.6.2隨機(jī)森林的應(yīng)用概述30
小結(jié)32
習(xí)題32
第3章多層感知器34
3.1神經(jīng)元模型34
3.2感知器及其學(xué)習(xí)規(guī)則35
3.3多層感知器38
3.4反向傳播算法39
目錄3.5反向傳播網(wǎng)絡(luò)的應(yīng)用概述45
3.6案例:基于反向傳播網(wǎng)絡(luò)擬合曲線46
小結(jié)52
習(xí)題53
第4章維度約簡(jiǎn)55
4.1主成分分析55
4.2獨(dú)立成分分析58
4.3線性判別分析59
4.4局部線性嵌入62
4.5維度約簡(jiǎn)算法應(yīng)用概述65
4.6案例分析66
4.6.1利用PCA對(duì)半導(dǎo)體制造數(shù)據(jù)降維66
4.6.2LDA降維——應(yīng)用于Wine葡萄酒數(shù)據(jù)集67
小結(jié)69
習(xí)題69
第5章支持向量機(jī)71
5.1線性可分模式的最優(yōu)超平面71
5.2不可分離模式的最優(yōu)超平面75
5.3用于模式識(shí)別的支持向量機(jī)的潛在思想78
5.4使用核方法的支持向量機(jī)78
5.5支持向量機(jī)的設(shè)計(jì)80
5.6支持向量機(jī)的應(yīng)用概述81
5.7支持向量機(jī)的示例83
小結(jié)86
習(xí)題87
第6章無(wú)監(jiān)督學(xué)習(xí)89
6.1聚類概述89
6.2Kmeans算法90
6.3DBSCAN算法92
6.4EM算法94
6.5關(guān)聯(lián)分析97
6.6競(jìng)爭(zhēng)網(wǎng)絡(luò)99
6.6.1Hamming網(wǎng)絡(luò)100
6.6.2競(jìng)爭(zhēng)學(xué)習(xí)及案例101
6.6.3自組織特征圖104
6.6.4學(xué)習(xí)向量量化107
6.7無(wú)監(jiān)督學(xué)習(xí)應(yīng)用概述109
6.8案例分析111
6.8.1使用K-means算法對(duì)用戶購(gòu)物行為聚類和推薦111
6.8.2使用DBSCAN清洗GPS軌跡數(shù)據(jù)111
6.8.3高斯混合模型的EM聚類113
6.8.4學(xué)習(xí)向量量化解決分類問(wèn)題114
小結(jié)116
習(xí)題116
第7章概率圖模型118
7.1貝葉斯網(wǎng)絡(luò)118
7.1.1貝葉斯基本公式119
7.1.2樸素貝葉斯分類器120
7.1.3貝葉斯網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)121
7.1.4條件獨(dú)立性假設(shè)121
7.1.5先驗(yàn)概率的確定和網(wǎng)絡(luò)推理算法122
7.2馬爾可夫隨機(jī)場(chǎng)124
7.2.1馬爾可夫隨機(jī)場(chǎng)概念125
7.2.2馬爾可夫隨機(jī)場(chǎng)的因式分解126
7.3隱馬爾可夫模型128
7.4馬爾可夫鏈蒙特卡羅131
7.4.1蒙特卡羅積分131
7.4.2馬爾可夫鏈132
7.4.3馬爾可夫鏈蒙特卡羅132
7.5LDA主題提取模型136
7.6概率圖模型應(yīng)用概述138
7.7案例分析141
7.7.1樸素貝葉斯進(jìn)行垃圾郵件過(guò)濾141
7.7.2前向后向算法求觀測(cè)序列概率142
7.7.3馬爾可夫鏈蒙特卡羅方法預(yù)測(cè)睡眠質(zhì)量144
7.7.4利用LDA對(duì)文本進(jìn)行主題提取148
小結(jié)149
習(xí)題150
第8章強(qiáng)化學(xué)習(xí)151
8.1強(qiáng)化學(xué)習(xí)過(guò)程151
8.2馬爾可夫決策過(guò)程152
8.3Q-Learning156
8.4強(qiáng)化學(xué)習(xí)應(yīng)用概述159
8.5案例分析161
8.5.1使用馬爾可夫決策過(guò)程求解最優(yōu)策略162
8.5.2尋寶游戲163
小結(jié)164
習(xí)題165
第9章深度學(xué)習(xí)166
9.1深度學(xué)習(xí)概述166
9.2卷積神經(jīng)網(wǎng)絡(luò)169
9.2.1卷積層169
9.2.2池化層171
9.2.3卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)172
9.3循環(huán)神經(jīng)網(wǎng)絡(luò)172
9.3.1給網(wǎng)絡(luò)增加記憶能力173
9.3.2簡(jiǎn)單循環(huán)網(wǎng)絡(luò)174
9.3.3應(yīng)用到機(jī)器學(xué)習(xí)175
9.3.4參數(shù)學(xué)習(xí)177
9.3.5基于門控的循環(huán)神經(jīng)網(wǎng)絡(luò)179
9.4深度信念網(wǎng)絡(luò)181
9.4.1玻爾茲曼機(jī)181
9.4.2受限玻爾茲曼機(jī)182
9.4.3深度信念網(wǎng)絡(luò)183
9.5深度生成模型185
9.5.1概率生成模型185
9.5.2變分自編碼器186
9.5.3生成對(duì)抗網(wǎng)絡(luò)188
9.5.4生成對(duì)抗網(wǎng)絡(luò)的應(yīng)用190
9.6深度學(xué)習(xí)應(yīng)用概述193
9.6.1文本194
9.6.2語(yǔ)音195
9.6.3計(jì)算機(jī)視覺196
9.7機(jī)器學(xué)習(xí)系統(tǒng)199
9.7.1主流機(jī)器學(xué)習(xí)系統(tǒng)的分類與介紹200
9.7.2主流深度學(xué)習(xí)框架系統(tǒng)介紹201
9.7.3新興機(jī)器學(xué)習(xí)系統(tǒng)203
9.8案例:深度學(xué)習(xí)在計(jì)算機(jī)視覺中的應(yīng)用204
小結(jié)210
習(xí)題210
附錄機(jī)器學(xué)習(xí)工具及資源推薦212
參考文獻(xiàn)217