本書介紹了實(shí)用機(jī)器學(xué)習(xí)的工作流程,主要從實(shí)用角度進(jìn)行了描述,沒有數(shù)學(xué)公式和推導(dǎo)。本書涵蓋了數(shù)據(jù)收集與處理、模型構(gòu)建、評(píng)價(jià)和優(yōu)化、特征的識(shí)別、提取和選擇技術(shù)、高級(jí)特征工程、數(shù)據(jù)可視化技術(shù)以及模型的部署和安裝,結(jié)合3個(gè)真實(shí)案例全面、詳細(xì)地介紹了整個(gè)機(jī)器學(xué)習(xí)流程。后,還介紹了機(jī)器學(xué)習(xí)流程的擴(kuò)展和大數(shù)據(jù)應(yīng)用。
本書可以作為程序員、數(shù)據(jù)分析師、統(tǒng)計(jì)學(xué)家、數(shù)據(jù)科學(xué)家解決實(shí)際問題的參考書,也可以作為機(jī)器學(xué)習(xí)愛好者學(xué)習(xí)和應(yīng)用的參考書,還可以作為非專業(yè)學(xué)生的機(jī)器學(xué)習(xí)入門參考書,以及專業(yè)學(xué)生的實(shí)踐參考書。
隨著阿爾法狗在圍棋領(lǐng)域高奏凱歌,人工智能領(lǐng)域已成為當(dāng)前引人注目的風(fēng)口,而機(jī)器學(xué)習(xí)又是這風(fēng)口中的風(fēng)頭勁的熱點(diǎn)。本書從實(shí)戰(zhàn)角度剖析了機(jī)器學(xué)習(xí)的知識(shí)原理,讀者無需擔(dān)心遇到難懂的數(shù)學(xué)公式和推導(dǎo),就能夠?qū)C(jī)器學(xué)習(xí)的知識(shí)應(yīng)用在自己熟悉的領(lǐng)域!秾(shí)用機(jī)器學(xué)習(xí)》還包含了三個(gè)機(jī)器學(xué)習(xí)真是應(yīng)用的綜合案例,本書所有代碼資源都可以通過網(wǎng)絡(luò)下載,讀者還可以登錄GITHUB與全球的機(jī)器學(xué)習(xí)愛好者共同交流本書的學(xué)習(xí)體驗(yàn)。
《實(shí)用機(jī)器學(xué)習(xí)》的讀者對(duì)象是針對(duì)想要把機(jī)器學(xué)習(xí)應(yīng)用于實(shí)際問題的人。它詳細(xì)闡述了機(jī)器學(xué)習(xí)的主要組成部分:工作流程、算法和工具。關(guān)注點(diǎn)是著名算法的實(shí)際應(yīng)用,而不是創(chuàng)建一個(gè)算法。構(gòu)建和使用機(jī)器學(xué)習(xí)模型的每個(gè)步驟都有詳細(xì)描述,并有從簡(jiǎn)單到中等復(fù)雜的實(shí)例與之對(duì)應(yīng)。
主要內(nèi)容
第1部分,“機(jī)器學(xué)習(xí)工作流程”介紹基本的機(jī)器學(xué)習(xí)工作流程,并分章節(jié)對(duì)每個(gè)步驟加以介紹。
第1章,“什么是機(jī)器學(xué)習(xí)”介紹機(jī)器學(xué)習(xí)的應(yīng)用領(lǐng)域和用途。
第2章,“實(shí)用數(shù)據(jù)處理”,詳細(xì)介紹機(jī)器學(xué)習(xí)流程中的數(shù)據(jù)處理和準(zhǔn)備工作。
第3章,“建模和預(yù)測(cè)”,介紹構(gòu)建簡(jiǎn)單的機(jī)器學(xué)習(xí)模型,并利用應(yīng)用廣泛的算法和庫進(jìn)行預(yù)測(cè)。
第4章,“模型評(píng)估和優(yōu)化”,深入研究機(jī)器學(xué)習(xí)模型,并對(duì)其進(jìn)行評(píng)估和性能優(yōu)化。
第5章,“基礎(chǔ)特征工程”,介紹利用領(lǐng)域知識(shí)對(duì)原始數(shù)據(jù)進(jìn)行提高的常用方法。
第2部分,“實(shí)際應(yīng)用”,介紹模型規(guī);蛷奈谋、圖片和時(shí)間序列數(shù)據(jù)中提取特征的技術(shù),來提高絕大多數(shù)現(xiàn)代機(jī)器學(xué)習(xí)的性能。本部分包括3個(gè)有完整實(shí)例的章節(jié)。
第6章,“實(shí)例:NYC出租車數(shù)據(jù)”,這是第一個(gè)完整實(shí)例章節(jié),會(huì)預(yù)測(cè)乘客的傾向性行為。
第7章,“高級(jí)特征工程”,包含高級(jí)特征工程過程,介紹從自然語言的文本、圖片和時(shí)序序列數(shù)據(jù)中提取有價(jià)值的數(shù)據(jù)。
第8章,“NLP高級(jí)案例:電影評(píng)論情感預(yù)測(cè)”,運(yùn)用高級(jí)特征工程知識(shí)預(yù)測(cè)在線電影評(píng)論的情感。
第9章,“擴(kuò)展機(jī)器學(xué)習(xí)流程”,介紹擴(kuò)大機(jī)器學(xué)習(xí)系統(tǒng)的數(shù)據(jù)規(guī)模、預(yù)測(cè)吞吐量和降低預(yù)測(cè)間隔的技術(shù)。
第10章,“案例:數(shù)字顯示廣告”,構(gòu)建大型數(shù)據(jù)的模型,預(yù)測(cè)數(shù)字廣告點(diǎn)擊行為。
如何使用本書
如果你是機(jī)器學(xué)習(xí)新手,第1~5章將引導(dǎo)你學(xué)習(xí)研究和準(zhǔn)備數(shù)據(jù)、特征工程、建模和模型評(píng)估過程。Python實(shí)例采用流行的數(shù)據(jù)處理、pandas和Scikit-Learn機(jī)器學(xué)習(xí)庫。第6~10章,包括3個(gè)實(shí)際機(jī)器學(xué)習(xí)案例、高級(jí)特征工程和優(yōu)化的話題。由于學(xué)習(xí)庫封裝了大部分的復(fù)雜性,因此代碼示例可以很容易地應(yīng)用到你自己的機(jī)器學(xué)習(xí)系統(tǒng)中。
目標(biāo)讀者
本書可以使程序員、數(shù)據(jù)分析師、統(tǒng)計(jì)學(xué)家、數(shù)據(jù)科學(xué)家和其他專業(yè)人士將機(jī)器學(xué)習(xí)應(yīng)用于實(shí)際問題,或者簡(jiǎn)單地理解它。他們將獲得實(shí)用數(shù)據(jù)建模、優(yōu)化和開發(fā)機(jī)器學(xué)習(xí)系統(tǒng)的經(jīng)驗(yàn),而沒必要了解特定算法的理論推導(dǎo)。機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)是針對(duì)感興趣的人的,某些算法在較高的層次上進(jìn)行解釋,本書提供給那些想深入學(xué)習(xí)的人,我們的焦點(diǎn)是獲得實(shí)際結(jié)果以解決手頭的問題。
代碼約定,下載和軟件需求
本書包含許多示例源代碼,或者以編號(hào)的清單出現(xiàn),或者嵌入在正文中,但無論哪種情況,都以固定寬度的這種字體顯示,以區(qū)別于正常的文本。
源代碼使用Python,pandas和Scikit-Learn編寫。與章節(jié)相應(yīng)的iPython筆記文件可在GitHub上下載,地址為https://githubcom/brinkar/real-world-machine-learning,也可以通過關(guān)注機(jī)械工業(yè)出版社計(jì)算機(jī)分社官方微信訂閱號(hào)“IT有得聊”,輸入5位數(shù)號(hào)“56922”后獲得資源下載鏈接,還可以登錄golden-book.com搜索本書并進(jìn)行下載。
筆記文件(擴(kuò)展名為ipynb)與章節(jié)相對(duì)應(yīng)。樣本數(shù)據(jù)包含在data文件夾中,只要必需的庫隨iPython一起安裝,那么所有的筆記文件都能執(zhí)行。圖形由matplotlib和Seaborn的pyplot模塊生成。
在有些情況下,由iPython產(chǎn)生的圖形被提取出來作為本書的插圖(為了適應(yīng)打印質(zhì)量和電子書顯示,有些已經(jīng)做了修改)。
HenrikBrink(亨里克·布林克)是一名數(shù)據(jù)科學(xué)家,對(duì)應(yīng)用機(jī)器學(xué)習(xí)進(jìn)行工業(yè)和學(xué)術(shù)應(yīng)用開發(fā)有著豐富的經(jīng)驗(yàn)。
JosephRichards(約瑟夫W理查茲)也是一位數(shù)據(jù)科學(xué)家,具有應(yīng)用統(tǒng)計(jì)和預(yù)測(cè)分析方面的專業(yè)知識(shí)。Henrik和Joseph是Wise.io的聯(lián)合創(chuàng)立者,Wise.io是一家提供工業(yè)機(jī)器學(xué)習(xí)解決方案的開發(fā)商。
MarkFetherolf(馬克·弗特羅夫)是數(shù)據(jù)管理和預(yù)測(cè)分析公司NuminaryDataScience的創(chuàng)始人和總裁。他曾在社會(huì)科學(xué)研究、化學(xué)工程、信息系統(tǒng)性能、容量規(guī)劃、有線電視和在線廣告應(yīng)用等方面擔(dān)任統(tǒng)計(jì)師和分析數(shù)據(jù)庫開發(fā)人員。
目錄
推薦序
作者序
致謝
譯者序
關(guān)于本書
作者簡(jiǎn)介
關(guān)于封面插圖
第1部分機(jī)器學(xué)習(xí)工作流程
第1章什么是機(jī)器學(xué)習(xí)
1.1理解機(jī)器學(xué)習(xí)
1.2使用數(shù)據(jù)進(jìn)行決策
1.2.1傳統(tǒng)方法
1.2.2機(jī)器學(xué)習(xí)方法
1.2.3機(jī)器學(xué)習(xí)的五大優(yōu)勢(shì)
1.2.4面臨的挑戰(zhàn)
1.3跟蹤機(jī)器學(xué)習(xí)流程:從數(shù)據(jù)到部署
1.3.1數(shù)據(jù)集合和預(yù)處理
1.3.2數(shù)據(jù)構(gòu)建模型
1.3.3模型性能評(píng)估
1.3.4模型性能優(yōu)化
1.4提高模型性能的高級(jí)技巧
1.4.1數(shù)據(jù)預(yù)處理和特征工程
1.4.2用在線算法持續(xù)改進(jìn)模型
1.4.3具有數(shù)據(jù)量和速度的規(guī);P
1.5總結(jié)
1.6本章術(shù)語
第2章實(shí)用數(shù)據(jù)處理
2.1起步:數(shù)據(jù)收集
2.1.1應(yīng)包含哪些特征
2.1.2如何獲得目標(biāo)變量的真實(shí)值
2.1.3需要多少訓(xùn)練數(shù)據(jù)
2.1.4訓(xùn)練集是否有足夠的代表性
2.2數(shù)據(jù)預(yù)處理
2.2.1分類特征
2.2.2缺失數(shù)據(jù)處理
2.2.3簡(jiǎn)單特征工程
2.2.4數(shù)據(jù)規(guī)范化
2.3數(shù)據(jù)可視化
2.3.1馬賽克圖
2.3.2盒圖
2.3.3密度圖
2.3.4散點(diǎn)圖
2.4總結(jié)
2.5本章術(shù)語
第3章建模和預(yù)測(cè)
3.1基礎(chǔ)機(jī)器學(xué)習(xí)建模
3.1.1尋找輸入和目標(biāo)間的關(guān)系
3.1.2尋求好模型的目的
3.1.3建模方法類型
3.1.4有監(jiān)督和無監(jiān)督學(xué)習(xí)
3.2分類:把數(shù)據(jù)預(yù)測(cè)到桶中
3.2.1構(gòu)建分類器并預(yù)測(cè)
3.2.2非線性數(shù)據(jù)與復(fù)雜分類
3.2.3多類別分類
3.3回歸:預(yù)測(cè)數(shù)值型數(shù)據(jù)
3.3.1構(gòu)建回歸器并預(yù)測(cè)
3.3.2對(duì)復(fù)雜的非線性數(shù)據(jù)進(jìn)行回歸
3.4總結(jié)
3.5本章術(shù)語
第4章模型評(píng)估與優(yōu)化
4.1模型泛化:評(píng)估新數(shù)據(jù)的預(yù)測(cè)準(zhǔn)確性
4.1.1問題:過度擬合與樂觀模型
4.1.2解決方案:交叉驗(yàn)證
4.1.3交叉驗(yàn)證的注意事項(xiàng)
4.2分類模型評(píng)估
4.2.1分類精度和混淆矩陣
4.2.2準(zhǔn)確度權(quán)衡與ROC曲線
4.2.3多類別分類
4.3回歸模型評(píng)估
4.3.1使用簡(jiǎn)單回歸性能指標(biāo)
4.3.2檢驗(yàn)殘差
4.4參數(shù)調(diào)整優(yōu)化模型
4.4.1機(jī)器學(xué)習(xí)算法和它們的調(diào)整參數(shù)
4.4.2網(wǎng)格搜索
4.5總結(jié)
4.6本章術(shù)語
第5章基礎(chǔ)特征工程
5.1動(dòng)機(jī):為什么特征工程很有用
5.1.1什么是特征工程
5.1.2使用特征工程的5個(gè)原因
5.1.3特征工程與領(lǐng)域?qū)I(yè)知識(shí)
5.2基本特征工程過程
5.2.1實(shí)例:事件推薦
5.2.2處理日期和時(shí)間特征
5.2.3處理簡(jiǎn)單文本特征
5.3特征選擇
5.3.1前向選擇和反向消除
5.3.2數(shù)據(jù)探索的特征選擇
5.3.3實(shí)用特征選擇實(shí)例
5.4總結(jié)
5.5本章術(shù)語
第2部分實(shí) 際 應(yīng) 用
第6章案例:NYC出租車數(shù)據(jù)
6.1數(shù)據(jù):NYC出租車旅程和收費(fèi)信息
6.1.1數(shù)據(jù)可視化
6.1.2定義問題并準(zhǔn)備數(shù)據(jù)
6.2建模
6.2.1基本線性模型
6.2.2非線性分類器
6.2.3包含分類特征
6.2.4包含日期-時(shí)間特征
6.2.5模型的啟示
6.3總結(jié)
6.4本章術(shù)語
第7章高級(jí)特征工程
7.1高級(jí)文本特征
7.1.1詞袋模型
7.1.2主題建模
7.1.3內(nèi)容拓展
7.2圖像特征
7.2.1簡(jiǎn)單圖像特征
7.2.2提取物體和形狀
7.3時(shí)間序列特征
7.3.1時(shí)間序列數(shù)據(jù)的類型
7.3.2時(shí)間序列數(shù)據(jù)的預(yù)測(cè)
7.3.3經(jīng)典時(shí)間序列特征
7.3.4事件流的特征工程
7.4總結(jié)
7.5本章術(shù)語
第8章NLP高級(jí)案例:電影評(píng)論情感預(yù)測(cè)
8.1研究數(shù)據(jù)和應(yīng)用場(chǎng)景
8.1.1數(shù)據(jù)集初探
8.1.2檢查數(shù)據(jù)
8.1.3應(yīng)用場(chǎng)景有哪些
8.2提取基本NLP特征并構(gòu)建初始模型
8.2.1詞袋特征
8.2.2用樸素貝葉斯算法構(gòu)建模型
8.2.3tf-idf算法規(guī)范詞袋特征
8.2.4優(yōu)化模型參數(shù)
8.3高級(jí)算法和模型部署的考慮
8.3.1word2vec特征
8.3.2隨機(jī)森林模型
8.4總結(jié)
8.5本章術(shù)語
第9章擴(kuò)展機(jī)器學(xué)習(xí)流程
9.1擴(kuò)展前需考慮的問題
9.1.1識(shí)別關(guān)鍵點(diǎn)
9.1.2選取訓(xùn)練數(shù)據(jù)子樣本代替擴(kuò)展性
9.1.3可擴(kuò)展的數(shù)據(jù)管理系統(tǒng)
9.2機(jī)器學(xué)習(xí)建模流程擴(kuò)展
9.3預(yù)測(cè)擴(kuò)展
9.3.1預(yù)測(cè)容量擴(kuò)展
9.3.2預(yù)測(cè)速度擴(kuò)展
9.4總結(jié)
9.5本章術(shù)語
第10章案例:數(shù)字顯示廣告
10.1顯示廣告
10.2數(shù)字廣告數(shù)據(jù)
10.3特征工程和建模策略
10.4數(shù)據(jù)大小和形狀
10.5奇異值分解
10.6資源估計(jì)和優(yōu)化
10.7建模
10.8K近鄰算法
10.9隨機(jī)森林算法
10.10其他實(shí)用考慮
10.11總結(jié)
10.12本章術(shù)語
10.13摘要和結(jié)論
附錄常用機(jī)器學(xué)習(xí)算法
名詞術(shù)語中英文對(duì)照