機器學(xué)習(xí):從基礎(chǔ)理論到典型算法(原書第2版)
定 價:119 元
叢書名:智能科學(xué)與技術(shù)叢書
- 作者:[美]梅爾亞·莫里,[美]阿夫欣·羅斯塔米扎達爾,[美]阿米特·塔爾沃卡爾
- 出版時間:2022/7/1
- ISBN:9787111708940
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:TP181
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
本書是機器學(xué)習(xí)領(lǐng)域內(nèi)一部具有里程碑意義的著作。包括哥倫比亞大學(xué)、北京大學(xué)在內(nèi)的多個國內(nèi)外名校均有以該書為基礎(chǔ)開設(shè)的研究生課程。全書內(nèi)容豐富,視野寬闊,深入淺出地介紹了目前機器學(xué)習(xí)重要的理論和關(guān)鍵的算法。
本書是關(guān)于機器學(xué)習(xí)的概述,適合作為該領(lǐng)域?qū)W生和研究人員的教科書。本書涵蓋機器學(xué)習(xí)領(lǐng)域的基本內(nèi)容,并且提供討論及檢驗算法合理性所必需的理論基礎(chǔ)和概念工具。不僅如此,本書還描述了應(yīng)用相關(guān)算法時需要考慮的若干關(guān)鍵問題。
本書旨在介紹最新的理論和概念,并且對于相對先進的結(jié)果給出簡要的證明?傮w而言,我們盡可能使全書敘述簡潔。盡管如此,我們也會討論機器學(xué)習(xí)中出現(xiàn)的一些重要且復(fù)雜的主題,指出若干開放的研究問題。對于那些常常與其他主題合并或者未引起足夠關(guān)注的主題,本書將單獨著重討論,例如,將多分類、排序和回歸分別用一章來講解。
盡管本書覆蓋機器學(xué)習(xí)中很多重要的主題,但是出于簡略且因目前缺乏針對一些方法的堅實的理論保證,未能覆蓋圖模型和神經(jīng)網(wǎng)絡(luò)這兩個重要主題。
本書主要面向機器學(xué)習(xí)、統(tǒng)計和其他相關(guān)領(lǐng)域的學(xué)生與研究人員,適合作為研究生和高年級本科生課程的教科書,或者學(xué)術(shù)研討會的參考資料。本書前三四章為后續(xù)材料奠定理論基礎(chǔ),第6章引入一些被后面章節(jié)廣泛使用的概念來完善理論,第13章與第12章密切相關(guān),而其余各章大多自成體系。我們在每章最后給出一套習(xí)題,并單獨給出完整的解答。
我們假定本書的讀者熟悉線性代數(shù)、概率和算法分析的基本概念。但是,為了進一步輔助學(xué)習(xí),我們在附錄中會簡要回顧線性代數(shù)和概率的相關(guān)知識,給出凸優(yōu)化和信息論的簡介,并且匯總本書分析和討論中常用的集中不等式。
不少著作在介紹機器學(xué)習(xí)時從貝葉斯角度或者核方法等特定主題具體展開,而本書的不同之處在于提供了適用于多個機器學(xué)習(xí)主題和領(lǐng)域的統(tǒng)一介紹。此外,本書的特色還在于對機器學(xué)習(xí)理論基礎(chǔ)的深入剖析,并給出詳細的證明。
這是本書的第2版,我們對全書內(nèi)容進行了更新。主要修改之處包括:書寫風(fēng)格調(diào)整、示意圖新增、表述簡化、內(nèi)容補充(特別是第6章和第17章)、章節(jié)新增等。具體而言,我們增加了一整章來介紹模型選擇(第4章)這一重要主題,對上一版中的相關(guān)內(nèi)容進行了拓展。我們也增加了兩個全新的章節(jié)分別介紹機器學(xué)習(xí)中的兩個重要主題:最大熵模型(第12章)和條件最大熵模型(第13章)。我們還對附錄進行了大幅調(diào)整。在附錄B中,詳述了凸優(yōu)化中的Fenchel對偶性。在附錄D中,補充介紹了大量相關(guān)的集中不等式。在附錄E中,新增了關(guān)于信息論的內(nèi)容。此外,這一版對每章的習(xí)題和解答也進行了大量的更新。
這里所介紹的大部分材料來自機器學(xué)習(xí)研究生課程(機器學(xué)習(xí)基礎(chǔ)),在過去14年中,該課程由本書第一作者在紐約大學(xué)庫朗數(shù)學(xué)科學(xué)研究所講授。本書極大地受益于該課程的學(xué)生、朋友、同事和研究人員所提出的寶貴意見與建議,在此對他們深表感激。
我們特別感謝Corinna Cortes和Yishay Mansour對于本書第1版內(nèi)容的設(shè)計與組織提出的許多重要建議,包括大量詳細的注釋。我們充分考慮了他們的建議,這對于改進全書幫助很大。此外,還要感謝Yishay Mansour用本書的最初版本進行教學(xué),并向我們積極反饋。
我們還要感謝來自學(xué)術(shù)界和企業(yè)界研究實驗室的同事與朋友所給予的討論、建議和貢獻,他們是:Jacob Abernethy、Cyril Allauzen、Kareem Amin、Stephen Boyd、Aldo Corbisiero、Giulia DeSalvo、Claudio Gentile、Spencer Greenberg、Lisa Hellerstein、Sanjiv Kumar、Vitaly Kuznetsov、Ryan McDonald、Andrès Muoz Medina、Tyler Neylon、Peter Norvig、Fernando Pereira、Maria Pershina、Borja de Balle Pigem、Ashish Rastogi、Michael Riley、Dmitry Storcheus、Ananda Theertha Suresh、Umar Syed、Csaba Szepesvri、Toshiyuki Tanaka、Eugene Weinstein、Jason Weston、Scott Yang和Ningshan Zhang。
最后,我們還要感謝MIT出版社對本書所給予的幫助和支持。
譯者序
前言
第1章 引言1
1.1 什么是機器學(xué)習(xí)1
1.2 機器學(xué)習(xí)可以解決什么樣的問題2
1.3 一些典型的學(xué)習(xí)任務(wù)2
1.4 學(xué)習(xí)階段3
1.5 學(xué)習(xí)情境4
1.6 泛化5
第2章 PAC學(xué)習(xí)框架7
2.1 PAC學(xué)習(xí)模型7
2.2 對有限假設(shè)集的學(xué)習(xí)保證——一致的情況11
2.3 對有限假設(shè)集的學(xué)習(xí)保證——不一致的情況14
2.4 泛化性16
2.4.1 確定性與隨機性情境16
2.4.2 貝葉斯誤差與噪聲17
2.5 文獻評注18
2.6 習(xí)題18
第3章 Rademacher復(fù)雜度和VC-維23
3.1 Rademacher復(fù)雜度23
3.2 生長函數(shù)27
3.3 VC-維28
3.4 下界34
3.5 文獻評注38
3.6 習(xí)題39
第4章 模型選擇46
4.1 估計誤差和近似誤差46
4.2 經(jīng)驗風(fēng)險最小化47
4.3 結(jié)構(gòu)風(fēng)險最小化47
4.4 交叉驗證50
4.5 n-折交叉驗證52
4.6 基于正則化的算法53
4.7 凸替換項損失54
4.8 文獻評注57
4.9 習(xí)題58
第5章 支持向量機59
5.1 線性分類59
5.2 可分情況60
5.2.1 原始優(yōu)化問題60
5.2.2 支持向量61
5.2.3 對偶優(yōu)化問題62
5.2.4 留一法63
5.3 不可分情況64
5.3.1 原始優(yōu)化問題65
5.3.2 支持向量66
5.3.3 對偶優(yōu)化問題67
5.4 間隔理論67
5.5 文獻評注74
5.6 習(xí)題74
第6章 核方法77
6.1 引言77
6.2 正定對稱核79
6.2.1 定義79
6.2.2 再生核希爾伯特空間81
6.2.3 性質(zhì)82
6.3 基于核的算法85
6.3.1 具有PDS核的SVM85
6.3.2 表示定理86
6.3.3 學(xué)習(xí)保證87
6.4 負定對稱核88
6.5 序列核90
6.5.1 加權(quán)轉(zhuǎn)換器90
6.5.2 有理核93
6.6 近似核特征映射96
6.7 文獻評注100
6.8 習(xí)題100
第7章 boosting106
7.1 引言106
7.2 AdaBoost算法107
7.2.1 經(jīng)驗誤差的界109
7.2.2 與坐標下降的關(guān)系110
7.2.3 實踐中的使用方式112
7.3 理論結(jié)果113
7.3.1 基于VC-維的分析113
7.3.2 L1-幾何間隔113
7.3.3 基于間隔的分析115
7.3.4 間隔最大化118
7.3.5 博弈論解釋119
7.4 L1-正則化120
7.5 討論122
7.6 文獻評注122
7.7 習(xí)題124
第8章 在線學(xué)習(xí)129
8.1 引言129
8.2 有專家建議的預(yù)測130
8.2.1 錯誤界和折半算法130
8.2.2 加權(quán)多數(shù)算法131
8.2.3 隨機加權(quán)多數(shù)算法132
8.2.4 指數(shù)加權(quán)平均算法135
8.3 線性分類137
8.3.1 感知機算法137
8.3.2 Winnow算法143
8.4 在線到批處理的轉(zhuǎn)換145
8.5 與博弈論的聯(lián)系147
8.6 文獻評注148
8.7 習(xí)題149
第9章 多分類153
9.1 多分類問題153
9.2 泛化界154
9.3 直接型多分類算法159
9.3.1 多分類SVM159
9.3.2 多分類boosting算法160
9.3.3 決策樹161
9.4 類別分解型多分類算法164
9.4.1 一對多164
9.4.2 一對一165
9.4.3 糾錯輸出編碼166
9.5 結(jié)構(gòu)化預(yù)測算法168
9.6 文獻評注169
9.7 習(xí)題170
第10章 排序172
10.1 排序問題172
10.2 泛化界173
10.3 使用SVM進行排序175
10.4 RankBoost176
10.4.1 經(jīng)驗誤差界178
10.4.2 與坐標下降的關(guān)系179
10.4.3 排序問題集成算法的間隔界180
10.5 二部排序181
10.5.1 二部排序中的boosting算法182
10.5.2 ROC曲線下面積184
10.6 基于偏好的情境184
10.6.1 兩階段排序問題185
10.6.2 確定性算法186
10.6.3 隨機性算法187
10.6.4 關(guān)于其他損失函數(shù)的擴展188
10.7 其他的排序準則189
10.8 文獻評注189
10.9 習(xí)題190
第11章 回歸191
11.1 回歸問題191
11.2 泛化界192
11.2.1 有限假設(shè)集192
11.2.2 Rademacher復(fù)雜度界193
11.2.3 偽維度界194
11.3 回歸算法196
11.3.1 線性回歸196
11.3.2 核嶺回歸198
11.3.3 支持向量回歸201
11.3.4 Lasso204
11.3.5 組范數(shù)回歸算法206
11.3.6 在線回歸算法207
11.4 文獻評注207
11.5 習(xí)題208
第12章 最大熵模型210
12.1 密度估計問題210
12.1.1 最大似然解210
12.1.2 最大后驗解211
12.2 添加特征的密度估計問題212
12.3 最大熵準則212
12.4 最大熵模型簡介213
12.5 對偶問題213
12.6 泛化界216
12.7 坐標下降算法217
12.8 拓展218
12.9 L2-正則化220
12.10 文獻評注222
12.11 習(xí)題223
第13章 條件最大熵模型224
13.1 學(xué)習(xí)問題224
13.2 條件最大熵準則224
13.3 條件最大熵模型簡介225
13.4 對偶問題226
13.5 性質(zhì)227
13.5.1 優(yōu)化問題227
13.5.2 特征向量228
13.5.3 預(yù)測228
13.6 泛化界228
13.7 邏輯回歸231
13.7.1 優(yōu)化問題231
13.7.2 邏輯模型231
13.8 L2-正則232
13.9 對偶定理的證明23