統(tǒng)計強化學(xué)習(xí):現(xiàn)代機器學(xué)習(xí)方法
定 價:79 元
叢書名:智能科學(xué)與技術(shù)叢書
- 作者:[日]杉山將(Masashi Sugiyama)
- 出版時間:2019/5/1
- ISBN:9787111622451
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:TP181
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
本書從現(xiàn)代機器學(xué)習(xí)的視角介紹了統(tǒng)計強化學(xué)習(xí)的基本概念和實用算法。它涵蓋了各種類型的強化學(xué)習(xí)方法,包括基于模型的方法和與模型無關(guān)的方法,策略迭代和策略搜索方法。
在即將到來的大數(shù)據(jù)時代,統(tǒng)計學(xué)與機器學(xué)習(xí)正成為數(shù)據(jù)挖掘不可或缺的工具。根據(jù)數(shù)據(jù)分析的類型,機器學(xué)習(xí)方法分為三類:
●監(jiān)督學(xué)習(xí):給定輸入和輸出的數(shù)據(jù),監(jiān)督學(xué)習(xí)的目標(biāo)是分析輸入、輸出數(shù)據(jù)之間的關(guān)系。監(jiān)督學(xué)習(xí)典型的任務(wù)包括回歸(預(yù)測真實取值)、分類(預(yù)測類別)以及排序(預(yù)測順序)。監(jiān)督學(xué)習(xí)是最常用的數(shù)據(jù)分析工具,并且已經(jīng)在統(tǒng)計學(xué)領(lǐng)域被研究了很長時間。監(jiān)督學(xué)習(xí)在機器學(xué)習(xí)中近期的趨勢是利用輸入、輸出數(shù)據(jù)的輔助信息來進一步改善預(yù)測的精度。例如,半監(jiān)督學(xué)習(xí)利用額外的輸入數(shù)據(jù),遷移學(xué)習(xí)借用來自其他相似學(xué)習(xí)任務(wù)的數(shù)據(jù),多任務(wù)學(xué)習(xí)同時解決多個相關(guān)學(xué)習(xí)任務(wù)。
●無監(jiān)督學(xué)習(xí):僅給定輸入數(shù)據(jù),無監(jiān)督學(xué)習(xí)的目標(biāo)是在數(shù)據(jù)中找到有用的東西。由于這種模糊的定義,無監(jiān)督學(xué)習(xí)研究往往比監(jiān)督學(xué)習(xí)更具特色。然而,由于其自動化以及廉價的特性,無監(jiān)督學(xué)習(xí)被認為是數(shù)據(jù)挖掘中最重要的工具之一。無監(jiān)督學(xué)習(xí)典型的任務(wù)包括聚類(根據(jù)數(shù)據(jù)的相似性進行數(shù)據(jù)分組)、密度估計(估計數(shù)據(jù)背后的概率分布)、異常檢測(從數(shù)據(jù)中刪除異常值)、數(shù)據(jù)可視化(將數(shù)據(jù)的維度降到1~3維)和盲源分離(從混合數(shù)據(jù)中提取原始源信號)。此外,無監(jiān)督學(xué)習(xí)方法有時被用作監(jiān)督學(xué)習(xí)中數(shù)據(jù)預(yù)處理的工具。
●強化學(xué)習(xí):監(jiān)督學(xué)習(xí)是一種合理的方法,但收集輸入、輸出數(shù)據(jù)通常過于昂貴。無監(jiān)督學(xué)習(xí)的執(zhí)行成本低廉,但往往是臨時性的。強化學(xué)習(xí)介于監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)之間——沒有提供明確的監(jiān)督(輸出數(shù)據(jù)),但我們?nèi)匀幌雽W(xué)習(xí)數(shù)據(jù)背后的輸入、輸出關(guān)系。強化學(xué)習(xí)不是輸出數(shù)據(jù),而是利用獎賞來評估所預(yù)測的輸出的有效性。提供諸如獎賞之類的隱性監(jiān)督通常比提供明確監(jiān)督更容易,成本更低,因此強化學(xué)習(xí)可以成為現(xiàn)代數(shù)據(jù)分析的重要方法。在強化學(xué)習(xí)的框架中也使用各種監(jiān)督和無監(jiān)督學(xué)習(xí)技術(shù)。
本書致力于從現(xiàn)代機器學(xué)習(xí)的角度介紹統(tǒng)計強化學(xué)習(xí)的基本概念和實用算法。還提供了各種圖解說明示例——這些示例主要來自機器人領(lǐng)域,幫助讀者理解強化學(xué)習(xí)技術(shù)的直觀性和實用性。目標(biāo)讀者是計算機科學(xué)和應(yīng)用統(tǒng)計學(xué)的研究生以及相關(guān)領(lǐng)域的研究人員和工程師。假設(shè)讀者具備概率和統(tǒng)計學(xué)、線性代數(shù)以及初等微積分的基礎(chǔ)知識。
機器學(xué)習(xí)是一個快速發(fā)展的科學(xué)領(lǐng)域,希望本書能夠幫助讀者了解強化學(xué)習(xí)中的各種激動人心的話題,激發(fā)讀者對機器學(xué)習(xí)的興趣。請瀏覽我們的網(wǎng)站:http://www.ms.k.u-tokyo.ac.jp。
致謝
感謝合作者Hirotaka Hachiya、Sethu Vijayakumar、Jan Peters、Jun Morimoto、Zhao Tingting、Ning Xie、Voot Tangkaratt、Tetsuro Morimura和Norikazu Sugimoto激動人心的創(chuàng)意討論。感謝MEXT KAKENHI (17700142、18300057、20680007、23120004、23300069、25700022和26280054)、大川基金會、歐盟Erasmus Mundus獎學(xué)金、AOARD、SCAT、JST PRESTO計劃以及FIRST計劃的支持。
Masashi Sugiyama
日本東京大學(xué)
杉山將(Masashi Sugiyama) 東京大學(xué)教授,研究興趣為機器學(xué)習(xí)與數(shù)據(jù)挖掘的理論、算法和應(yīng)用。2007年獲得IBM學(xué)者獎,以表彰其在機器學(xué)習(xí)領(lǐng)域非平穩(wěn)性方面做出的貢獻。2011年獲得日本信息處理協(xié)會頒發(fā)的Nagao特別研究員獎,以及日本文部科學(xué)省頒發(fā)的青年科學(xué)家獎,以表彰其對機器學(xué)習(xí)密度比范型的貢獻。
譯者序
序
前言
作者簡介
第一部分 簡介
第1章 強化學(xué)習(xí)介紹3
1.1 強化學(xué)習(xí)3
1.2 數(shù)學(xué)形式化8
1.3 本書結(jié)構(gòu)11
1.3.1 模型無關(guān)策略迭代11
1.3.2 模型無關(guān)策略搜索12
1.3.3 基于模型的強化學(xué)習(xí)13
第二部分 模型無關(guān)策略迭代
第2章 基于值函數(shù)近似的策略迭代17
2.1 值函數(shù)17
2.1.1 狀態(tài)值函數(shù)17
2.1.2 狀態(tài)-動作值函數(shù)18
2.2 最小二乘策略迭代19
2.2.1 瞬時獎賞回歸20
2.2.2 算法21
2.2.3 正則化23
2.2.4 模型選擇25
2.3 本章小結(jié)26
第3章 值函數(shù)近似中的基函數(shù)設(shè)計27
3.1 圖中的高斯核27
3.1.1 MDP-誘導(dǎo)圖27
3.1.2 通用高斯核28
3.1.3 測地線高斯核29
3.1.4 擴展到連續(xù)狀態(tài)空間30
3.2 圖解說明30
3.2.1 配置30
3.2.2 測地線高斯核31
3.2.3 通用高斯核33
3.2.4 圖拉普拉斯特征基33
3.2.5 擴散小波35
3.3 數(shù)值示例35
3.3.1 機器人手臂控制35
3.3.2 機器人導(dǎo)航39
3.4 本章小結(jié)46
第4章 策略迭代中的樣本重用47
4.1 形式化47
4.2 離策略值函數(shù)近似48
4.2.1 片段重要性加權(quán)49
4.2.2 每次決策的重要性加權(quán)50
4.2.3 自適應(yīng)的每次決策重要性加權(quán)50
4.2.4 圖解說明51
4.3 展平參數(shù)的自動選擇54
4.3.1 重要性加權(quán)交叉驗證54
4.3.2 圖解說明55
4.4 樣本重用策略迭代56
4.4.1 算法56
4.4.2 圖解說明56
4.5 數(shù)值示例58
4.5.1 倒立擺58
4.5.2 小車爬山61
4.6 本章小結(jié)64
第5章 策略迭代中的主動學(xué)習(xí)65
5.1 主動學(xué)習(xí)的高效探索65
5.1.1 問題配置65
5.1.2 泛化誤差的分解66
5.1.3 估計泛化誤差67
5.1.4 設(shè)計采樣策略68
5.1.5 圖解說明69
5.2 主動策略迭代72
5.2.1 具有主動學(xué)習(xí)的樣本重用策略迭代72
5.2.2 圖解說明73
5.3 數(shù)值示例74
5.4 本章小結(jié)76
第6章 魯棒策略迭代79
6.1 策略迭代中的魯棒性和可靠性79
6.1.1 魯棒性79
6.1.2 可靠性80
6.2 最小絕對策略迭代81
6.2.1 算法81
6.2.2 圖解說明81
6.2.3 性質(zhì)82
6.3 數(shù)值示例83
6.4 可能的拓展88
6.4.1 Huber損失88
6.4.2 pinball損失89
6.4.3 deadzone-linear損失90
6.4.4 切比雪夫逼近90
6.4.5 條件風(fēng)險值91
6.5 本章小結(jié)92
第三部分 模型無關(guān)策略搜索
第7章 梯度上升的直接策略搜索95
7.1 形式化95
7.2 梯度方法96
7.2.1 梯度上升96
7.2.2 方差約簡的基線減法98
7.2.3 梯度估計量的方差分析99
7.3 自然梯度法101
7.3.1 自然梯度上升101
7.3.2 圖解說明103
7.4 計算機圖形中的應(yīng)用:藝術(shù)家智能體104
7.4.1 東方山水畫繪畫104
7.4.2 狀態(tài)、動作和瞬時獎賞的設(shè)計106
7.4.3 實驗結(jié)果111
7.5 本章小結(jié)113
第8章 期望最大化的直接策略搜索117
8.1 期望最大化方法117
8.2 樣本重用119
8.2.1 片段重要性加權(quán)119
8.2.2 每次決策的重要性加權(quán)122
8.2.3 自適應(yīng)的每次決策重要性加權(quán)123
8.2.4 展平參數(shù)的自動選擇123
8.2.5 樣本重用的加權(quán)獎賞回歸125
8.3 數(shù)值示例125
8.4 本章小結(jié)131
第9章 策略優(yōu)先搜索133
9.1 形式化133
9.2 基于參數(shù)探索的策略梯度134
9.2.1 策略優(yōu)先的梯度上升134
9.2.2 方差約簡的基線減法135
9.2.3 梯度估計量的方差分析136
9.2.4 數(shù)值示例138
9.3 策略優(yōu)先搜索中的樣本重用142
9.3.1 重要性加權(quán)142
9.3.2 基線減法的方差約簡144
9.3.3 數(shù)值示例146
9.4 本章小結(jié)153
第四部分 基于模型的強化學(xué)習(xí)
第10章 轉(zhuǎn)移模型估計157
10.1 條件密度估計157
10.1.1 基于回歸的方法157
10.1.2 ε-鄰域核密度估計158
10.1.3 最小二乘條件密度估計159
10.2 基于模型的強化學(xué)習(xí)161
10.3 數(shù)值示例162
10.3.1 連續(xù)型鏈條游走162
10.3.2 人形機器人控制167
10.4 本章小結(jié)171
第11章 轉(zhuǎn)移模型估計的維度約簡173
11.1 充分維度約簡173
11.2 平方損失條件熵173
11.2.1 條件獨立174
11.2.2 利用SCE進行維度約簡175
11.2.3 SCE與平方損失互信息的關(guān)系176
11.3 數(shù)值示例176
11.3.1 人工和標(biāo)準(zhǔn)數(shù)據(jù)集176
11.3.2 人形機器人179
11.4 本章小結(jié)182
參考文獻183