深度強(qiáng)化學(xué)習(xí)落地指南
定 價(jià):109 元
- 作者:魏寧
- 出版時(shí)間:2021/8/1
- ISBN:9787121416446
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP181-62
- 頁碼:202
- 紙張:
- 版次:01
- 開本:16K
本書從工業(yè)界一線算法工作者的視角,對深度強(qiáng)化學(xué)習(xí)落地實(shí)踐中的工程經(jīng)驗(yàn)和相關(guān)方法論做出了深度思考和系統(tǒng)歸納。本書跳出了原理介紹加應(yīng)用案例的傳統(tǒng)敘述模式,轉(zhuǎn)而在橫向上對深度強(qiáng)化學(xué)習(xí)落地過程中的核心環(huán)節(jié)進(jìn)行了完整復(fù)盤。主要內(nèi)容包括需求分析和算法選擇的方法,動作空間、狀態(tài)空間和回報(bào)函數(shù)設(shè)計(jì)的理念,訓(xùn)練調(diào)試和性能沖刺的技巧等。本書既是前人智慧與作者個(gè)人經(jīng)驗(yàn)的交叉印證和精心整合,又構(gòu)成了從理論到實(shí)踐再到統(tǒng)一方法論的認(rèn)知閉環(huán),與市面上側(cè)重于算法原理和代碼實(shí)現(xiàn)的強(qiáng)化學(xué)習(xí)書籍形成了完美互補(bǔ)。
魏 寧本科和碩士分別畢業(yè)于西安交通大學(xué)和中國科學(xué)院大學(xué)計(jì)算機(jī)專業(yè),在國際頂級會議和期刊上發(fā)表多篇學(xué)術(shù)論文,曾就職于德國KUKA Robotics從事協(xié)作機(jī)器人智能應(yīng)用研發(fā)工作,目前在?低曆芯吭喝嗡惴▽<,負(fù)責(zé)深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等領(lǐng)域的創(chuàng)新研究和落地應(yīng)用,同時(shí)也是互聯(lián)網(wǎng)社區(qū)“深度強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室”核心成員。
第1章 需求分析 1
1.1 需求分析:勿做DRL鐵錘人 1
1.2 一問“是不是” 2
1.2.1 Agent和環(huán)境定義 2
1.2.2 馬爾可夫決策過程和強(qiáng)化學(xué)習(xí) 3
1.3 二問“值不值” 5
1.3.1 試試規(guī)則和啟發(fā)式搜索 5
1.3.2 別忘了傳統(tǒng)強(qiáng)化學(xué)習(xí) 7
1.3.3 使用DRL的理由 7
1.4 三問“能不能” 9
1.4.1 場景固定:兩個(gè)分布一致 9
1.4.2 數(shù)據(jù)廉價(jià):多、快、好、費(fèi) 13
1.5 四問“邊界在哪里” 16
1.6 本章小結(jié) 18
參考文獻(xiàn) 19
第2章 動作空間設(shè)計(jì) 23
2.1 動作空間設(shè)計(jì):這里大有可為 23
2.1.1 被忽視的價(jià)值 23
2.1.2 動作空間的常見類型 24
2.1.3 動作空間設(shè)計(jì)的基本原則 26
2.2 動作空間的完備性 26
2.2.1 功能完備 27
2.2.2 時(shí)效完備 29
2.3 動作空間的高效性 30
2.3.1 化整為零:以精度換效率 31
2.3.2 有機(jī)組合:尺度很重要 33
2.4 動作空間的合法性 35
2.4.1 非法動作屏蔽機(jī)制 36
2.4.2 Agent的知情權(quán) 37
2.5 本章小結(jié) 39
參考文獻(xiàn) 40
第3章 狀態(tài)空間設(shè)計(jì) 43
3.1 狀態(tài)空間設(shè)計(jì):特征工程的誘惑 43
3.2 狀態(tài)空間設(shè)計(jì)的兩種常見誤區(qū) 44
3.2.1 過分依賴端到端特征學(xué)習(xí) 44
3.2.2 極致特征工程 44
3.3 與動作空間和回報(bào)函數(shù)的協(xié)同設(shè)計(jì) 45
3.3.1 與動作空間尺度一致 45
3.3.2 以回報(bào)函數(shù)為中心 46
3.4 狀態(tài)空間設(shè)計(jì)的四個(gè)步驟 47
3.4.1 任務(wù)分析 47
3.4.2 相關(guān)信息篩選 49
3.4.3 泛化性考量 53
3.4.4 效果驗(yàn)證 58
3.5 本章小結(jié) 61
參考文獻(xiàn) 62
第4章 回報(bào)函數(shù)設(shè)計(jì) 64
4.1 回報(bào)函數(shù)設(shè)計(jì):面向強(qiáng)化學(xué)習(xí)的編程 64
4.2 稀疏回報(bào)問題 65
4.2.1 孤獨(dú)無援的主線回報(bào) 65
4.2.2 稀疏回報(bào)問題的本質(zhì) 66
4.3 輔助回報(bào) 67
4.3.1 子目標(biāo)回報(bào) 67
4.3.2 塑形回報(bào) 70
4.3.3 內(nèi)驅(qū)回報(bào) 76
4.3.4 回報(bào)取值的注意事項(xiàng) 77
4.4 回報(bào)函數(shù)設(shè)計(jì)的常見陷阱 78
4.4.1 魯莽 79
4.4.2 貪婪 80
4.4.3 懦弱 82
4.5 最優(yōu)回報(bào)問題 83
4.6 基于學(xué)習(xí)的回報(bào)函數(shù) 84
4.6.1 經(jīng)典方法 84
4.6.2 前沿方法 85
4.7 本章小結(jié) 87
參考文獻(xiàn) 88
第5章 算法選擇 92
5.1 算法選擇:拿來主義和改良主義 92
5.1.1 DRL算法的發(fā)展脈絡(luò) 92
5.1.2 一篩、二比、三改良 94
5.1.3 從獨(dú)當(dāng)一面到眾星捧月 96
5.2 牢記經(jīng)典勿忘本 97
5.2.1 DQN 98
5.2.2 DDPG 99
5.2.3 A3C 102
5.3 關(guān)注SOTA算法別留戀 105
5.3.1 TD3 105
5.3.2 SAC 107
5.3.3 PPO 110
5.4 其他算法 112
5.5 本章小結(jié) 113
參考文獻(xiàn) 113
第6章 訓(xùn)練調(diào)試 119
6.1 訓(xùn)練調(diào)試:此事要躬行 119
6.2 訓(xùn)練前的準(zhǔn)備工作 120
6.2.1 制定訓(xùn)練方案 120
6.2.2 選擇網(wǎng)絡(luò)結(jié)構(gòu) 124
6.2.3 隨機(jī)漫步 128
6.2.4 數(shù)據(jù)預(yù)處理 129
6.3 訓(xùn)練進(jìn)行時(shí) 131
6.3.1 反脆弱:擁抱不確定性 131
6.3.2 調(diào)節(jié)超參數(shù) 134
6.3.3 監(jiān)控訓(xùn)練狀態(tài) 143
6.4 給初學(xué)者的建議 146
6.5 本章小結(jié) 148
參考文獻(xiàn) 149
第7章 性能沖刺 154
7.1 性能沖刺:為DRL注入強(qiáng)心劑 154
7.2 課程學(xué)習(xí) 155
7.2.1 源任務(wù)及其分類 155
7.2.2 應(yīng)用方式 157
7.3 額外監(jiān)督信號 162
7.3.1 有監(jiān)督預(yù)訓(xùn)練 163
7.3.2 輔助任務(wù) 164
7.4 進(jìn)化策略 169
7.4.1 基本原理 169
7.4.2 關(guān)鍵細(xì)節(jié) 170
7.4.3 應(yīng)用方式 174
7.5 本章小結(jié) 175
參考文獻(xiàn) 176