目錄
《智能科學(xué)技術(shù)著作叢書》序
前言
第1章 緒論 1
1.1 概念與內(nèi)涵 2
1.2 國內(nèi)外研究現(xiàn)狀與發(fā)展趨勢 5
1.2.1 國內(nèi)外研究現(xiàn)狀 5
1.2.2 發(fā)展趨勢分析 11
1.3 《星際爭霸》AI比賽 11
1.4 小結(jié) 13
思考題 14
第2章 多智能即時策略對抗基礎(chǔ) 15
2.1 多智能體即時策略對抗形式化描述 16
2.2 多智能體強化學(xué)習(xí)基礎(chǔ) 18
2.2.1 完全合作任務(wù)算法 22
2.2.2 完全競爭任務(wù)算法 24
2.2.3 混合競爭與合作任務(wù)算法 26
2.3 解決方法 29
2.3.1 基于知識驅(qū)動的啟發(fā)式方法 30
2.3.2 基于數(shù)據(jù)驅(qū)動的學(xué)習(xí)方法 31
2.4 強化學(xué)習(xí)算法研究流程 33
2.5 即時策略對抗研究環(huán)境 34
2.6 對抗場景與算法性能基準 39
2.7 小結(jié) 41
思考題 42
第3章 多智能體雙向協(xié)調(diào)網(wǎng)絡(luò) 43
3.1 算法架構(gòu) 44
3.2 訓(xùn)練方法 48
3.3 實驗設(shè)計與結(jié)果分析 49
3.4 小結(jié) 54
思考題 54
第4章 反事實多智能體策略梯度 55
4.1 算法架構(gòu) 56
4.2 學(xué)習(xí)算法 58
4.3 實驗設(shè)計與結(jié)果分析 62
4.4 小結(jié) 64
思考題 64
第5章 共享參數(shù)多智能體策略下降Sarsa(λ)算法 65
5.1 算法架構(gòu) 66
5.2 訓(xùn)練方法 70
5.3 實驗設(shè)計與結(jié)果分析 72
5.4 小結(jié) 73
思考題 74
第6章 進化策略算法 75
6.1 進化策略 75
6.2 基于進化策略的多智能體動作策略模型 78
6.3 實驗設(shè)計與結(jié)果分析 81
6.4 小結(jié) 85
思考題 85
第7章 《星際爭霸》AI研究環(huán)境搭建 86
7.1 Anaconda與PyCharm工具 86
7.2 《星際爭霸》AI研究環(huán)境搭建方式一:Win-Linux模式 88
7.2.1 Windows 服務(wù)器端安裝 88
7.2.2 Linux 客戶端安裝 89
7.2.3 運行示例代碼測試環(huán)境安裝的正確性 91
7.3 《星際爭霸》AI研究環(huán)境搭建方式二:單Linux模式 92
7.3.1 基于Linux 的環(huán)境搭建 93
7.3.2 運行示例代碼測試環(huán)境安裝的正確性 94
7.4 小結(jié) 95
思考題 95
第8章 《星際爭霸》即時策略對抗AI開發(fā)基礎(chǔ) 96
8.1 Gym接口規(guī)范 96
8.2 基于Gym接口規(guī)范的《星際爭霸》對抗環(huán)境開發(fā) 97
8.3 最簡單的多智能體對抗策略實例—隨機攻擊 100
8.4 小結(jié) 108
思考題 108
第9章 基于知識驅(qū)動的啟發(fā)式策略開發(fā)實戰(zhàn) 109
9.1 《星際爭霸》Gym環(huán)境設(shè)計 109
9.2 攻擊最近敵方策略設(shè)計 114
9.3 攻擊最弱最近敵方策略設(shè)計 115
9.4 實驗設(shè)計與結(jié)果分析 116
9.4.1 不同決策頻率對勝率的影響 117
9.4.2 不同初始陣型對勝率的影響 118
9.4.3 不同對戰(zhàn)規(guī)模對勝率的影響 119
9.4.4 不同策略間相互對抗勝率 119
9.5 小結(jié) 120
思考題 120
第10章 多智能體強化學(xué)習(xí)方法開發(fā)實戰(zhàn) 121
10.1 BiCNet《星際爭霸》Gym環(huán)境設(shè)計實現(xiàn) 121
10.2 訓(xùn)練算法實現(xiàn) 127
10.3 運行模型 134
10.4 實驗設(shè)計與結(jié)果分析 135
10.5 小結(jié) 136
思考題 137
附錄A 深度神經(jīng)網(wǎng)絡(luò)與強化學(xué)習(xí)簡介 138
A.1 深度神經(jīng)網(wǎng)絡(luò) 138
A.1.1 多層感知器 138
A.1.2 卷積神經(jīng)網(wǎng)絡(luò) 139
A.1.3 循環(huán)神經(jīng)網(wǎng)絡(luò) 140
A.2 強化學(xué)習(xí) 141
A.2.1 時間差分學(xué)習(xí) 141
A.2.2 蒙特卡羅方法 142
A.2.3 策略梯度方法 142
附錄B 《星際爭霸》游戲基礎(chǔ) 144
B.1 游戲種族與兵種 145
B.1.1 人族 145
B.1.2 神族 147
B.1.3 蟲族 148
B.2 游戲地圖制作與編輯 150
B.2.1 角色戰(zhàn)斗力修改 150
B.2.2 游戲中觸發(fā)器修改 150
參考文獻 155