多臂機(jī)序列決策: 策略、性能及應(yīng)用
定 價(jià):130 元
叢書名:博士后文庫
- 作者:
- 出版時(shí)間:2024/4/1
- ISBN:9787030780355
- 出 版 社:科學(xué)出版社
- 中圖法分類:TN92
- 頁碼:
- 紙張:
- 版次:1
- 開本:B5
目錄
“博士后文庫”序言
前言
第1章 緒論 1
1.1 引言 1
1.1.1 多臂機(jī) 1
1.1.2 無休多臂機(jī) 2
1.2 技術(shù)難點(diǎn) 4
參考文獻(xiàn) 4
第2章 同構(gòu)兩態(tài)完美觀測多臂機(jī):短視策略及性能 6
2.1 引言 6
2.2 系統(tǒng)模型和優(yōu)化問題 8
2.3 正則收益函數(shù) 10
2.3.1 正則收益函數(shù)定義 10
2.3.2 值函數(shù)的性質(zhì) 11
2.4 貪婪策略的優(yōu)化性 14
2.5 最優(yōu)性條件應(yīng)用 16
2.5.1 應(yīng)用1 16
2.5.2 應(yīng)用2 17
2.5.3 應(yīng)用3 17
2.6 引理證明 18
2.6.1 引理2.9的證明 18
2.6.2 引理2.5~引理2.7的證明 18
2.7 本章小結(jié) 24
參考文獻(xiàn) 24
第3章 同構(gòu)兩態(tài)完美觀測多臂機(jī):第二高策略及性能 26
3.1 引言 26
3.2 系統(tǒng)模型和優(yōu)化問題 27
3.2.1 系統(tǒng)模型 27
3.2.2 決策問題及策略 29
3.2.3 動(dòng)機(jī) 30
3.3 偽值函數(shù) 31
3.4 優(yōu)化性分析 32
3.4.1 正相關(guān)信道(λ.0) 32
3.4.2 奇數(shù)K的負(fù)相關(guān)信道(λ<0) 35
3.4.3 偶數(shù)K的負(fù)相關(guān)信道(λ<0) 36
3.5 優(yōu)化性擴(kuò)展 36
3.5.1 探測多個(gè)信道 36
3.5.2 探測兩個(gè)信道訪問其中一個(gè)信道 36
3.6 仿真實(shí)驗(yàn) 36
3.6.1 正相關(guān)信道(λ.0) 37
3.6.2 負(fù)相關(guān)信道(λ<0) 38
3.7 引理證明 39
3.7.1 引理3.2的證明 39
3.7.2 引理3.3的證明 43
3.7.3 引理3.4的證明 46
3.8 本章小結(jié) 50
參考文獻(xiàn) 50
第4章 同構(gòu)兩態(tài)非完美觀測多臂機(jī):短視策略及性能 52
4.1 引言 52
4.1.1 機(jī)會(huì)譜訪問 52
4.1.2 無休多臂機(jī)及短視策略 52
4.2 系統(tǒng)模型和優(yōu)化問題 53
4.2.1 系統(tǒng)模型 53
4.2.2 無休多臂機(jī)模型 54
4.2.3 短視策略和正則收益 55
4.3 短視策略優(yōu)化性分析 56
4.3.1 符號(hào)說明 56
4.3.2 輔助值函數(shù)及屬性 58
4.3.3 短視策略優(yōu)化性 60
4.4 分析討論 62
4.5 引理證明 63
4.5.1 引理4.5的證明 63
4.5.2 引理4.6的證明 64
4.5.3 引理4.7的證明 67
4.5.4 引理4.8~引理4.10的證明 69
4.6 本章小結(jié) 77
參考文獻(xiàn) 77
第5章 同構(gòu)兩態(tài)非完美觀測多臂機(jī):第二高策略及性能 79
5.1 引言 79
5.2 系統(tǒng)模型和優(yōu)化問題 79
5.2.1 系統(tǒng)模型 79
5.2.2 混合尺度決策問題 81
5.3 小尺度與大尺度問題 82
5.3.1 小尺度決策 82
5.3.2 大尺度決策 85
5.3.3 啟發(fā)式策略 86
5.4 優(yōu)化性分析:信道正相關(guān)(p11.p01) 86
5.4.1 偽值函數(shù) 86
5.4.2 場景ζ+.<1 86
5.4.3 場景ζ+1 89
5.5 引理5.3(.+ζ<1,λ.0)的證明 90
5.6 本章小結(jié) 99
參考文獻(xiàn) 99
第6章 異構(gòu)兩態(tài)非完美觀測多臂機(jī):因子策略及性能 100
6.1 引言 100
6.1.1 背景簡介 100
6.1.2 主要結(jié)果和貢獻(xiàn) 100
6.2 相關(guān)工作 101
6.3 系統(tǒng)模型和優(yōu)化問題 101
6.4 懷特因子及可行性簡介 104
6.5 懷特因子和調(diào)度策略 106
6.5.1 懷特因子 106
6.5.2 調(diào)度策略 108
6.5.3 技術(shù)挑戰(zhàn) 108
6.6 線性化分析:基于不動(dòng)點(diǎn)理論 109
6.7 門限策略和伴隨動(dòng)態(tài)系統(tǒng) 113
6.7.1 門限策略 113
6.7.2 伴隨動(dòng)態(tài)系統(tǒng) 114
6.8 值函數(shù)線性化:信道負(fù)相關(guān) 115
6.8.1 區(qū)間1[p11,ω0)和區(qū)間2[ω0,Γ(p11)) 116
6.8.2 區(qū)間3 117
6.8.3 區(qū)間4 118
6.9 值函數(shù)線性化:信道正相關(guān) 118
6.9.1 區(qū)間n.1:[Γn(φ(p11)),Γn+1(φ(p01))) 120
6.9.2 區(qū)間n.2:[ˉωn0,Γn(φ(p11))) 121
6.9.3 區(qū)間n.4:[Γn(φ(p01)),ωn0) 123
6.9.4 區(qū)間n.3:[ωn0,ˉωn0) 124
6.9.5 區(qū)間5:[ω0,p11) 124
6.10 因子計(jì)算:信道負(fù)相關(guān) 124
6.10.1 區(qū)間1 125
6.10.2 區(qū)間2 126
6.10.3 區(qū)間3 126
6.10.4 區(qū)間4 127
6.11 因子計(jì)算:信道正相關(guān) 128
6.11.1 區(qū)間1 128
6.11.2 區(qū)間2 129
6.11.3 區(qū)間3 129
6.11.4 區(qū)間4 130
6.11.5 區(qū)間5 130
6.11.6 區(qū)間6 130
6.12 仿真實(shí)驗(yàn) 131
6.12.1 懷特因子策略和優(yōu)化策略 131
6.12.2 懷特因子策略和短視策略 132
6.13 本章小結(jié) 133
參考文獻(xiàn) 133
第7章 異構(gòu)兩態(tài)非完美觀測多臂機(jī):前看策略及性能 136
7.1 引言 136
7.1.1 背景簡介 136
7.1.2 主要貢獻(xiàn) 137
7.2 系統(tǒng)模型和優(yōu)化問題 138
7.2.1 系統(tǒng)模型 138
7.2.2 優(yōu)化探測序和停止問題 139
7.2.3 停止探測決策 139
7.3 ν步前看策略 141
7.3.1 上下界 141
7.3.2 ν步前看策略的結(jié)構(gòu) 142
7.3.3 ν步前看策略實(shí)現(xiàn) 143
7.3.4 低復(fù)雜性實(shí)現(xiàn):一步前看策略 144
7.4 仿真實(shí)驗(yàn) 150
7.4.1 同構(gòu)信道 150
7.4.2 異構(gòu)信道 152
7.5 本章小結(jié) 152
參考文獻(xiàn) 152
第8章 同構(gòu)多態(tài)完美觀測多臂機(jī):短視策略及性能 155
8.1 引言 155
8.1.1 研究簡介 155
8.1.2 技術(shù)貢獻(xiàn) 156
8.2 系統(tǒng)模型和優(yōu)化問題 157
8.2.1 系統(tǒng)模型 157
8.2.2 信息態(tài) 158
8.2.3 優(yōu)化問題 159
8.2.4 短視策略和部分序 160
8.3 短視策略優(yōu)化性分析 163
8.3.1 值函數(shù)及其解耦性 163
8.3.2 狀態(tài)轉(zhuǎn)換矩陣結(jié)構(gòu)屬性 164
8.3.3 短視策略優(yōu)化性 164
8.4 短視策略優(yōu)化性:擴(kuò)展情況 167
8.5 案例分析 169
8.6 引理和命題證明 171
8.6.1 引理8.1的證明 171
8.6.2 命題8.3的證明 172
8.6.3 命題8.4的證明 173
8.6.4 命題8.5的證明 174
8.6.5 引理8.2的證明 175
8.6.6 命題8.6的證明 180
8.6.7 命題8.7的證明 182
8.7 本章小結(jié) 183
參考文獻(xiàn) 184
第9章 同構(gòu)多態(tài)非完美觀測多臂機(jī):短視策略及性能 187
9.1 引言 187
9.2 系統(tǒng)模型和優(yōu)化問題 187
9.2.1 系統(tǒng)模型 187
9.2.2 信息態(tài) 188
9.2.3 短視策略 189
9.3 短視策略優(yōu)化性分析 190
9.3.1 輔助值函數(shù)及解耦性 190
9.3.2 條件 191
9.3.3 性質(zhì) 192
9.3.4 優(yōu)化性分析 195
9.3.5 討論 197
9.4 優(yōu)化性擴(kuò)展 198
9.4.1 條件 198
9.4.2 優(yōu)化性分析 199
9.4.3 擴(kuò)展:調(diào)度多個(gè)信道 200
9.5 引理證明 200
9.5.1 引理9.1的證明 200
9.5.2 引理9.2的證明 202
9.6 本章小結(jié) 208
參考文獻(xiàn) 208
第10章 異構(gòu)多態(tài)完美觀測多臂機(jī):因子策略及性能 209
10.1 引言 209
10.1.1 相關(guān)工作 209
10.1.2 主要貢獻(xiàn) 210
10.2 系統(tǒng)模型和優(yōu)化問題 210
10.2.1 任務(wù)、信道和用戶模型 210
10.2.2 服務(wù)器模型 212
10.2.3 機(jī)會(huì)調(diào)度問題 212
10.3 多臂機(jī)模型及分析 212
10.3.1 任務(wù)–信道–用戶 212
10.3.2 多臂機(jī)和機(jī)會(huì)調(diào)度 213
10.4 可因子性分析和因子計(jì)算 215
10.4.1 狀態(tài)轉(zhuǎn)換矩陣和門限結(jié)構(gòu) 215
10.4.2 可因子性分析 216
10.4.3 因子計(jì)算 220
10.5 可因子性擴(kuò)展及調(diào)度策略 221
10.5.1 可因子性擴(kuò)展 221
10.5.2 轉(zhuǎn)換矩陣近似 222
10.5.3 調(diào)度策略 222
10.6 仿真實(shí)驗(yàn) 223
10.6.1 場景1 225
10.6.2 場景2 226
10.6.3 場景3 227
10.7 引理和定理證明 228
10.7.1 引理10.1的證明 228
10.7.2 引理10.2的證明 232
10.7.3 定理10.2的證明 235
10.8 本章小結(jié) 237
參考文獻(xiàn) 237
編后記 240