網(wǎng)絡(luò)智能化中的深度強(qiáng)化學(xué)習(xí)技術(shù)
隨著人工智能技術(shù)的廣泛應(yīng)用,網(wǎng)絡(luò)智能化近年來(lái)受到廣泛的關(guān)注,已經(jīng)成為下一代移動(dòng)通信與未來(lái)網(wǎng)絡(luò)的重要技術(shù)。阿爾法圍棋(AlphaGo)之后,深度強(qiáng)化學(xué)習(xí)不斷推陳出新,為網(wǎng)絡(luò)中的決策問(wèn)題提供了有效的潛在解決方案。本書(shū)系統(tǒng)介紹了網(wǎng)絡(luò)智能化中深度強(qiáng)化學(xué)習(xí)的基本理論、算法及應(yīng)用場(chǎng)景。全書(shū)共8章,針對(duì)互聯(lián)網(wǎng)、移動(dòng)通信網(wǎng)、邊緣網(wǎng)絡(luò)、數(shù)據(jù)中心等典型網(wǎng)絡(luò),闡述了網(wǎng)絡(luò)管理、網(wǎng)絡(luò)控制、任務(wù)調(diào)度等決策需求,深入論述了深度強(qiáng)化學(xué)習(xí)的模型構(gòu)建與應(yīng)用技術(shù)。第1章介紹了網(wǎng)絡(luò)智能的需求與挑戰(zhàn);第2章介紹了先進(jìn)的深度強(qiáng)化學(xué)習(xí)模型與方法;第3~6章論述了無(wú)線接入優(yōu)化、網(wǎng)絡(luò)管理、網(wǎng)絡(luò)控制與任務(wù)調(diào)度等普遍網(wǎng)絡(luò)管控任務(wù)中,深度強(qiáng)化學(xué)習(xí)技術(shù)的應(yīng)用方法;第7章和第8章論述了深度強(qiáng)化學(xué)習(xí)在流媒體控制以及自組織網(wǎng)絡(luò)等典型場(chǎng)景中的新研究進(jìn)展。
本書(shū)可為高等院校計(jì)算機(jī)和通信相關(guān)專業(yè)的本科生、研究生提供參考,也可供對(duì)網(wǎng)絡(luò)智能化與深度強(qiáng)化學(xué)習(xí)領(lǐng)域感興趣的研究人員和工程技術(shù)人員參考。
1.專家力作,內(nèi)容嚴(yán)謹(jǐn)。作者來(lái)自于北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室網(wǎng)絡(luò)智能研究中心,長(zhǎng)期從事網(wǎng)絡(luò)智能化、深度學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)、邊緣智能等方向的前沿研究工作,發(fā)表高水平國(guó)際前沿論文70余篇。
2.內(nèi)容豐富,知識(shí)系統(tǒng)。網(wǎng)絡(luò)智能化已在學(xué)術(shù)界和工業(yè)界均得到廣泛關(guān)注,本書(shū)內(nèi)容屬于移動(dòng)通信網(wǎng)以及未來(lái)網(wǎng)絡(luò)的重要方向。本書(shū)系統(tǒng)介紹了網(wǎng)絡(luò)智能化中深度強(qiáng)化學(xué)習(xí)的基本理論、算法及應(yīng)用場(chǎng)景。
3.總結(jié)前沿成果,注重實(shí)踐應(yīng)用。本書(shū)將前沿學(xué)術(shù)成果以系統(tǒng)、模型、方法的角度進(jìn)行闡述,關(guān)注網(wǎng)絡(luò)問(wèn)題場(chǎng)景以及深度強(qiáng)化學(xué)習(xí)方法的原理,便于讀者深入了解深度強(qiáng)化學(xué)習(xí)方法在網(wǎng)絡(luò)智能中的應(yīng)用。
戚琦,博士,網(wǎng)絡(luò)與交換國(guó)家重點(diǎn)實(shí)驗(yàn)室副教授、碩士生導(dǎo)師、博士生導(dǎo)師。長(zhǎng)期從事業(yè)務(wù)網(wǎng)絡(luò)智能化和移動(dòng)云計(jì)算方向的科研工作,近年來(lái)重點(diǎn)關(guān)注深度強(qiáng)化學(xué)習(xí)、分布式機(jī)器學(xué)習(xí)、聯(lián)邦學(xué)習(xí)、輕量化神經(jīng)網(wǎng)絡(luò)等方面的前沿研究,取得了知識(shí)定義網(wǎng)絡(luò)、邊緣智能、手部姿態(tài)估計(jì)、草圖檢索等一系列研究成果。發(fā)表高水平學(xué)術(shù)論文70余篇,SCI索引期刊論文40余篇。先后主持2項(xiàng)國(guó)家自然科學(xué)基金目,1項(xiàng)北京市自然科學(xué)基金,3項(xiàng)基地自主科研項(xiàng)目,以及多項(xiàng)企事業(yè)單位合作項(xiàng)目,作為主研人承擔(dān)重點(diǎn)研發(fā)計(jì)劃、創(chuàng)新團(tuán)隊(duì)、創(chuàng)新群體、973等多個(gè)國(guó)家及省部級(jí)重大項(xiàng)目。
第 1章 網(wǎng)絡(luò)智能概述 1
1.1 概述 2
1.1.1 網(wǎng)絡(luò)架構(gòu)的持續(xù)演進(jìn) 2
1.1.2 網(wǎng)絡(luò)管理與控制的挑戰(zhàn) 3
1.1.3 網(wǎng)絡(luò)智能的興起 4
1.2 網(wǎng)絡(luò)智能的基礎(chǔ) 7
1.2.1 大數(shù)據(jù) 7
1.2.2 算力支持 7
1.2.3 集中式控制 9
1.3 網(wǎng)絡(luò)智能的現(xiàn)狀 10
1.3.1 意圖網(wǎng)絡(luò) 10
1.3.2 自動(dòng)駕駛網(wǎng)絡(luò) 12
1.3.3 知識(shí)定義網(wǎng)絡(luò) 14
1.3.4 標(biāo)準(zhǔn)化工作 17
1.4 網(wǎng)絡(luò)智能的實(shí)現(xiàn)途徑 18
1.4.1 監(jiān)督學(xué)習(xí) 18
1.4.2 無(wú)監(jiān)督學(xué)習(xí) 20
1.4.3 強(qiáng)化學(xué)習(xí) 21
1.5 網(wǎng)絡(luò)智能的愿景與挑戰(zhàn) 22
1.5.1 網(wǎng)絡(luò)智能的愿景 22
1.5.2 網(wǎng)絡(luò)智能的挑戰(zhàn) 24
參考文獻(xiàn) 25
第 2章 深度強(qiáng)化學(xué)習(xí)方法 29
2.1 強(qiáng)化學(xué)習(xí)方法概述 30
2.1.1 馬爾可夫決策過(guò)程 30
2.1.2 多臂賭博機(jī) 32
2.1.3 蒙特卡洛樹(shù)搜索與時(shí)間差分方法 33
2.1.4 值迭代與策略迭代 35
2.2 深度強(qiáng)化學(xué)習(xí) 37
2.2.1 深度Q網(wǎng)絡(luò) 38
2.2.2 策略梯度方法 40
2.2.3 策略梯度單調(diào)提升優(yōu)化算法 44
2.2.4 最大熵算法 50
2.3 多智能體強(qiáng)化學(xué)習(xí) 52
2.3.1 獨(dú)立強(qiáng)化學(xué)習(xí)及其涌現(xiàn)行為分析 53
2.3.2 多智能體通信 55
2.3.3 多智能體合作機(jī)制 56
2.3.4 多智能體建模與策略推斷 59
2.4 分層強(qiáng)化學(xué)習(xí) 61
2.5 遷移強(qiáng)化學(xué)習(xí) 64
2.5.1 遷移強(qiáng)化學(xué)習(xí)框架 65
2.5.2 根據(jù)遷移設(shè)置的分類 66
2.5.3 根據(jù)遷移知識(shí)類型的分類 67
2.5.4 根據(jù)遷移目標(biāo)的分類 68
2.6 多任務(wù)強(qiáng)化學(xué)習(xí) 69
2.6.1 多任務(wù)學(xué)習(xí)基本概念 69
2.6.2 多任務(wù)強(qiáng)化學(xué)習(xí) 70
2.6.3 基于多任務(wù)學(xué)習(xí)的遷移強(qiáng)化學(xué)習(xí) 71
2.7 逆強(qiáng)化學(xué)習(xí) 73
2.8 分布式強(qiáng)化學(xué)習(xí) 75
參考文獻(xiàn) 77
第3章 基于強(qiáng)化學(xué)習(xí)的無(wú)線接入優(yōu)化 81
3.1 多信道無(wú)線接入 81
3.1.1 多信道無(wú)線接入概述 82
3.1.2 基于DRL的動(dòng)態(tài)多信道無(wú)線接入 83
3.1.3 異構(gòu)無(wú)線網(wǎng)絡(luò)的多信道接入 87
3.2 異構(gòu)無(wú)線網(wǎng)絡(luò)的調(diào)制和編碼 91
3.2.1 調(diào)制和編碼問(wèn)題概述 91
3.2.2 基于DRL的調(diào)制和編碼 93
3.3 基站自適應(yīng)能量控制 99
3.3.1 基站自適應(yīng)能量控制內(nèi)容概述 99
3.3.2 基站自適應(yīng)能量控制問(wèn)題引入 100
3.3.3 基于DRL的自適應(yīng)能量控制 100
參考文獻(xiàn) 105
第4章 基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)管理 108
4.1 智能服務(wù)編排 108
4.1.1 NFV的資源配置 108
4.1.2 服務(wù)功能鏈映射 110
4.1.3 服務(wù)功能鏈選路 117
4.1.4 無(wú)線網(wǎng)絡(luò)VNF的資源編排 122
4.2 智能網(wǎng)絡(luò)切片 124
4.2.1 網(wǎng)絡(luò)切片的需求與概念 124
4.2.2 網(wǎng)絡(luò)切片的資源管理 127
4.2.3 無(wú)線接入網(wǎng)切片 128
4.2.4 核心網(wǎng)切片 133
參考文獻(xiàn) 136
第5章 基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)控制 141
5.1 智能路由控制 141
5.1.1 時(shí)間相關(guān)QoS的路由控制 143
5.1.2 邊緣網(wǎng)絡(luò)路由控制 147
5.1.3 帶緩存的DCN路由控制 151
5.2 智能擁塞控制 158
5.2.1 多路徑TCP控制 160
5.2.2 智能擁塞控制模型Aurora 164
5.3 智能流量調(diào)度 167
5.3.1 流量工程概述 168
5.3.2 智能流量調(diào)度 169
5.3.3 分布式流量調(diào)度 170
參考文獻(xiàn) 172
第6章 基于強(qiáng)化學(xué)習(xí)的任務(wù)調(diào)度 175
6.1 并行計(jì)算的任務(wù)調(diào)度 175
6.1.1 問(wèn)題定義 176
6.1.2 基于RL的并行任務(wù)調(diào)度方法 177
6.1.3 基于DRL的并行任務(wù)調(diào)度方法 178
6.2 基于有向無(wú)環(huán)圖的任務(wù)調(diào)度 182
6.2.1 分布式系統(tǒng)任務(wù)模型 182
6.2.2 邊緣計(jì)算任務(wù)調(diào)度 183
6.2.3 云計(jì)算的任務(wù)調(diào)度 185
6.2.4 數(shù)據(jù)處理集群的任務(wù)調(diào)度 188
6.3 混合任務(wù)調(diào)度 192
6.3.1 多類型任務(wù)調(diào)度 192
6.3.2 任務(wù)調(diào)度相關(guān)的聯(lián)合優(yōu)化 195
參考文獻(xiàn) 198
第7章 基于強(qiáng)化學(xué)習(xí)的流媒體控制 200
7.1 超低時(shí)延的流媒體傳輸 201
7.1.1 超低時(shí)延的流媒體傳輸框架 201
7.1.2 碼率自適應(yīng)算法 204
7.1.3 基于強(qiáng)化學(xué)習(xí)的超低時(shí)延傳輸算法 206
7.2 個(gè)性化的流媒體傳輸 210
7.2.1 個(gè)性化用戶體驗(yàn) 210
7.2.2 基于強(qiáng)化學(xué)習(xí)的個(gè)性化QoE設(shè)計(jì) 212
7.3 新場(chǎng)景下的流媒體傳輸展望 214
參考文獻(xiàn) 215
第8章 基于強(qiáng)化學(xué)習(xí)的自組織網(wǎng)絡(luò) 218
8.1 網(wǎng)聯(lián)自動(dòng)駕駛 218
8.1.1 車載通信任務(wù) 218
8.1.2 車載資源分配 221
8.2 無(wú)人機(jī)網(wǎng)絡(luò)概述 226
8.2.1 無(wú)人機(jī)通信資源調(diào)度 227
8.2.2 無(wú)人機(jī)公平效率覆蓋 231
8.2.3 無(wú)人機(jī)傳感數(shù)據(jù)收集 235
參考文獻(xiàn) 238
名詞索引 241