圖強化學習是深度強化學習的重要分支領域。本書作為該領域的入門教材,在內(nèi)容上盡可能覆
蓋圖強化學習的基礎知識,并提供應用實踐案例。全書共 10章,大致分為三部分:第一部分(第 1~
3章)介紹圖強化學習研究對象(復雜系統(tǒng)、圖和復雜網(wǎng)絡);第二部分(第 4~7章)介紹圖強化
學習基礎知識(圖嵌入、圖神經(jīng)網(wǎng)絡和深度強化學習);第三部分(第 8~10章)介紹圖強化學習
模型框架和應用實踐案例,并進行總結(jié)和展望。每章都附有習題并介紹了相關閱讀材料,以便有興
趣的讀者進一步深入探索。
本書可作為高等院校計算機、圖數(shù)據(jù)挖掘及相關專業(yè)的本科生或研究生教材,也可供對圖強化
學習感興趣的研究人員和工程技術(shù)人員閱讀參考。
本書從算法原理出發(fā),詳細介紹了圖強化學習的算法、原理和實踐,與各領域?qū)嶋H問題相結(jié)合。
在現(xiàn)實世界和虛擬世界中,圖無處不在,網(wǎng)絡也無處不在。例如,人類社會關系圖、蛋白質(zhì)作用關系圖和化學分子圖等。在微觀尺度、介觀尺度和宏觀尺度上,圖和網(wǎng)絡都直接影響著人類的生活、工作和學習,如與人類息息相關的社會網(wǎng)絡、交通網(wǎng)絡、貿(mào)易網(wǎng)絡和信息網(wǎng)絡等。人體包括生物神經(jīng)網(wǎng)絡和血液循環(huán)網(wǎng)絡等,這些網(wǎng)絡是人類身體的直接組成部分。因此,人類既是圖或網(wǎng)絡的集合體,也是其他網(wǎng)絡或系統(tǒng)的組成部分。從復雜系統(tǒng)角度看,人類本身就是一個極其復雜的系統(tǒng),或者是復雜系統(tǒng)的系統(tǒng)。同時,人類處在復雜系統(tǒng)之中,或處在系統(tǒng)的系統(tǒng)之中。換而言之,人類處在網(wǎng)絡之中,或處在網(wǎng)絡的網(wǎng)絡之中。
圖或網(wǎng)絡作為復雜系統(tǒng)的有效表示,也是復雜系統(tǒng)的常用分析工具和研究方法。圖數(shù)據(jù)和圖方法可以度量、預警、預測和控制復雜系統(tǒng)的脆弱性和穩(wěn)健性。新冠疫情和局部戰(zhàn)爭等不確定事件的頻頻發(fā)生,使人們的日常生活、學習和工作都受到了不同程度的沖擊。在信息社會中,網(wǎng)絡化和系統(tǒng)化為人類提供了基礎的生存設施和便利的生活環(huán)境,也使人類社會系統(tǒng)處在各種事件沖擊之中和災難爆發(fā)的邊緣。在復雜系統(tǒng)中,一些微小的擾動可以通過網(wǎng)絡進行擴散和放大,加劇系統(tǒng)脆弱性以及突發(fā)事件的危害和不確定性,正如人們所熟知的蝴蝶效應和黑天鵝事件等。
2013年,深度強化學習算法初露鋒芒,在Atari游戲中取得了驚人的成果,到2015年,深度強化學習智能體達到了人類的游戲控制水平。深度強化學習算法從原始圖像的像素信息中學習游戲控制的智能策略,其游戲控制水平在一些視頻游戲中超過了人類玩家。深度強化學習算法在智力游戲領域展現(xiàn)了強大的決策能力和學習能力。2016年,Google公司DeepMind團隊的研究人員在頂級期刊Nature推出AlphaGo,該智能程序戰(zhàn)勝了圍棋世界冠軍,震撼了全世界。2022年,人工智能公司OpenAI通過自然語言處理工具和深度強化學習算法,學習和理解人類語言,研發(fā)的聊天機器人程序ChatGPT(Chat Generative Pre-trained Transformer)震驚了世界。ChatGPT能像人類一樣聊天交流、撰寫郵件、翻譯語言、編寫代碼、撰寫論文等。人類為了處理所面對的諸多復雜系統(tǒng)問題,寄希望于深度強化學習,并設計出強大的決策智能體,輔助人類完成復雜智能決策,適應多變、動態(tài)且隨機的復雜環(huán)境。
近年來,人工智能技術(shù)和算法的蓬勃發(fā)展極大拓展了智能算法的應用范圍。人們能夠更加便捷地分析和研究圖數(shù)據(jù)和網(wǎng)絡數(shù)據(jù),特別是機器學習算法能有效地挖掘圖數(shù)據(jù)和網(wǎng)絡數(shù)據(jù)的結(jié)構(gòu)信息和語義信息。圖嵌入、網(wǎng)絡嵌入、圖機器學習和圖深度學習等機器學習算法為復雜圖和復雜網(wǎng)絡相關的問題和智能決策任務提供了強大的技術(shù)支持。圖神經(jīng)網(wǎng)絡算法融合諸多圖機器學習和圖深度學習技術(shù),是分析圖數(shù)據(jù)和網(wǎng)絡數(shù)據(jù)的高效且通用框架,是提取圖結(jié)構(gòu)信息和圖語義信息的有效工具,是探索復雜智能決策的重要工具和方法。圖神經(jīng)網(wǎng)絡模型針對圖數(shù)據(jù)專門設計了很多操作算子,處理和分析不同類型的圖數(shù)據(jù)和網(wǎng)絡動力學過程,為度量、預警、預測和控制復雜系統(tǒng)結(jié)構(gòu)特征和演化特征提供新思路和新方法。圖強化學習融合圖神經(jīng)網(wǎng)絡模型和深度強化學習模型,拓展圖或網(wǎng)絡相關復雜問題的求解思路和分析方法,具有較大的發(fā)展前景和應用價值。
本書內(nèi)容安排
圖強化學習涵蓋了很多人工智能、機器學習和深度學習相關理論、方法和技術(shù)。本書用三大部分簡要介紹圖強化學習相關的理論、方法和應用。
第一部分:圖強化學習研究對象
復雜系統(tǒng)、圖和網(wǎng)絡是圖強化學習的主要研究對象。復雜系統(tǒng)是復雜決策問題的背景和來源。圖強化學習主要解決復雜系統(tǒng)中圖相關的決策問題。一般而言,復雜問題背后都有一個復雜系統(tǒng)。復雜系統(tǒng)相關的理論和方法對圖強化學習方法具有引導和啟示作用。
復雜圖和復雜網(wǎng)絡方法是表示和研究復雜系統(tǒng)的常用方法。圖論作為古老的數(shù)學學科,一直以來都是專業(yè)人員的研究領域,科學家們積累了大量的圖理論和方法。圖論相關的理論和方法為復雜社會系統(tǒng)、復雜物理系統(tǒng)和復雜生物系統(tǒng)的研究提供了思想源泉。
近年來,復雜網(wǎng)絡方法飛速發(fā)展,在不同學科和領域取得了耀眼的成績。在一些復雜問題和復雜系統(tǒng)中,復雜網(wǎng)絡分析占據(jù)重要地位,是大數(shù)據(jù)時代中多源異構(gòu)數(shù)據(jù)分析的有效方法,是各個領域?qū)<覍W者審視各自領域內(nèi)問題的新工具和新視角。在現(xiàn)實世界中,圖相關和網(wǎng)絡相關的問題很多,如網(wǎng)絡關鍵節(jié)點識別、網(wǎng)絡免疫、傳染病防控等,都能用圖或網(wǎng)絡方法高效地求解。
第二部分:圖強化學習的基礎知識
圖機器學習和強化學習方法是圖強化學習的基礎方法。我們介紹圖嵌入、圖神經(jīng)網(wǎng)絡、強化學習和深度強化學習方法。圖強化學習方法并非一個全新的研究范式和研究方法,是深度強化學習方法在圖數(shù)據(jù)或圖問題中的拓展應用。圖強化學習融合圖神經(jīng)網(wǎng)絡模型和深度強化學習模型,在復雜智能決策任務中表現(xiàn)出了巨大潛力。
圖神經(jīng)網(wǎng)絡方法是圖嵌入和網(wǎng)絡嵌入方法的拓展,深度強化學習方法是強化學習的拓展。圖神經(jīng)網(wǎng)絡模型和深度強化學習模型作為機器學習領域兩大熱門研究領域,是人工智能和機器學習的前沿技術(shù),具有較大的發(fā)展?jié)摿。深刻理解和掌握圖神經(jīng)網(wǎng)絡和深度強化學習方法,是入門圖強化學習方法的基礎。
一般而言,圖嵌入和網(wǎng)絡嵌入是淺層學習,是理解圖神經(jīng)網(wǎng)絡模型的基礎。圖神經(jīng)網(wǎng)絡模型具有可擴展性和普適性,是圖數(shù)據(jù)和網(wǎng)絡數(shù)據(jù)分析最具潛力的研究方向。圖嵌入和網(wǎng)絡嵌入是圖機器學習的研究內(nèi)容,將學習機制引入圖上的搜索問題或其他問題。相較于經(jīng)典的圖理論和復雜網(wǎng)絡分析方法,圖機器學習算法更適用于大規(guī)模圖數(shù)據(jù)和復雜圖或復雜網(wǎng)絡決策問題。
在圖強化學習中,圖神經(jīng)網(wǎng)絡模型作為特征提取和表示學習的主要模塊,是智能決策優(yōu)劣的關鍵。圖神經(jīng)網(wǎng)絡模型具有大量的參數(shù),強化學習算法的主要任務是更新和學習模型參數(shù)。如何有效地融合兩者的優(yōu)勢,解決復雜圖或復雜網(wǎng)絡相關決策問題,是圖強化學習的核心內(nèi)容。
第三部分:圖強化學習模型框架和應用實踐案例
圖強化學習方法融合圖神經(jīng)網(wǎng)絡模型和深度強化學習模型。第三部分包括圖強化學習模型構(gòu)建框架和實現(xiàn)細節(jié)。圖和網(wǎng)絡作為圖強化學習的研究對象,是圖強化學習的基礎。一些圖相關的組合優(yōu)化問題因為組合爆炸,屬于NP難問題。因此,如何找到有效的解決辦法具有重要的研究價值和實用價值。
我們將圖或網(wǎng)絡數(shù)據(jù)分析看作5個層層進階的過程,依次為圖理論方法、復雜網(wǎng)絡分析方法、圖嵌入和網(wǎng)絡嵌入方法、圖神經(jīng)網(wǎng)絡方法、圖強化學習方法。在圖數(shù)據(jù)或網(wǎng)絡數(shù)據(jù)相關的決策問題上,圖強化學習融合圖神經(jīng)網(wǎng)絡模型的表示學習能力和深度強化學習的決策優(yōu)化能力,具有非常大的研究價值和應用潛力。
本書適合人群
* 高年級本科生
* 專業(yè)碩士研究生
* 機器學習愛好者
* 強化學習愛好者
關于作者
謝文杰,男,湖南瀏陽人,應用數(shù)學博士,上海市晨光學者,F(xiàn)任華東理工大學商學院金融學系副教授、碩士研究生導師、金融物理研究中心成員,主要研究復雜金融網(wǎng)絡、圖強化學習、深度強化學習、系統(tǒng)風險管理,發(fā)表SCI/SSCI收錄論文40多篇,被引800余次。2016年獲上海市自然科學獎二等獎(4/5),主持完成4項國家或省部級科研項目。
周煒星,男,浙江諸暨人。青年長江學者、上海領軍人才、新世紀優(yōu)秀人才、上海市曙光學者、上海市青年科技啟明星。現(xiàn)任職華東理工大學商學院、數(shù)學學院,二級教授,博士生導師,金融物理研究中心主任,兼任中國管理科學與工程學會理事、金融計量與風險管理分會副理事長,中國系統(tǒng)工程學會理事、金融系統(tǒng)工程專業(yè)委員會副主任,中國工業(yè)統(tǒng)計教學研究會金融科技大數(shù)據(jù)分會副理事長,中國數(shù)量經(jīng)濟學會經(jīng)濟復雜性專業(yè)委員會副理事長,中國雙法研究會理事、能源經(jīng)濟與管理研究分會常務理事,中國復雜性科學學會副理事長。擔任《計量經(jīng)濟學報》、Journal of International Financial Markets, Institutions & Money(JIFMIM)、Financial Innovation、Fractals、Frontiers in Physics、 Fluctuation and Noise Letters、Entropy、Journal of Network Theory in Finance、Reports in Advances of Physical Sciences等國內(nèi)外期刊的編委。主要從事金融物理學、經(jīng)濟物理學和社會經(jīng)濟系統(tǒng)復雜性研究,以及相關領域的大數(shù)據(jù)分析。先后主持包括4項國家自然科學基金在內(nèi)的10余項國家級和省部級項目。出版學術(shù)專著《金融物理學導論》1部,發(fā)表SCI/SSCI收錄論文210多篇,他引7000余次,11篇論文入選ESI高被引論文,H指數(shù)47,連續(xù)8年進入愛思唯爾發(fā)布的中國高被引學者(數(shù)學)榜單。論文主要發(fā)表在JIFMIM、JEBO和QF等主流金融經(jīng)濟期刊及PNAS、Rep. Prog. Phys.等重要交叉學科期刊上。獲2016年度上海市自然科學二等獎(1/5)。
致謝
本書模板來源于ElegantBook,感謝制作者的辛苦付出!感謝Open AI Baselines社區(qū),感謝Stable-Baselines社區(qū),感謝NetworkX社區(qū),感謝PyTorch-Geometric社區(qū)。感謝清華大學出版社編輯申美瑩老師和相關工作人員。
本書的參考資料和參考文獻可掃描下方二維碼獲取。
謝文杰 周煒星
2023.09
謝文杰,男,湖南瀏陽人,應用數(shù)學博士,上海市晨光學者,F(xiàn)任職華東理工大學商學院金融學系副教授、碩士研究生導師、金融物理研究中心成員,主要研究復雜金融網(wǎng)絡、機器學習、深度強化學習、金融風險管理等。獲2016年度上海市自然科學獎二等獎(4/5),主持完成4項國家或省部級科研項目。
周煒星,男,浙江諸暨人。青年長江學者、上海領軍人才、新世紀優(yōu)秀人才、上海市曙光學者、上海市青年科技啟明星,F(xiàn)任職于華東理工大學商學院、數(shù)學學院,二級教授,博士生導師,金融物理研究中心主任,F(xiàn)兼任中國優(yōu)選法統(tǒng)籌法與經(jīng)濟數(shù)學研究會理事、風險管理分會副理事長,中國系統(tǒng)工程學會理事、金融系統(tǒng)工程專業(yè)委員會副主任,管理科學與工程學會理事、金融計量與風險管理分會副理事長,中國工業(yè)統(tǒng)計教學研究會金融科技與大數(shù)據(jù)技術(shù)分會副理事長,中國數(shù)量經(jīng)濟學會經(jīng)濟復雜性專業(yè)委員會副理事長,中國復雜性科學學會副理事長。主要從事金融物理學、經(jīng)濟物理學和社會經(jīng)濟系統(tǒng)復雜性研究,以及相關領域大數(shù)據(jù)分析。
第一部分 圖強化學習研究對象
第1章 圖與復雜系統(tǒng) 3
1.1 為什么是圖 3
1.1.1 圖的普遍性 3
1.1.2 圖的表示性 4
1.1.3 圖的抽象性 4
1.2 圖與復雜系統(tǒng) 5
1.2.1 復雜系統(tǒng)定義 5
1.2.2 復雜系統(tǒng)的圖表示 6
1.2.3 復雜系統(tǒng)問題與圖 7
1.3 復雜系統(tǒng)與強化學習 7
1.3.1 強化學習 8
1.3.2 智能決策 8
1.3.3 基于強化學習的智能決策 9
1.4 復雜系統(tǒng)與智能決策 9
1.4.1 復雜金融系統(tǒng)風險管理問題 10
1.4.2 復雜社會系統(tǒng)輿情傳播和虛假信息防控問題 12
1.5 應用實踐 12
1.5.1 圖數(shù)據(jù)集 13
1.5.2 圖可視化和分析工具 13
第1章習題 14
第2章 圖論基礎 15
2.1 圖論的起源 15
2.1.1 提出問題 16
2.1.2 形式化問題 16
2.1.3 求解問題 16
2.2 圖論的發(fā)展 17
2.2.1 隨機圖理論 17
2.2.2 拓撲圖論 17
2.2.3 幾何圖論 18
2.2.4 代數(shù)圖論 18
2.3 圖論的概念 18
2.3.1 圖定義 19
2.3.2 節(jié)點 19
2.3.3 連邊 19
2.3.4 鄰接矩陣 20
2.3.5 度 20
2.3.6 鄰域 20
2.3.7 途徑 21
2.3.8 最短路 22
2.3.9 帶自環(huán)圖 23
2.3.10 圈 23
2.3.11 子圖 24
2.3.12 連通分量 24
2.3.13 最大連通子圖 25
2.3.14 簡單圖 25
2.3.15 平面圖 26
2.3.16 對偶圖 26
2.3.17 樹 28
2.4 經(jīng)典圖示例 29
2.4.1 完全圖 29
2.4.2 二部圖 30
2.4.3 彼得森圖 31
2.4.4 星狀圖 31
2.4.5 網(wǎng)格圖 32
2.4.6 正十二面體圖 33
2.5 經(jīng)典問題示例 33
2.5.1 圖同構(gòu) 33
2.5.2 TSP問題 34
2.5.3 最小點覆蓋問題 35
2.5.4 最大割問題 35
2.5.5 最大獨立集問題 35
2.6 可視圖 35
2.6.1 可視圖算法 36
2.6.2 水平可視圖算法 36
2.6.3 水平可視圖度分布 37
2.6.4 有向水平可視圖度分布 39
2.7 應用實踐 41
第2章習題 42
第3章 圖與復雜網(wǎng)絡 44
3.1 復雜網(wǎng)絡背景 44
3.1.1 復雜網(wǎng)絡簡介 44
3.1.2 復雜網(wǎng)絡簡史 45
3.1.3 復雜網(wǎng)絡應用 45
3.1.4 復雜網(wǎng)絡分析概述 46
3.1.5 網(wǎng)絡表示 47
3.2 節(jié)點指標 48
3.2.1 節(jié)點的度 48
3.2.2 節(jié)點的強度 49
3.2.3 聚簇系數(shù) 49
3.2.4 接近中心性 50
3.2.5 介數(shù)中心性 50
3.2.6 特性向量中心性 50
3.2.7 PageRank中心性 51
3.2.8 權(quán)威值得分和樞紐值得分 51
3.2.9 k核中心性 52
3.3 網(wǎng)絡連邊指標 53
3.3.1 連邊權(quán)重 53
3.3.2 顯著性測度 53
3.3.3 邊介數(shù)中心性 55
3.3.4 共同鄰居數(shù) 55
3.3.5 網(wǎng)絡關系Adamic/Adar量 56
3.3.6 網(wǎng)絡關系Resource Allocation量 56
3.4 網(wǎng)絡模體結(jié)構(gòu) 56
3.4.1 模體的定義 56
3.4.2 無向網(wǎng)絡的四元模體 56
3.4.3 有向網(wǎng)絡的三元模體 57
3.4.4 有向網(wǎng)絡三元模體與節(jié)點位置結(jié)構(gòu) 58
3.5 網(wǎng)絡模塊結(jié)構(gòu) 59
3.5.1 網(wǎng)絡模塊定義 60
3.5.2 模塊內(nèi)度 60
3.5.3 參與系數(shù) 61
3.5.4 模塊外度 61
3.5.5 模塊穩(wěn)定性 61
3.6 網(wǎng)絡全局結(jié)構(gòu) 62
3.6.1 網(wǎng)絡密度 62
3.6.2 網(wǎng)絡同配性和異配性 63
3.6.3 網(wǎng)絡穩(wěn)健性 63
3.6.4 網(wǎng)絡效率 64
3.7 復雜網(wǎng)絡分類 65
3.7.1 異質(zhì)網(wǎng)絡 65
3.7.2 多層網(wǎng)絡 66
3.7.3 多重網(wǎng)絡 66
3.7.4 超圖網(wǎng)絡 66
3.7.5 動態(tài)網(wǎng)絡 67
3.8 復雜網(wǎng)絡任務 68
3.8.1 節(jié)點任務 68
3.8.2 網(wǎng)絡連邊任務 68
3.8.3 全局網(wǎng)絡任務 69
3.9 復雜網(wǎng)絡生成 69
3.9.1 隨機網(wǎng)絡模型 69
3.9.2 隨機模塊模型 70
3.9.3 優(yōu)先連接模型 72
3.9.4 同質(zhì)性偏好連接模型 73
3.9.5 異質(zhì)性或互補性偏好連接模型 74
3.9.6 機器學習或智能算法類模型 74
3.10 網(wǎng)絡建模實例 74
3.10.1 效用函數(shù) 75
3.10.2 成本函數(shù) 76
3.10.3 決策函數(shù) 77
3.11 應用實踐 79
第3章習題 81
第二部分 圖強化學習基礎知識
第4章 圖嵌入與網(wǎng)絡嵌入 85
4.1 圖的特征表示 85
4.1.1 多尺度圖特征表示 85
4.1.2 如何表示復雜系統(tǒng) 86
4.1.3 如何表示復雜圖或復雜網(wǎng)絡 86
4.1.4 如何表示圖節(jié)點 86
4.1.5 如何表示圖連邊 87
4.1.6 多層次的圖特征表示方法 87
4.2 圖與機器學習 88
4.2.1 機器學習簡介 88
4.2.2 機器學習分類 88
4.3 機器學習框架 89
4.3.1 框架簡介 89
4.3.2 目標函數(shù) 89
4.3.3 優(yōu)化參數(shù) 90
4.4 自編碼器框架 90
4.4.1 自編碼器模型介紹 90
4.4.2 簡單應用 91
4.5 機器學習模型 91
4.5.1 典型的數(shù)據(jù)類型 92
4.5.2 多層感知機網(wǎng)絡 92
4.5.3 卷積神經(jīng)網(wǎng)絡 92
4.5.4 循環(huán)神經(jīng)網(wǎng)絡 94
4.6 圖表示學習 94
4.6.1 圖表示學習的一般框架 94
4.6.2 編碼-解碼框架 95
4.6.3 編碼器 95
4.6.4 解碼器 96
4.6.5 模型優(yōu)化 97
4.7 基于矩陣分解的圖嵌入 97
4.7.1 圖分解方法 98
4.7.2 GraRep方法 98
4.7.3 HOPE方法 99
4.8 基于隨機游走的圖嵌入 99
4.8.1 DeepWalk算法 99
4.8.2 Node2Vec方法 102
4.9 可解釋性圖嵌入 104
4.9.1 問題背景介紹 105
4.9.2 天然氣貿(mào)易決策模型 105
4.9.3 效用函數(shù) 106
4.9.4 收益函數(shù) 106
4.9.5 成本函數(shù) 106
4.9.6 機器學習模型損失函數(shù) 107
4.9.7 模型優(yōu)化 108
4.10 應用實踐 108
第4章習題 109
第5章 圖神經(jīng)網(wǎng)絡 110
5.1 圖神經(jīng)網(wǎng)絡介紹 110
5.2 圖神經(jīng)網(wǎng)絡特征 111
5.2.1 圖數(shù)據(jù)特征 111
5.2.2 端到端學習特征 112
5.2.3 歸納學習特征 112
5.3 圖神經(jīng)網(wǎng)絡框架 113
5.3.1 圖神經(jīng)網(wǎng)絡框架簡介 113
5.3.2 消息傳遞神經(jīng)網(wǎng)絡框架 113
5.3.3 鄰域信息匯聚函數(shù) 114
5.3.4 信息更新函數(shù) 114
5.3.5 圖信息池化函數(shù) 115
5.4 圖卷積神經(jīng)網(wǎng)絡 115
5.4.1 譜圖理論介紹 115
5.4.2 拉普拉斯矩陣定義 116
5.4.3 隨機游走歸一化拉普拉斯矩陣 116
5.4.4 對稱歸一化拉普拉斯矩陣 116
5.4.5 拉普拉斯矩陣簡單應用 117
5.4.6 圖信號處理 118
5.4.7 圖傅里葉變換 118
5.4.8 圖傅里葉逆變換 119
5.4.9 圖濾波器 120
5.4.10 圖譜濾波 121
5.4.11 K階截斷多項式濾波算子 123
5.4.12 切比雪夫多項式濾波算子 124
5.4.13 圖卷積神經(jīng)網(wǎng)絡 125
5.5 圖注意力神經(jīng)網(wǎng)絡 127
5.5.1 注意力機制簡介 127
5.5.2 基于注意力機制的信息匯聚函數(shù) 127
5.5.3 多頭注意力模型框架 129
5.6 圖網(wǎng)絡 129
5.6.1 更新連邊信息 130
5.6.2 匯聚連邊信息 130
5.6.3 更新節(jié)點信息 130
5.6.4 匯聚全局信息 130
5.7 應用實踐 131
第5章習題 133
第6章 強化學習基礎 134
6.1 強化學習背景 134
6.1.1 強化學習與圖神經(jīng)網(wǎng)絡 135
6.1.2 強化學習與序貫決策問題 135
6.1.3 強化學習求解序貫決策問題 135
6.1.4 強化學習特征 136
6.2 強化學習與圖 136
6.2.1 圖上決策問題 136
6.2.2 強化學習與圖上決策問題 137
6.3 強化學習概念 138
6.3.1 馬爾可夫決策過程 138
6.3.2 狀態(tài)和狀態(tài)空間 139
6.3.3 動作和動作空間 139
6.3.4 狀態(tài)轉(zhuǎn)移函數(shù) 140
6.3.5 即時回報函數(shù) 140
6.3.6 回報折扣系數(shù) 140
6.3.7 策略函數(shù) 141
6.3.8 狀態(tài)值函數(shù) 141
6.3.9 狀態(tài)--動作值函數(shù) 142
6.4 蒙特卡洛方法 142
6.4.1 蒙特卡洛采樣 143
6.4.2 狀態(tài)值函數(shù)估計 143
6.4.3 狀態(tài)--動作值函數(shù)估計 143
6.4.4 值函數(shù)增量更新方法 144
6.4.5 蒙特卡洛強化學習偽代碼 146
6.5 時序差分學習 147
6.5.1 時序差分簡介 148
6.5.2 Q--learning算法簡介 149
6.5.3 Q--learning算法偽代碼 150
6.5.4 SARSA算法簡介 151
6.5.5 SARSA算法偽代碼 151
6.5.6 SARSA與Q--learning對比分析 152
6.6 策略梯度方法 153
6.6.1 軌跡概率 153
6.6.2 策略梯度 154
6.6.3 目標函數(shù) 154
6.6.4 蒙特卡洛策略梯度算法 155
6.6.5 REINFORCE算法偽代碼 156
6.7 強化學習分類 156
6.7.1 值函數(shù)方法和策略函數(shù)方法 157
6.7.2 On-policy 和 Off-policy強化學習 157
6.7.3 Online 和 Offline強化學習 157
6.7.4 Model-based 和 Model-free強化學習 157
6.8 應用實踐 158
6.8.1 狀態(tài)空間 158
6.8.2 動作空間 159
6.8.3 狀態(tài)轉(zhuǎn)換 159
6.8.4 即時獎勵 159
6.8.5 折扣系數(shù) 160
6.8.6 狀態(tài)價值函數(shù) 160
6.8.7 最優(yōu)策略函數(shù) 161
第6章習題 161
第7章 深度強化學習 163
7.1 深度強化學習背景 163
7.1.1 深度學習 163
7.1.2 深度強化學習 164
7.2 深度Q網(wǎng)絡方法 165
7.2.1 Q表格 165
7.2.2 軌跡采樣 165
7.2.3 深度神經(jīng)網(wǎng)絡近似策略函數(shù) 166
7.2.4 TD目標 167
7.2.5 TD誤差 167
7.2.6 目標函數(shù) 167
7.2.7 目標函數(shù)梯度 168
7.2.8 深度神經(jīng)網(wǎng)絡參數(shù)更新 168
7.2.9 最優(yōu)策略 169
7.3 深度Q網(wǎng)絡算法關鍵技術(shù) 169
7.3.1 -貪心策略 169
7.3.2 目標網(wǎng)絡 170
7.3.3 經(jīng)驗回放 170
7.3.4 DQN算法偽代碼 170
7.4 深度Q網(wǎng)絡算法面臨的挑戰(zhàn) 171
7.4.1 離策略 172
7.4.2 自舉 172
7.4.3 函數(shù)近似 172
7.5 深度策略梯度方法 172
7.5.1 深度Q神經(jīng)網(wǎng)絡算法的局限 172
7.5.2 深度策略梯度算法簡介 173
7.6 深度策略梯度算法關鍵技術(shù) 174
7.6.1 策略梯度估計 174
7.6.2 策略函數(shù)參數(shù)更新 175
7.6.3 優(yōu)勢函數(shù)估計 175
7.6.4 狀態(tài)值函數(shù)估計 176
7.6.5 深度策略梯度算法偽代碼 177
7.7 行動者--評論家方法 178
7.7.1 AC(Actor--Critic)算法簡介 178
7.7.2 A2C算法簡介 178
7.7.3 A2C算法偽代碼 179
7.8 應用與實踐的通用框架 180
7.8.1 馬爾可夫決策過程模型 180
7.8.2 狀態(tài)空間 181
7.8.3 動作空間 181
7.8.4 狀態(tài)轉(zhuǎn)移函數(shù) 181
7.8.5 即時獎勵函數(shù) 181
7.8.6 折扣系數(shù) 182
7.9 基于策略梯度算法的應用與實踐 182
7.9.1 復雜環(huán)境模型 182
7.9.2 深度學習模型 182
7.9.3 深度強化學習算法 183
7.9.4 智能體模型 185
7.9.5 深度強化學習模型訓練結(jié)果 186
7.10 基于深度Q網(wǎng)絡算法的應用與實踐 187
7.10.1 游戲環(huán)境狀態(tài)空間 187
7.10.2 智能體動作空間 188
7.10.3 游戲即時獎勵 188
7.10.4 游戲狀態(tài)轉(zhuǎn)移模型 189
7.10.5 游戲環(huán)境模型 189
7.10.6 游戲策略模型 189
7.10.7 深度強化學習算法 189
7.10.8 模型訓練分析 190
7.10.9 模型結(jié)果分析 191
7.10.10 模型改進分析 192
第7章習題 194
第三部分 圖強化學習模型框架和應用實踐
第8章 圖強化學習基礎 197
8.1 圖強化學習背景 197
8.1.1 多學科交叉融合 197
8.1.2 多學科關聯(lián)關系圖 198
8.1.3 圖與網(wǎng)絡的基礎理論和方法 199
8.1.4 圖與機器學習的基礎理論和方法 199
8.1.5 圖神經(jīng)網(wǎng)絡的基礎理論和方法 199
8.1.6 深度強化學習的基礎理論和方法 199
8.2 圖神經(jīng)網(wǎng)絡和強化學習 200
8.2.1 圖神經(jīng)網(wǎng)絡和強化學習的融合 200
8.2.2 圖強化學習和強化學習的區(qū)別 201
8.2.3 圖神經(jīng)網(wǎng)絡提升強化學習性能 201
8.2.4 強化學習提升圖神經(jīng)網(wǎng)絡性能 202
8.3 圖強化學習模型概要 202
8.3.1 復雜系統(tǒng) 203
8.3.2 環(huán)境模型 203
8.3.3 圖和網(wǎng)絡 203
8.3.4 深度神經(jīng)網(wǎng)絡 203
8.3.5 深度強化學習 204
8.3.6 優(yōu)化算法 204
8.3.7 圖強化學習框架概要 205
8.4 圖強化學習框架硬件層 206
8.4.1 中央處理器 206
8.4.2 圖形處理器 206
8.4.3 張量處理器 206
8.4.4 其他處理器 207
8.5 圖強化學習框架平臺層 207
8.5.1 深度學習平臺簡介 207
8.5.2 深度學習平臺:TensorFlow 207
8.5.3 深度學習平臺:PyTorch 208
8.5.4 深度學習其他平臺 208
8.6 圖強化學習框架算法層 208
8.6.1 深度強化學習框架簡介 209
8.6.2 深度強化學習框架:Stable--baselines 209
8.6.3 深度強化學習框架:Reinforcement Learning Coach 210
8.6.4 深度圖神經(jīng)網(wǎng)絡框架簡介 210
8.6.5 深度圖神經(jīng)網(wǎng)絡框架:PyTorch Geometric 210
8.6.6 深度圖神經(jīng)網(wǎng)絡框架:Deep Graph Library 211
8.7 圖強化學習框架應用層 211
8.8 圖強化學習建模 211
8.8.1 圖強化學習與馬爾可夫決策過程 211
8.8.2 圖強化學習建模流程 212
8.8.3 問題提出 212
8.8.4 環(huán)境建模 213
8.8.5 智能體建模 213
8.8.6 模型訓練 214
8.8.7 模型測試 214
8.9 應用實踐 214
8.9.1 深度強化學習模塊 214
8.9.2 圖神經(jīng)網(wǎng)絡模塊 215
8.9.3 其他圖神經(jīng)網(wǎng)絡模塊 217
第8章習題 218
第9章 圖強化學習應用 219
9.1 圖強化學習模型框架 219
9.2 圖強化學習模塊概述 220
9.2.1 復雜環(huán)境模塊 221
9.2.2 圖神經(jīng)網(wǎng)絡模塊 221
9.2.3 強化學習模塊 221
9.2.4 智能體模塊 221
9.2.5 工具類模塊 222
9.2.6 其他模塊 222
9.3 復雜環(huán)境模塊 222
9.3.1 環(huán)境模塊定義 222
9.3.2 環(huán)境模塊定義代碼 222
9.3.3 基于圖的環(huán)境模塊定義 224
9.3.4 基于圖的環(huán)境模塊重置定義 224
9.3.5 基于圖的環(huán)境狀態(tài)轉(zhuǎn)移定義 224
9.4 圖神經(jīng)網(wǎng)絡模塊 225
9.4.1 圖神經(jīng)網(wǎng)絡模型選擇 225
9.4.2 圖神經(jīng)網(wǎng)絡模塊代碼示例 225
9.4.3 圖神經(jīng)網(wǎng)絡模塊代碼解析 226
9.5 強化學習模塊 227
9.5.1 強化學習算法選擇 227
9.5.2 強化學習算法示例代碼 227
9.5.3 強化學習算法示例代碼解析 228
9.6 智能體模塊 229
9.6.1 智能體模塊示例代碼 229
9.6.2 智能體模塊示例代碼解析 230
9.6.3 模型訓練結(jié)果 231
9.7 工具類模塊 232
9.8 圖強化學習模型改進 232
9.8.1 模型改進目標 233
9.8.2 模型改進方向 233
9.8.3 圖神經(jīng)網(wǎng)絡模型改進代碼示例 234
9.8.4 圖神經(jīng)網(wǎng)絡模塊代碼解析 234
9.8.5 強化學習算法改進 234
第9章習題 235
第10章 圖強化學習展望 237
10.1 圖強化學習概括 237
10.1.1 方法的起源 237
10.1.2 方法的發(fā)展 238
10.1.3 層次關系 238
10.2 圖強化學習特色 238
10.2.1 學科交叉性 239
10.2.2 系統(tǒng)復雜性 239
10.2.3 框架普適性 239
10.3 圖數(shù)據(jù)分析方法 239
10.3.1 數(shù)值分析方法 240
10.3.2 仿真模擬方法 240
10.3.3 優(yōu)化方法 241
10.3.4 數(shù)據(jù)驅(qū)動方法 241
10.3.5 圖強化學習方法 241
10.4 圖強化學習應用 242
10.4.1 網(wǎng)絡關鍵節(jié)點識別 242
10.4.2 網(wǎng)絡關鍵連邊識別 242
10.4.3 知識圖譜 243
10.4.4 組合優(yōu)化 243
10.5 圖神經(jīng)網(wǎng)絡展望 243
10.5.1 人工智能的新引擎 243
10.5.2 圖神經(jīng)網(wǎng)絡進展 244
10.5.3 圖神經(jīng)網(wǎng)絡的可解釋性 244
10.6 深度強化學習展望 245
10.6.1 自動強化學習 246
10.6.2 分層強化學習 246
10.6.3 多智能體強化學習 246
10.7 圖強化學習前沿領域 247
10.7.1 圖上的組合優(yōu)化 247
10.7.2 圖理論應用的前沿 247
10.7.3 交叉研究的前沿 248
10.8 人工智能三大學派融合 248
10.8.1 人工智能的三大學派 248
10.8.2 圖強化學習融合三大學派 249
第10章習題 250