決策算法 [美]米凱爾·J. 科申德弗 蒂姆·A. 惠勒
定 價:149 元
- 作者:[美]米凱爾·J. 科申德弗, [美]蒂姆·A. 惠勒, [美]凱爾·H. 雷
- 出版時間:2024/8/1
- ISBN:9787111756583
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:C934
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
本書源于斯坦福大學的相關(guān)課程,主要介紹不確定狀態(tài)下的決策算法,涵蓋基本的數(shù)學問題和求解算法。本書共分為五個部分:首先解決在單個時間點上簡單決策的不確定性和目標的推理問題;然后介紹隨機環(huán)境中的序列決策問題;接著討論模型不確定性,包括基于模型的方法和無模型的方法;之后討論狀態(tài)不確定性,包括jing確信念狀態(tài)規(guī)劃、離線信念狀態(tài)規(guī)劃、在線信念狀態(tài)規(guī)劃等;zui后討論多智能體系統(tǒng),涉及多智能體推理和協(xié)作智能體等。本書主要關(guān)注規(guī)劃和強化學習,其中一些技術(shù)涉及監(jiān)督學習和優(yōu)化。書中的算法是用Julia編程語言實現(xiàn)的,并配有大量圖表、示例和練習題。本書要求讀者具備扎實的數(shù)學基礎,適合計算機科學、數(shù)學、統(tǒng)計學、電氣工程、航空航天等領域的讀者閱讀。
本書源于斯坦福大學的課程“不確定性狀態(tài)下的決策”,主要介紹不確定狀態(tài)下的決策算法,涵蓋基本的數(shù)學問題和求解算法。本書主要關(guān)注規(guī)劃和強化學習,其中一些技術(shù)涉及監(jiān)督學習和優(yōu)化。書中的算法是用Julia編程語言實現(xiàn)的,并配有大量圖表、示例和練習題。
前言
Algorithms for Decision Making
本書廣泛而深入地介紹不確定性狀態(tài)下的決策算法,涵蓋與決策相關(guān)的各種主題,闡述解決相關(guān)問題所涉及的基本數(shù)學公式和算法。本書還提供各類圖表以及大量的應用示例和練習題,以便向讀者傳達各種方法所隱含的直觀思想。
本書面向高年級本科生、研究生以及專業(yè)人士,要求讀者具有扎實的數(shù)學基礎,并假設讀者已經(jīng)掌握了多變量微積分、線性代數(shù)和概率論等方面的相關(guān)概念和知識。附錄中提供了相關(guān)的參考資料。本書適用于數(shù)學、統(tǒng)計學、計算機科學、航空航天、電氣工程和運籌學等學科領域。
算法是本書的基礎。本書使用Julia程序設計語言來實現(xiàn)書中的算法。Julia程序設計語言非常適合以人類可讀的形式來描述算法。算法實現(xiàn)的設計重點是可解釋性,而不是執(zhí)行的效率。對于工業(yè)應用程序等,則可以使用替代的實現(xiàn)方案以提高效率。讀者可以免費使用本書中提供的所有代碼片段,但前提是必須明確指出代碼的來源。
Mykel JKochenderfer
Tim AWheeler
Kyle HWray
加利福尼亞州斯坦福
2022年2月28日
米凱爾·J. 科申德弗
(Mykel J. Kochenderfer)
斯坦福大學航空航天系和計算機科學系副教授,智能系統(tǒng)實驗室(SISL)主任。曾任職于麻省理工學院林肯實驗室。目前主要研究用于設計魯棒決策系統(tǒng)的算法和分析方法。他擁有愛丁堡大學博士學位。
蒂姆·A. 惠勒
(Tim A. Wheeler)
軟件工程師,主要從事自動駕駛、控制和決策系統(tǒng)方面的研發(fā)工作。他擁有斯坦福大學博士學位。
凱爾·H. 雷
(Kyle H. Wray)
Robust AI 公司工程總監(jiān),曾任硅谷創(chuàng)新聯(lián)盟實驗室首席研究員,目前主要從事自主機器人的研發(fā)工作,致力于設計和實現(xiàn)機器人決策系統(tǒng)。他擁有馬薩諸塞大學阿默斯特分校博士學位。
目錄
Algorithms for Decision Making
譯者序
前言
致謝
第1章導論1
11決策1
12應用2
121飛機防撞控制系統(tǒng)2
122自動駕駛控制系統(tǒng)2
123乳腺癌篩查2
124金融消費與投資組合配置3
125分布式森林火災監(jiān)控系統(tǒng)3
126火星科學探測3
13方法3
131顯式編程4
132監(jiān)督式學習4
133優(yōu)化4
134規(guī)劃4
135強化學習4
14自動化決策過程的歷史4
141經(jīng)濟學5
142心理學6
143神經(jīng)科學6
144計算機科學6
145工程7
146數(shù)學7
147運籌學8
15社會影響8
16本書組織結(jié)構(gòu)9
161概率推理9
162序列問題9
163模型不確定性10
164狀態(tài)不確定性10
165多智能體系統(tǒng)10
第一部分概率推理
第2章表示12
21信念度和概率12
22概率分布12
221離散概率分布13
222連續(xù)概率分布13
23聯(lián)合分布16
231離散聯(lián)合分布16
232連續(xù)聯(lián)合分配19
24條件分布20
241離散條件模型21
242條件高斯模型21
243線性高斯模型22
244條件線性高斯模型22
245sigmoid模型22
246確定性變量22
25貝葉斯網(wǎng)絡23
26條件獨立性25
27本章小結(jié)26
28練習題27
第3章推理30
31貝葉斯網(wǎng)絡中的推理30
32樸素貝葉斯模型中的推理33
33“和積”變量消除35
34信念傳播36
35計算復雜度37
36直接抽樣37
37似然加權(quán)抽樣39
38吉布斯抽樣41
39高斯模型中的推理43
310本章小結(jié)44
311練習題45
第4章參數(shù)學習49
41最大似然參數(shù)學習49
411類別分布的最大似然估計50
412高斯分布的最大似然估計50
413貝葉斯網(wǎng)絡的最大似然估計51
42貝葉斯參數(shù)學習53
421二元分布的貝葉斯學習54
422類別分布的貝葉斯學習55
423貝葉斯網(wǎng)絡的貝葉斯學習56
43非參數(shù)學習57
44缺失數(shù)據(jù)的學習58
441數(shù)據(jù)插值58
442期望最大化60
45本章小結(jié)62
46練習題62
第5章結(jié)構(gòu)學習66
51貝葉斯網(wǎng)絡評分66
52有向圖搜索68
53馬爾可夫等價類71
54部分有向圖搜索72
55本章小結(jié)73
56練習題73
第6章簡單決策75
61理性偏好上的約束75
62效用函數(shù)76
63效用誘導76
64最大期望效用原則78
65決策網(wǎng)絡79
66信息價值81
67非理性82
68本章小結(jié)84
69練習題84
第二部分序列問題
第7章精確求解方法88
71馬爾可夫決策過程88
72策略評估90
73值函數(shù)策略92
74策略迭代93
75值迭代94
76異步值迭代96
77線性規(guī)劃方程98
78具有二次型獎勵的線性系統(tǒng)99
79本章小結(jié)102
710練習題102
第8章近似值函數(shù)108
81參數(shù)化表示108
82最近鄰109
83核平滑110
84線性插值112
85單純形插值114
86線性回歸116
87神經(jīng)網(wǎng)絡回歸119
88本章小結(jié)119
89練習題120
第9章在線規(guī)劃123
91滾動時域規(guī)劃123
92基于預演的前瞻算法124
93正向搜索125
94分支定界法126
95稀疏抽樣127
96蒙特卡羅樹搜索128
97啟發(fā)式搜索134
98標記啟發(fā)式搜索136
99開環(huán)規(guī)劃139
991確定性模型預測控制140
992魯棒模型預測控制141
993多重預測模型預測控制142
910本章小結(jié)143
911練習題143
第10章策略搜索146
101近似策略評估146
102局部搜索147