馬氏決策過程是一個非常有用的決策分析工具,已經(jīng)成功的用于解決很多實(shí)際問題。利用馬氏決策過程的建模思想,可以將一些離散數(shù)學(xué)中的傳統(tǒng)問題描述為特殊的馬氏決策過程加以考慮。通過優(yōu)化這些特殊的馬氏決策過程,不僅可以為解決這些傳統(tǒng)問題提供新的思路,而且還可以促進(jìn)馬氏決策過程本身理論的發(fā)展。但是,在研究這類特殊馬氏決策過程時,只有引入攝動因素才能有效的處理問題,所以我們還介紹了馬氏決策的攝動理論。本書的內(nèi)容包括一些基本的馬氏決策過程知識,主要集中在有限狀態(tài)和有限行動的馬氏決策過程上。然后介紹了有關(guān)馬氏決策過程的攝動理論。最后,利用前面的內(nèi)容,比較詳細(xì)的介紹了攝動馬氏決策與哈密爾頓圈之間的關(guān)系和近些年的最新研究成果,提出了一些這個領(lǐng)域里人們現(xiàn)在最為感興趣的研究問題。
本書適用于三種讀者,一個是希望利用馬氏決策過程建立有效的模型來分析決策行為的讀者,通過前四章的閱讀可以了解基本的分析工具,后面的閱讀可以使讀者獲得建立具體模型并進(jìn)行分析的一些技巧;二是為希望利用這個隨機(jī)優(yōu)化的工具研究離散數(shù)學(xué)或者其他相關(guān)科學(xué)里的問題的讀者提供思路;最后,對于希望發(fā)展
本書主要介紹了兩個方面的研究工作:一個是馬氏決策過程的理論及其攝動問題。在介紹了一般的馬氏決策過程理論模型之后,本書還介紹了一些最新的相關(guān)進(jìn)展。特別的,本書專門介紹馬氏決策過程的攝動問題。 另一方面的工作就是將離散數(shù)學(xué)中的一類經(jīng)典問題,諸如哈密爾頓圈問題、旅行商問題等等嵌入到凸域上的、可處理的分析問題中去,使得問題可能得到解決。很明顯,這些經(jīng)典問題的主要困難是來自于問題定義域的離散性。將原始的確定性問題的關(guān)鍵元素賦予概率解釋之后,就可以獲得擴(kuò)展解域的凸化結(jié)構(gòu)。以哈密爾頓圈問題或者旅行商問題為例,可以建立一種技術(shù)將其嵌入到單攝動的馬氏決策過程中去。其主要思想就是將子圖解釋為由確定性策略(如果有,就包含哈密爾頓圈)為頂點(diǎn)所構(gòu)成的凸多面體空間中的元素,即為隨機(jī)平穩(wěn)策略所對應(yīng)。 本書主要從理論和算法兩個方面著手考慮哈密爾頓圈或者旅行商問題,揭示了圖論的理論結(jié)構(gòu)、概率代數(shù)和相應(yīng)的馬爾可夫鏈之間的一些關(guān)系,包括首次返回時間的矩、訪問節(jié)點(diǎn)的極限頻率、用于分析馬爾可夫鏈的某些矩陣的譜等等。本書還列出了一些尚未解決的開問題,以供讀者欣賞和研究。
總序
前言
主要符號表
第一部分 馬氏決策過程與攝動
第1章 緒論
1.1 序列決策模型
1.2 馬氏決策過程的例子
1.3 馬氏決策過程的定義與記號
1.3.1 決策時刻與周期
1.3.2 狀態(tài)與行動集
1.3.3 轉(zhuǎn)移概率和報酬
1.3.4 歷史、決策規(guī)則與策略
1.3.5 誘導(dǎo)過程、效用準(zhǔn)則與馬氏策略優(yōu)勢
1.4 馬氏決策過程的起源和發(fā)展
第2章 有限階段模型
2.1 最優(yōu)準(zhǔn)則
2.2 有限階段的策略迭代和最優(yōu)方程
2.3 最優(yōu)策略的存在性和算法
2.4 最優(yōu)策略的結(jié)構(gòu)
2.5 單調(diào)策略的最優(yōu)性
第3章 無限階段折扣模型
3.1 最優(yōu)準(zhǔn)則
3.2 最優(yōu)方程
3.3 最優(yōu)策略的存在性
3.4 策略迭代算法
3.5 值迭代算法
3.6 改進(jìn)的策略迭代算法
3.7 線性規(guī)劃算法
3.8 最優(yōu)單調(diào)策略
3.9 最優(yōu)策略的結(jié)構(gòu)
第4章 無限階段平均模型
4.1 最優(yōu)準(zhǔn)則
4.2 最優(yōu)平穩(wěn)策略的存在性
4.3 平穩(wěn)策略的一些特征
4.4 最優(yōu)方程與策略迭代算法
4.5 單鏈的線性規(guī)劃與相關(guān)問題
4.5.1 極限平均頻率
4.5.2 帶約束模型問題
4.5.3 方差問題
4.6 多鏈的線性規(guī)劃與相關(guān)問題
4.6.1 對偶可行解與隨機(jī)平穩(wěn)策略
4.6.2 基本可行解與確定性決策規(guī)則
4.6.3 最優(yōu)解與最優(yōu)策略
4.7 平均準(zhǔn)則下的Bellman最優(yōu)原則
第5章 攝動MDP
5.1 預(yù)備知識
5.2 一些基本記號和定義
5.3 攝動平均問題的漸進(jìn)性和極限控制原則
5.4 折扣準(zhǔn)則的攝動問題
5.5 一般的攝動
5.6 單攝動極限平均MDP的算法
5.6.1 假設(shè)與漸進(jìn)性質(zhì)
5.6.2 數(shù)學(xué)規(guī)劃和極限馬爾可夫決策問題
5.6.3 聚合一分解算法
5.7 進(jìn)一步的研究進(jìn)展
5.7.1 折扣權(quán)重攝動模型
5.7.2 折扣平均權(quán)重攝動問題
第二部分 攝動MDP與哈密爾頓圈
第6章 HC與MDP
6.1 哈密爾頓圈問題
6.2 有向圖到MDP的嵌入
6.3 平穩(wěn)策略的分類
6.4 約束折扣MDP與HC
6.5 約束折扣MDP的求解
6.6 HC與TSP
第7章 HCP嵌入MDP的攝動
7.1 轉(zhuǎn)移概率的攝動
7.1.1 轉(zhuǎn)移概率的對稱線性攝動
7.1.2 轉(zhuǎn)移概率的非對稱線性攝動
7.1.3 轉(zhuǎn)移概率的非對稱二次攝動
7.2 攝動下子圖的穩(wěn)態(tài)分布
7.3 非對稱線性攝動下的幾個例子
7.4 非對稱線性攝動下HC的性質(zhì)
7.5 更為精細(xì)的分析
7.6 開問題和有關(guān)猜想
第8章 頻率空間上的分析
8.1 長期平均MDP頻率空間中的HCP
8.2 二次非對稱攝動與新目標(biāo)函數(shù)
8.3 啟發(fā)式內(nèi)點(diǎn)算法
8.3.1 內(nèi)點(diǎn)算法簡介
8.3.2 關(guān)于(QP)求解的啟發(fā)式算法
8.3.3 數(shù)值計(jì)算例子
8.4 一些開問題及其他
第9章 雙隨機(jī)攝動與HC
9.1 基本矩陣
9.2 再談雙隨機(jī)攝動
9.3 漸進(jìn)表達(dá)式
9.4 優(yōu)化問題與HC的全局最優(yōu)性
9.4.1 非線性規(guī)劃問題
9.4.2 方向?qū)?shù)
9.4.3 HC既是局部也是全局最小
9.5 哈密爾頓間隙
9.6 對稱雙隨機(jī)矩陣的探討
9.7 混合時間及其變化的最小化
9.7.1 從不可約鏈到一般的情形
9.7.2 跡與對角線上的元素
9.7.3 攝動帶來的好處
9.7.4 帶有對稱線性攝動的雙隨機(jī)矩陣
第10章 將來的研究方向和結(jié)束語
10.1 將來的研究方向
10.2 結(jié)束語
參考文獻(xiàn)
索引
第一部分 馬氏決策過程與攝動
第1章 緒論
人們在做決策的時候,不僅要考慮做決策當(dāng)前的效果,也要照顧到所做的決策對長遠(yuǎn)利益的影響.正像一個長跑運(yùn)動員,他要根據(jù)需要跑的距離而合理分配自己的體力,以避免尚未跑完全程就筋疲力盡.因此,做決策不是孤立的,也就是說今天的決策會影響到明天,而明天的決策會影響到將來,如果不顧及對將來的影響而只考慮當(dāng)前的利益做決策,從長遠(yuǎn)的角度來看,效果不會很好。
本書涉及的馬爾可夫決策過程是在不確定環(huán)境下的一類序列決策模型,決策者不僅要考慮決策結(jié)果的即時效應(yīng),還要考慮為將來繼續(xù)做決策創(chuàng)造機(jī)會,也就是要考慮這次選擇決策后對將來發(fā)展過程的影響.看上去這個模型似乎不復(fù)雜,但是它的應(yīng)用極其廣泛,而且產(chǎn)生了豐富的數(shù)學(xué)理論,這一章主要通過一些例子來說明決策的過程和動態(tài),然后給出馬爾可夫決策過程的一般記號與定義,最后敘述了馬氏決策過程的發(fā)展簡史和一些比較有影響的相關(guān)書籍。
1.1 序列決策模型
我們用圖1.1描述多階段決策過程的一個完整步驟,在時刻t,控制系統(tǒng)的決策者觀察到系統(tǒng)當(dāng)前所處的狀態(tài),并根據(jù)這個狀態(tài)選