*控制是現(xiàn)代控制理論中的重要課題。近年來,隨著工程應(yīng)用的需求和人工智能的興起,在系統(tǒng)模型未知或部分未知的情況下尋求近似*控制的方法逐漸嶄露頭角。本書上冊包括*控制基礎(chǔ)和*控制的數(shù)學理論兩部分,著重介紹經(jīng)典變分法、龐特里亞金極小值原理以及動態(tài)規(guī)劃方法;下冊側(cè)重*控制的智能方法,包括強化學習與自適應(yīng)動態(tài)規(guī)劃、*控制的數(shù)值方法、模型預測控制、微分博弈以及平行控制。為了適應(yīng)智能時代的人才需求,我們在中國科學院大學計算機與控制學院和人工智能學院開設(shè)了包含*控制數(shù)學理論與智能方法的研究生專業(yè)課,并在課程講義的基礎(chǔ)上整理得到本書。
本書上冊可作為高年級本科生或研究生的*控制課程教材,上下冊的結(jié)合可供控制論、人工智能、管理學等領(lǐng)域的學生、科研人員和專業(yè)技術(shù)人員參考。
*控制是現(xiàn)代控制理論中的重要課題。近年來,隨著工程應(yīng)用的需求和人工智能的興起,在系統(tǒng)模型未知或部分未知的情況下尋求近似*控制的方法逐漸嶄露頭角。本書上冊包括*控制基礎(chǔ)和*控制的數(shù)學理論兩部分,著重介紹經(jīng)典變分法、龐特里亞金極小值原理以及動態(tài)規(guī)劃方法;下冊側(cè)重*控制的智能方法,包括強化學習與自適應(yīng)動態(tài)規(guī)劃、*控制的數(shù)值方法、模型預測控制、微分博弈以及平行控制。為了適應(yīng)智能時代的人才需求,我們在中國科學院大學計算機與控制學院和人工智能學院開設(shè)了包含*控制數(shù)學理論與智能方法的研究生專業(yè)課,并在課程講義的基礎(chǔ)上整理得到本書。本書上冊可作為高年級本科生或研究生的*控制課程教材,上下冊的結(jié)合可供控制論、人工智能、管理學等領(lǐng)域的學生、科研人員和專業(yè)技術(shù)人員參考。
最優(yōu)控制與最優(yōu)教學
三十多年前,最優(yōu)控制曾是我由力學轉(zhuǎn)入控制后的首選方向。記得第一個課題就是橋梁和高層
建筑的主動減振控制,屬分布參數(shù)系統(tǒng)問題;第二個是非線性問題的次優(yōu)控制,試圖利用最小二乘
方法和勒讓德特殊函數(shù)進行遞歸求解 Hamilton-Jacobi-Bellman(HJB)方程?上б蚱渌芯咳蝿(wù)
最后都沒持續(xù)下去,成為心中至今的遺憾。喜歡最優(yōu)控制的一個重要原因是大學和碩士期間著迷于
變分法、力學和物理中各種各樣的變分原理、泛函分析及其在希爾伯特空間的幾何表示方式。我一
直希望能利用泛函從代數(shù)幾何空間的角度去解釋最優(yōu)控制,并進而在流形上近似求解各種非線性最
優(yōu)控制問題。
赴美留學之后,研究方向立刻轉(zhuǎn)入以人工智能為基礎(chǔ)和以智能機器人系統(tǒng)為對象的智能控制。1986年,上導師 George N.Saridis教授的自組織系統(tǒng)之隨機控制(Stochastic Control of Self-organizing Systems)課時,一度曾有機會回頭從事最優(yōu)控制的研究,但由于對于如何利用熵(entropy)表示與導師有嚴重的分歧,一番爭吵之后,最后少果而終,僅留下一篇會議論文和一篇雜志論文 1。有幸的是,這讓我有機會獨立地提出了早期自適應(yīng)動態(tài)規(guī)劃( adaptive dynamic
programming,ADP,最初稱為
approximate dynamic programming)的思想。更可喜的是,今天,
以劉德榮教授和魏慶來研究員為代表的復雜系統(tǒng)管理與控制國家重點實驗室團隊在此領(lǐng)域碩果累
累,已成為國際上研究 ADP的先鋒與重鎮(zhèn)。
其實,至今我仍認為熵表示可能是統(tǒng)一各種最優(yōu)控制方法,特別是將自適應(yīng)和預測控制統(tǒng)一起
來的可行途徑,甚至更廣泛的平行控制也可以納入熵表示的框架之中。特別是跟隨副導師 Robert
F. McNaughton教授上完自動機、形式語言和理論計算機課程之后,更感到控制熵與信息熵、計算復雜性之間有著深刻的內(nèi)在關(guān)聯(lián),再加上學習控制和機器學習(當時稱為學習機器,learning
1關(guān)于爭吵的部分描述見 2001年出版的 Modeling
Uncertainty: An Examination of Stochastic Theory, Methods, and Applications第 16章最后一節(jié)。會議論文之后于
1992年發(fā)表于圖森召開的 IEEE控制與決策會議,題為 Suboptimal Control for Nonlinear Stochastic Systems。雜志論文于 1994年發(fā)表于 Control
Theory and Advanced Technology第 10卷第 4期,題為 Suboptimal Control of Nonlinear Stochastic Systems。
machines)方法,或許能夠創(chuàng)出一條從最優(yōu)控制的數(shù)學理論到最優(yōu)控制的智能方法之新路 2。這三十余年來未熄的夢想,就是驅(qū)動創(chuàng)作本書的原始動機。
當然,本書的寫作還有一個十分顯然的現(xiàn)實動機。近十年來,周圍愿以控制理論和控制工程專業(yè)為第一選擇的學生相對大大減少,學生們都希望轉(zhuǎn)入其他以算法為主更時興、見效更快的專業(yè)。相對而言,控制付出大,回報卻不見得大。然而,控制是硬科技,更是智能技術(shù)中的硬智能。沒有過硬的控制,許多想法和算法無法落地。而且,最優(yōu)控制是控制之中的硬課程,是硬中之硬。正如國家與社會的發(fā)展不能只發(fā)展虛擬經(jīng)濟,必須有強硬的實體經(jīng)濟支撐,技術(shù)的健康發(fā)展,一定也不可忽略控制技術(shù),必須有高質(zhì)量的人才不斷加入控制技術(shù)的研究與開發(fā)之中才可持續(xù)。因此,一部與時代技術(shù)和應(yīng)用要求合拍的最優(yōu)控制教程,是吸引更多優(yōu)秀學生從事控制專業(yè)的重要一步,這就是本書寫作的現(xiàn)實動機。
因此, 2015年秋,我答應(yīng)承擔起中國科學院大學(以下簡稱國科大)計算機與控制學院的
最優(yōu)控制研究生教學任務(wù),并籌劃寫一本新的最優(yōu)控制教材。最初有兩個計劃,一是按以學習者為中心的教育(learner-centered education,LCE,其中老師和學生都是學習者)之思想教學,并按照教學三境界方式安排教學內(nèi)容和進度;二是變編年體式的教科書為紀傳體的教材,就像《史記》開創(chuàng)中國史書的撰寫新方式,希望使最優(yōu)控制這門課的課本盡量生動有趣,與時代相宜。
所謂教學三境界是仿王國維關(guān)于詞之三層境界之說,讓教學也有三階段或三境界:
1
)開始:滴水見大海, See the whole ocean from a drop of water。用開始的幾堂課,把最優(yōu)控制的核心問題、主要概念和關(guān)鍵方法以最簡單的例子講清楚。目的就是帶學生登頂看城,讓學生有一個整體觀。
2
)過程:借用蘇軾的《題西林壁》,橫看成嶺側(cè)成峰,遠近高低各不同。不識廬山真面目,只緣身在此山中。Difficulty and confused, but not lost, still know where you are and
enjoy.滴水階段之后,根據(jù)學生水平和興趣及教學要求,放開地去講,但不斷地與滴水的內(nèi)容回連和關(guān)聯(lián)。學生可以不懂,但必須知道懂了什么、不知什么,內(nèi)容的意義或意味著什么。這就如同帶領(lǐng)學生手機地圖探城,大街小巷任游。
3
)結(jié)局:借用杜甫的《望岳》,蕩胸生層云,決眥入歸鳥。會當凌絕頂,一覽眾山小。
In the end you feel like an expert in Optimal Control:Be there,done that,and so what!課的后期,以一個綜合的題目或項目,把滴水階段的問題、概念、方法再回頭以廬山階段學到的手段一網(wǎng)打盡,讓學生從心理上感覺到自己了解掌握了最優(yōu)控制的精髓,上升到泰山境地,今后可以
2見 1989年王飛躍在
NASA/RPI空間探索智能機器人系統(tǒng)中心提交的題為 Information-based Complexity and Its Application in Intelligent
Machines的工作報告。
有信心地使用或補習最優(yōu)控制的方法和技術(shù)。這就像游城之后,讓學生講述經(jīng)歷和體會,讓他們有這座城市我去過,是一個活生生的地方,消除心理障礙,不再抽象神秘了。
這是我在美教授二十年機器人與自動化(Robotics and Automation)課程的實踐與經(jīng)驗的總結(jié),曾獲得很好的效果,使學生對內(nèi)容的理解從原來大約 20%的程度提高到差不多 70%3。最優(yōu)控制差不多是控制課程中最難的,我希望以三境界的方法教授國科大的最優(yōu)控制。
新型教材的撰寫更是自己很久以來的想法。讀過許多領(lǐng)域的專業(yè)著作,多數(shù)初讀時的感覺很難擺脫枯燥無味四字,往往對書中一些內(nèi)容不知為什么、干什么,更不知誰提出來了,當時的情景與動機是什么。沒有歷史感,更無發(fā)展感。每當此時,我就想起小時看過的文革之前的一些中小學課本:物理課本介紹牛頓定律時有牛頓的頭像和簡介,化學課本介紹元素周期表時有門捷列夫的畫像和故事,似乎自己就是因此才養(yǎng)成喜歡讀書的習慣。
一次,讀《史記》紀傳體形成過程研究的論文,深嘆司馬遷納百家眾體,創(chuàng)新出以紀傳體為中心,五體相依,體系嚴密的新史體,以致百代而下,史官不能易其法,學者不能舍其書,從此
《春秋》《左傳》《國語》等編年體史書不再主流,而紀傳體不斷發(fā)展延至今日。個人認為,今天絕大多數(shù)的專業(yè)著作和教科書之寫作方式仍屬知識的編年體,太注重知識本身之用,卻忘了是誰去學誰去用。我們應(yīng)該學習司馬遷,重視專業(yè)知識之前、之中、之后的人,就是學習者和應(yīng)用者,用知識描述的紀傳體方式來創(chuàng)作專著和教科書,讓人在其中,故事穿之,使死知識變活知識,生動有趣,讓 LCE以學習者為中心的教育和教學不再是口號和空話。由于時間的原因,本書的寫作,只是沿此方向的一個十分初步的嘗試,希望將來有機會結(jié)合 wiki、微信和網(wǎng)絡(luò)化、可視化等技術(shù)深入系統(tǒng)地研究紀傳體的教科書和學術(shù)著作應(yīng)如何撰寫4。
由于肩負其他科研任務(wù),我無法以個人之力完成最優(yōu)控制的教學和教材寫作任務(wù)。這些任務(wù)的完成,特別是本書寫作,張杰博士是最主要的貢獻者。張杰大學在清華大學讀數(shù)學,碩士在人民大學攻經(jīng)濟,博士期間才開始在中科院自動化所與我一起從事社會計算、計算經(jīng)濟,特別是博弈論方面的研究工作。我一直希望張杰能以閉環(huán)實時反饋的思路在平行經(jīng)濟,特別是平行博弈方向有所建樹,所以要求他再回頭補足一些控制的核心知識。因此,博士一畢業(yè),就安排他與我一起教授
最優(yōu)控制,并承擔了大部分的教學和教材工作。兩年多來,我?guī)缀踔皇莿涌诓⒎磸蜔o常地提出了許多幾近苛刻的要求,張杰博士總是全力以赴,而且給了我許多事先沒有想到的驚喜。我堅信,張杰博士一定會獨立成為最優(yōu)控制這門課的一位非常優(yōu)秀的教師。
3見王飛躍科學網(wǎng)博客:《關(guān)于機器人課教學的三境界實踐簡憶》,http://blog.sciencenet.cn/blog-2374-860504.html。 4更多關(guān)于教學的想法,請見王飛躍科學網(wǎng)博客:《我的教學夢》,http://blog.sciencenet.cn/blog-2374-6431.html;以及《將來如何教學生?》,http://blog.sciencenet.cn/blog-2374-341680.html。
2015年最優(yōu)控制課后部分師生交流合影,就座二人為授課教師,本書作者王飛躍、張杰(摘自 2015年國科大最優(yōu)控制課程紀念冊)
第一年( 2015年)教授最優(yōu)控制時,我還請了北京交通大學的侯忠生教授,講授數(shù)據(jù)驅(qū)動的控制方法;我們實驗室的魏慶來研究員,講授自適應(yīng)動態(tài)規(guī)劃方法。第二年( 2016年)上課時,邀請了國科大的王立新教授講授模糊邏輯和模糊控制,以及美國印第安納大學 -普渡大學的李靈犀教授講授強化學習方法。在張杰博士的精心協(xié)調(diào)和安排之下,講課效果之佳完全超出我的預想,學期結(jié)束時得到了許多同學積極正面的反饋,摘錄如下:
教學三境界
第一次接觸到這般教學思想,從整體到局部,再從局部回歸整體。如今課程結(jié)束,那些知識卻深深地印在腦海之中。
幾位老師給我們描繪了一幅控制的完美歷史畫卷,張老師說他喜歡這種歷史的厚重感,敢問又有哪位同學能不被這么美妙的歷史所吸引。在這種強烈的興趣下我也相信每位同學都愿意深入這門課程去探索科學的真諦。
最優(yōu)控制理論是我十幾年的求學過程中上過的最優(yōu)質(zhì)的課程。課程內(nèi)容既扎根本質(zhì)又放眼前沿,高大上的微信公眾平臺也讓我得以隨時了解課堂信息,全面、客觀的考核方式更是讓我真正做到了平時努力學,考試輕松過。
在懷柔國科大,有幸能上最優(yōu)控制理論這門課,遇到那么棒的老師,認識一群那么棒的同學,是我這輩子,學生時代,最美好的回憶!
國科大最優(yōu)控制2015年授課教師,左上為中科院自動化所王飛躍教授,左下為北京交通大學侯忠生教授,右上為中科院自動化所張杰副研究員,右下為中科院自動化所魏慶來研究員(摘自 2015年國科大最優(yōu)控制課程紀念冊)
特別令我高興的是,第一年結(jié)束時,我還得到一本由最優(yōu)控制課程的教學照片和評語制作成的紀念冊,不但精美,而且難忘。這不但讓我感到自己所費心血值得,也再次讓我想起物理學大師 John Wheeler的話:大學里為什么要有學生?那是因為老師有不懂的東西,需要學生來幫助解答。
國科大最優(yōu)控制2016年部分授課教師,左圖為國科大王立新教授,右圖為印第安納大學 -普渡大學李靈犀教授
2016年最優(yōu)控制課后師生共游國科大后山雁棲湖,左三、左五、左六分別為本課教師張杰、王飛躍、王立新
回國后能有這樣一次令人難忘的教學經(jīng)歷,十分難得,為此我必須感謝上課的兩百余名同學和五名教授團隊,特別是付出最大努力的張杰博士。然而,這離我最初希望以教學三境界為支撐,以平行課堂和平行教育的方式進行最優(yōu)控制教學的設(shè)想還有很大一段距離?上驳氖,兩年來的教學實踐和教材撰寫已為下一步的智能化平行教學奠定了一個良好的基礎(chǔ)。衷心希望這本教材所開始的新教學理念,能在同學的幫助之下得到深入地發(fā)展和鞏固,使本書的下冊《最優(yōu)控制
智能方法》更加完善和成功,也為教學改革做一次有益且有效的努力。
《最優(yōu)控制
數(shù)學理論與智能方法》(上冊)是一次教學和教材的改革嘗試,一定存在許多不足之處,作為主導和組織者,對此我必須承擔全部責任。在此,我十分感謝王雨桐、白天翔、曾帥博士、張曉磊、顧穎城、王曉博士、高琳等幫助此課的同事和同學。希望本書面世后能夠得到相關(guān)專家和一線師生的批評指正,以便今后改正和改進,在此表示衷心的感謝。
2017年夏末于北京靜安園中國科學院自動化研究所復雜系統(tǒng)管理與控制國家重點實驗室中國國防科技大學軍事計算實驗與平行系統(tǒng)技術(shù)研究中心
第 1部分最優(yōu)控制介紹
第 1章最優(yōu)控制基礎(chǔ) 3
11引言 4
12變分問題 5
121最速降線問題 5
122等周問題 7
123變分法的誕生 9
13最優(yōu)控制問題 13
131最優(yōu)控制問題的早期探索 13
132最優(yōu)控制問題數(shù)學理論的奠基16
133無確定模型的最優(yōu)控制問題:智能方法 26
小結(jié) 34
第 2章最優(yōu)控制方法 35
21變分法與最優(yōu)控制的駐點條件 36
211 Euler的幾何方法 36
212 Lagrange的 方法39
213 Lagrange乘子法43
214 Hestenes的經(jīng)典變分求解最優(yōu)控制44
215變分法解最優(yōu)控制示例45
22 Pontryagin極小值原理與最優(yōu)控制的必要條件 48
221 Weierstrass-Erdmann條件 48
222 Weierstrass條件50
223 Pontryagin極小值原理 51
224極小值原理解最優(yōu)控制示例 53
23動態(tài)規(guī)劃與最優(yōu)控制的充分條件54
231 Hamilton-Jacobi方程 54
232 Bellman的動態(tài)規(guī)劃方法55
233動態(tài)規(guī)劃解最優(yōu)控制示例 57
24微分博弈與最優(yōu)控制的平衡條件59
241博弈與平衡 60
242 Isaac的微分博弈 63
25自適應(yīng)動態(tài)規(guī)劃 66
251神經(jīng)網(wǎng)絡(luò)與反向傳播算法 66
252離散時間自適應(yīng)動態(tài)規(guī)劃 69
253連續(xù)時間自適應(yīng)動態(tài)規(guī)劃 72
254神經(jīng)網(wǎng)絡(luò)與控制74
255自適應(yīng)動態(tài)規(guī)劃求解最優(yōu)控制示例 74
26模型預測控制 77
261最優(yōu)控制的數(shù)值方法 78
262模型預測控制求解最優(yōu)控制示例 79
27平行控制 81
271 ACP方法的基本概念82
272平行控制的基本框架和原則 82
小結(jié) 85
第 2部分最優(yōu)控制的數(shù)學理論
第 3章最優(yōu)控制的變分方法 89
31函數(shù)極值問題 90
311函數(shù)極值與 Taylor展開 90
312函數(shù)極值的必要條件和充分條件 92
32變分初步:從函數(shù)極值到泛函極值 95
321泛函及其范數(shù) 96
322從函數(shù)極值到泛函極值98
323泛函極值的必要條件 103
324 Euler-Lagrange方程的求解 110
325 Euler-Lagrange方程與 Hamilton方程組116
33等式約束的處理 119
331 Lagrange乘子法回顧 119
332微分約束的泛函極值 121
333積分約束的泛函極值 126
34目標集的處理 130
341兄弟打賭:具有可變端點的變分問題130
342目標集終端時刻固定,終端狀態(tài)自由131
343目標集終端時刻自由,終端狀態(tài)固定135
344目標集終端時刻和狀態(tài)自由且無關(guān) 141
345性能指標的轉(zhuǎn)化與一般目標集的處理143
35從變分法到最優(yōu)控制 149
351變分法求解最優(yōu)控制問題:極小值原理初探150
352有一般目標集的最優(yōu)控制問題154
353分段連續(xù)可微的最優(yōu)控制 157
354 Weierstrass-Erdmann條件與
Weierstrass條件 167
355穩(wěn)態(tài)系統(tǒng)的 Hamiltonian函數(shù) 169
小結(jié) 172
第 4章 Pontryagin極小值原理173
41 Pontryagin極小值原理基礎(chǔ)174
411 Pontryagin極小值原理的表述 174
412穩(wěn)態(tài) Mayer形式極小值原理的證明179
413穩(wěn)態(tài) Bolza形式極小值原理的證明191
414時變系統(tǒng)極小值原理的證明 195
415一般目標集的處理 198
42極小值原理求解最優(yōu)控制的例子201
421極小值原理求解無約束最優(yōu)控制 202
422極小值原理求解有約束的最優(yōu)控制 206
43時間最短控制與燃料最省控制 213
431時間最短控制的 Bang-Bang控制原理 213
432線性定常系統(tǒng)的時間最短控制示例 218
433燃料最省控制與 Bang-off-Bang控制原理 227
434時間和燃料加權(quán)的最優(yōu)控制示例 233
44線性二次型最優(yōu)控制 243
441線性二次型最優(yōu)控制與 Ricatti方程243
442極小值原理求解線性二次型最優(yōu)控制示例
247
小結(jié) 251
第 5章動態(tài)規(guī)劃253
51最優(yōu)性原理254
511多階段決策的最優(yōu)性原理 254
512動態(tài)規(guī)劃求解最短路示例 256
52動態(tài)規(guī)劃求解離散最優(yōu)控制 259
521離散時間最優(yōu)控制問題259
522 Bellman方程 262
523動態(tài)規(guī)劃求解離散最優(yōu)控制示例 263
524維數(shù)災難之咒 281
53動態(tài)規(guī)劃求解連續(xù)最優(yōu)控制 282
531 Hamilton-Jacobi-Bellman方程 282
532動態(tài)規(guī)劃與極小值原理的關(guān)系289
533動態(tài)規(guī)劃求解連續(xù)最優(yōu)控制示例 291
54動態(tài)規(guī)劃求解線性二次型最優(yōu)控制 296
541離散時間線性二次型最優(yōu)控制296
542連續(xù)時間線性二次型最優(yōu)控制302
543二次型性能指標的參數(shù)305
小結(jié) 308
參考文獻 309
索引 321