欧美久久久久久久一区二区三区,久久天堂AV女色优精品

《深入淺出強(qiáng)化學(xué)習(xí)：原理入門》用通俗易懂的語言深入淺出地介紹了強(qiáng)化學(xué)習(xí)的基本原理，覆蓋了傳統(tǒng)的強(qiáng)化學(xué)習(xí)基本方法和當(dāng)前炙手可熱的深度強(qiáng)化學(xué)習(xí)方法。開篇從*基本的馬爾科夫決策過程入手，將強(qiáng)化學(xué)習(xí)問題納入到嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)框架中，接著闡述了解決此類問題*基本的方法動態(tài)規(guī)劃方法，并從中總結(jié)出解決強(qiáng)化學(xué)習(xí)問題的基本思路：交互迭代策略評估和策略改善。基于這個思路，分別介紹了基于值函數(shù)的強(qiáng)化學(xué)習(xí)方法和基于直接策略搜索的強(qiáng)化學(xué)習(xí)方法。*后介紹了逆向強(qiáng)化學(xué)習(xí)方法和近年具有代表性、比較前沿的強(qiáng)化學(xué)習(xí)方法。

除了系統(tǒng)地介紹基本理論，書中還介紹了相應(yīng)的數(shù)學(xué)基礎(chǔ)和編程實(shí)例。因此，《深入淺出強(qiáng)化學(xué)習(xí)：原理入門》既適合零基礎(chǔ)的人員入門學(xué)習(xí)、也適合相關(guān)科研人員作為研究參考。

2017年5月，AlphaGo擊敗世界圍棋冠軍柯潔，標(biāo)志著人工智能進(jìn)入一個新的階段。AlphaGo背后的核心算法深度強(qiáng)化學(xué)習(xí)成為繼深度學(xué)習(xí)之后廣泛受人關(guān)注的前沿?zé)狳c(diǎn)。與深度學(xué)習(xí)相比，深度強(qiáng)化學(xué)習(xí)具有更寬泛的應(yīng)用背景，可應(yīng)用于機(jī)器人、游戲、自然語言處理、圖像處理、視頻處理等領(lǐng)域。深度強(qiáng)化學(xué)習(xí)算法被認(rèn)為是最有可能實(shí)現(xiàn)通用人工智能計(jì)算的方法。不過，由于深度強(qiáng)化學(xué)習(xí)算法融合了深度學(xué)習(xí)、統(tǒng)計(jì)、信息學(xué)、運(yùn)籌學(xué)、概率論、優(yōu)化等多個學(xué)科的內(nèi)容，因此強(qiáng)化學(xué)習(xí)的入門門檻比較高，并且，到目前為止，市面上沒有一本零基礎(chǔ)全面介紹強(qiáng)化學(xué)習(xí)算法的書籍。

本書是筆者在南開大學(xué)計(jì)算機(jī)與控制工程學(xué)院做博士后期間，每周在課題組內(nèi)講解強(qiáng)化學(xué)習(xí)知識的講義合集。在學(xué)習(xí)強(qiáng)化學(xué)習(xí)基本理論的時候，我深深地感受到強(qiáng)化學(xué)習(xí)理論中的很多概念和公式都很難理解。經(jīng)過大量資料和文獻(xiàn)的查閱并終于理解一個全新的概念時，內(nèi)心涌現(xiàn)的那種喜悅和興奮，鼓動著我將這些知識分享給大家。為此，我在知乎開辟了《強(qiáng)化學(xué)習(xí)知識大講堂》專欄，并基本保持了每周一次更新的速度。該專欄得到大家的關(guān)注，很多知友反映受益良多，本書的雛形正是來源于此。在成書時，考慮到書的邏輯性和完整性，又添加了很多數(shù)學(xué)基礎(chǔ)和實(shí)例講解。希望本書能幫助更多的人入門強(qiáng)化學(xué)習(xí)，開啟自己的人工智能之旅。

在寫作過程中，博士后合作導(dǎo)師方勇純教授給了大量的建議，包括書的整體結(jié)構(gòu)、每一章的講述方式，甚至每個標(biāo)題的選擇。寫作后，方老師細(xì)致地審閱了全文，給出了詳細(xì)的批注，并多次當(dāng)面指導(dǎo)書稿的修改。正是因?yàn)榉嚼蠋煹哪托闹笇?dǎo)與辛勤付出，本書才得以順利完成。

同時，非常感謝組內(nèi)的研究生丁杰、朱威和趙銘慧三位同學(xué)，通過與他們的交流，我學(xué)會了如何更明晰地講解一個概念。本書的很多講解方式都是在與他們的交流中產(chǎn)生的。

本書在寫作過程中參考了很多文獻(xiàn)資料，這些文獻(xiàn)資料是無數(shù)科研工作者們?nèi)杖找挂箠^斗的成果。本書對這些成果進(jìn)行加工并形成了一套自成體系的原理入門教程。可以說沒有這些科研工作者們的豐碩成果就沒有今天蓬勃發(fā)展的人工智能，也就沒有這本書，在此對這些科學(xué)工作者們表示由衷的敬意。

本書前六章的內(nèi)容及組織思路很大部分參考了David Silver的網(wǎng)絡(luò)課程，同時參考了強(qiáng)化學(xué)習(xí)鼻祖 Richard S. Sutton等人所著的Reinforcement Learning: An Introduction，在此向Silver和Sutton致敬。

本書第8章介紹了置信域強(qiáng)化學(xué)習(xí)算法，主要參考了John Shulman的博士論文，在此向John Shulman博士及其導(dǎo)師Pieter Abbeel致敬。第10章主要介紹了Sergey Levine博士的工作，在此對其表示感謝。在強(qiáng)化學(xué)習(xí)前沿部分，本書介紹了最近一年該領(lǐng)域很優(yōu)秀的研究工作，如Donoghue的組合策略梯度和Qlearning方法，Tamar的值迭代網(wǎng)絡(luò)，Deisenroth的PILCO方法和McAllister的PILCO擴(kuò)展方法，在此對這些作者表示感謝。當(dāng)然，本書還介紹了很多其他科研工作者的工作，在此對他們一并致謝。

本書闡述的主要是前人提出的強(qiáng)化學(xué)習(xí)算法的基本理論，并沒有介紹筆者個人的工作，但在此仍然要感謝目前我負(fù)責(zé)的兩項(xiàng)基金的支持：國家自然科學(xué)基金青年基金（61603200）和中國博士后基金面上項(xiàng)目（2016M601256）。這兩個項(xiàng)目都和強(qiáng)化學(xué)習(xí)有關(guān)，本書也可看成是這兩個項(xiàng)目的前期調(diào)研和積累。關(guān)于更多筆者個人的工作，留待以后再與大家分享。

由于個人水平有限，書稿中難免有錯誤，歡迎各位同行和讀者批評指正。

感謝我的家人，感謝我的愛人王凱女士，感謝她長時間對我的理解和支持，沒有她的幫助，我一無所有，一事無成。這本書獻(xiàn)給她。

郭憲

2017年11月

你還可能感興趣

我要評論