欧美成人午夜在线观看视频,樱桃app色版下载安装,日韩精品欧美激情亚洲综合

本書研究的靈感來自于近期的強(qiáng)化學(xué)習(xí)(RL)和信息物理系統(tǒng)(CPS)領(lǐng)域的發(fā)展。RL植根于行為心理學(xué)，是機(jī)器學(xué)習(xí)的主要分支之一。不同于其他機(jī)器學(xué)習(xí)算法（如監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)），RL的關(guān)鍵特征是其獨(dú)特的學(xué)習(xí)范式，即試錯(cuò)。與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合，深度RL變得如此強(qiáng)大，以至于許多復(fù)雜的系統(tǒng)可以被人工智能智能體在超人的水平上自動(dòng)管理。另一方面，CPS被設(shè)想在不久的將來給我們的社會(huì)帶來革命性的變化。這些例子包括新興的智能建筑、智能交通和電網(wǎng)。

適讀人群：科學(xué)、工程、計(jì)算機(jī)科學(xué)或應(yīng)用數(shù)學(xué)領(lǐng)域的研究生、本科生、研究人員和工程師。

本書的靈感來自強(qiáng)化學(xué)習(xí)（RL）與信息物理系統(tǒng)（CPS）領(lǐng)域近期的發(fā)展。強(qiáng)化學(xué)習(xí)植根于行為心理學(xué)，是機(jī)器學(xué)習(xí)的主要分支。與監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)這樣的機(jī)器學(xué)習(xí)算法不同，強(qiáng)化學(xué)習(xí)的主要特征是其獨(dú)一無二的學(xué)習(xí)范式——試錯(cuò)法。通過與深度神經(jīng)網(wǎng)絡(luò)結(jié)合，深度強(qiáng)化學(xué)習(xí)變得非常強(qiáng)大，使得AI智能體能夠以超人類的水平自動(dòng)管理許多復(fù)雜的系統(tǒng)。此外，人們期望信息物理系統(tǒng)能夠在不久的將來給我們的社會(huì)帶來顛覆性改變，例如新興智能建筑、智能交通和電網(wǎng)。
然而，信息物理系統(tǒng)領(lǐng)域的傳統(tǒng)人工編程控制器，既不能處理日益復(fù)雜的系統(tǒng)，也不能自動(dòng)適應(yīng)它以前從未遇到過的新情況。如何應(yīng)用現(xiàn)有的深度強(qiáng)化學(xué)習(xí)算法或開發(fā)新的強(qiáng)化學(xué)習(xí)算法以實(shí)現(xiàn)實(shí)時(shí)適應(yīng)性信息物理系統(tǒng)？此問題仍然懸而未決。本書通過系統(tǒng)介紹強(qiáng)化學(xué)習(xí)領(lǐng)域的基礎(chǔ)與算法，在兩個(gè)領(lǐng)域之間建立起聯(lián)系，并在每一部分列舉了一個(gè)或幾個(gè)*新的信息物理系統(tǒng)示例，以幫助讀者直觀地理解強(qiáng)化學(xué)習(xí)技術(shù)的實(shí)用性。
本書特色
介紹強(qiáng)化學(xué)習(xí)，包括強(qiáng)化學(xué)習(xí)領(lǐng)域的高級(jí)主題。
將強(qiáng)化學(xué)習(xí)應(yīng)用到信息物理系統(tǒng)和網(wǎng)絡(luò)安全。
每章都包含新的示例和練習(xí)。
用兩個(gè)案例研究介紹網(wǎng)絡(luò)安全問題。
本書適用于科學(xué)、工程、計(jì)算機(jī)科學(xué)或應(yīng)用數(shù)學(xué)領(lǐng)域的研究生或大三/大四本科生，以及對(duì)于網(wǎng)絡(luò)安全、強(qiáng)化學(xué)習(xí)和信息物理系統(tǒng)等領(lǐng)域感興趣的研究人員和工程師。閱讀本書的讀者需要微積分和概率論的基礎(chǔ)知識(shí)。

前　　言

Reinforcement Learning for Cyber-Physical Systems: with Cybersecurity Case Studies

人工智能（Artificial Intelligence，AI）這一學(xué)科始創(chuàng)于1956年，經(jīng)歷了幾次突飛猛進(jìn)的發(fā)展，但每次都伴隨著漫長(zhǎng)的寒冬，也就是AI寒冬—其原因是計(jì)算能力的限制、硬件技術(shù)成本的提高、科研經(jīng)費(fèi)的缺乏等。而包括無線技術(shù)、信息技術(shù)和集成電路（IC）在內(nèi)的其他技術(shù)，在此時(shí)期已經(jīng)有了顯著的進(jìn)步并成為主流。從2010年開始，先進(jìn)的計(jì)算技術(shù)、取自人們?nèi)粘；顒?dòng)的大數(shù)據(jù)，以及機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等人工智能研究子領(lǐng)域的整合，使社會(huì)風(fēng)尚的主流轉(zhuǎn)向人工智能研究及其廣泛的應(yīng)用。例如，谷歌DeepMind最近推出的人工智能圍棋玩家AlphaGo Zero，可以在零人工輸入的情況下實(shí)現(xiàn)超人類水平的性能。也就是說，這臺(tái)機(jī)器可以從不了解任何圍棋知識(shí)開始，通過與自己玩游戲成為自己的老師。AlphaGo的突破性成功表明，人工智能可以從一個(gè)“新生的嬰兒”開始，學(xué)會(huì)自己成長(zhǎng)，最終表現(xiàn)出超人類水平的性能，幫助我們解決現(xiàn)在和未來面臨的最具挑戰(zhàn)性的任務(wù)。

本書的靈感來自強(qiáng)化學(xué)習(xí)（RL）與信息物理系統(tǒng)（CPS）領(lǐng)域近期的發(fā)展。強(qiáng)化學(xué)習(xí)植根于行為心理學(xué)，是機(jī)器學(xué)習(xí)的主要分支。與監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)這樣的機(jī)器學(xué)習(xí)算法不同，強(qiáng)化學(xué)習(xí)的主要特征是其獨(dú)一無二的學(xué)習(xí)范式—試錯(cuò)法。通過與深度神經(jīng)網(wǎng)絡(luò)結(jié)合，深度強(qiáng)化學(xué)習(xí)變得十分強(qiáng)大，使得AI智能體能夠以超人類的水平自動(dòng)管理許多復(fù)雜的系統(tǒng)。此外，人們期望CPS能夠在不久的將來給我們的社會(huì)帶來顛覆性改變，例如新興智能建筑、智能交通和電網(wǎng)。然而，CPS領(lǐng)域傳統(tǒng)的人工編程控制器，既不能處理日益復(fù)雜的系統(tǒng)，也不能自動(dòng)適應(yīng)它以前從未遇到過的新情況。如何應(yīng)用現(xiàn)有的深度強(qiáng)化學(xué)習(xí)算法或開發(fā)新的強(qiáng)化學(xué)習(xí)算法以實(shí)現(xiàn)實(shí)時(shí)適應(yīng)性CPS？此問題仍然懸而未決。本書通過系統(tǒng)介紹強(qiáng)化學(xué)習(xí)領(lǐng)域的基礎(chǔ)與算法，在兩個(gè)領(lǐng)域之間建立起聯(lián)系，并在每一部分列舉了一個(gè)或幾個(gè)最新的CPS示例，以幫助讀者直觀地理解強(qiáng)化學(xué)習(xí)技術(shù)的實(shí)用性。我們相信，書中大量關(guān)于強(qiáng)化學(xué)習(xí)算法的CPS示例會(huì)對(duì)所有正在使用或?qū)⑹褂脧?qiáng)化學(xué)習(xí)工具解決現(xiàn)實(shí)世界問題的人非常有益。

本書系統(tǒng)介紹強(qiáng)化學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)的關(guān)鍵思想和算法，并全面介紹CPS和網(wǎng)絡(luò)安全。我們的目標(biāo)是使所展示的內(nèi)容易于機(jī)器學(xué)習(xí)、CPS或其他相關(guān)學(xué)科的讀者理解。因此，本書不是一本嚴(yán)格意義上的專注于強(qiáng)化學(xué)習(xí)和CPS理論的書籍。此外，本書并不是對(duì)現(xiàn)有的可用強(qiáng)化學(xué)習(xí)算法的最新總結(jié)（因?yàn)槲墨I(xiàn)數(shù)量龐大且發(fā)展迅速）。只有少數(shù)典型的強(qiáng)化學(xué)習(xí)算法被收錄在本書中用于教學(xué)。

本書第一部分對(duì)強(qiáng)化學(xué)習(xí)、CPS和網(wǎng)絡(luò)安全進(jìn)行概要介紹。第1章介紹強(qiáng)化學(xué)習(xí)的概念和發(fā)展歷史。第2章介紹CPS和網(wǎng)絡(luò)安全的概念和框架。第二部分正式介紹強(qiáng)化學(xué)習(xí)的框架，并對(duì)強(qiáng)化學(xué)習(xí)問題進(jìn)行定義，給出了兩類解決方案：基于模型的解決方案和無模型的解決方案。為了使本書各部分內(nèi)容獨(dú)立，以便讀者不必事先了解強(qiáng)化學(xué)習(xí)就可以很容易地理解每一個(gè)知識(shí)點(diǎn)，我們?cè)诒緯胁捎肧utton和Barto（1998）的經(jīng)典強(qiáng)化學(xué)習(xí)書籍中的一些資料，而不是在書中提供索引讓讀者到他們的書中查看相關(guān)的算法和討論。最后，我們用一章的篇幅介紹近年來發(fā)展極為迅速的新興研究領(lǐng)域—深度強(qiáng)化學(xué)習(xí)。第三部分通過回顧現(xiàn)有的網(wǎng)絡(luò)安全技術(shù)并描述新興的網(wǎng)絡(luò)威脅，將注意力轉(zhuǎn)移到網(wǎng)絡(luò)安全，其中這些新興的網(wǎng)絡(luò)攻擊不是傳統(tǒng)的網(wǎng)絡(luò)管理方法能直接解決的。之后給出了兩個(gè)案例研究，它們是基于（深度）強(qiáng)化學(xué)習(xí)解決這些新興網(wǎng)絡(luò)安全問題的典型案例。這兩個(gè)案例基于哥倫比亞大學(xué)研究生的研究成果。這一部分旨在說明如何應(yīng)用強(qiáng)化學(xué)習(xí)知識(shí)來描述和解決與CPS相關(guān)的問題。

本書適用于科學(xué)與工程領(lǐng)域的研究生或大三/大四本科生，這些領(lǐng)域包括計(jì)算機(jī)科學(xué)/工程、電氣工程、機(jī)械工程、應(yīng)用數(shù)學(xué)、經(jīng)濟(jì)學(xué)等。目標(biāo)讀者還包括與強(qiáng)化學(xué)習(xí)、CPS以及網(wǎng)絡(luò)安全等領(lǐng)域相關(guān)的研究人員和工程師。讀者所需的唯一背景知識(shí)是微積分和概率論的基礎(chǔ)知識(shí)。

從某種意義上說，我們已經(jīng)花了相當(dāng)長(zhǎng)的時(shí)間來為本書做準(zhǔn)備。在過去的一年里，我們從哥倫比亞大學(xué)研究生和同事的反饋中受益匪淺。他們中的許多人對(duì)本書做出了重大貢獻(xiàn)。在此特別鳴謝：Tashrif Billah（第1章），邱龍飛、曾毅、劉小洋（第2章），Andrew Atkinson Stirn（第3章），Tingyu Mao（第4章），張靈鈺（第5章），顏禎佑（第6章），邱龍飛、劉小洋（第7章），Mehmet Necip Kurt、Oyetunji Enoch Ogundijo（第8章參考了他們的研究成果），胡曉天、胡洋（第9章參考了他們的研究成果）。我們還感謝Urs Niesen、Jon Krohn、張鵬、王振東和劉躍明對(duì)書稿的仔細(xì)審查和提出的建設(shè)性反饋。王振東和張磊貢獻(xiàn)了本書第3、4、5章的練習(xí)。本書中的一些練習(xí)和示例是從一些（在線）大學(xué)課程中獲取的，或由這些課程中的一些練習(xí)和示例修改而來，這些課程包括斯坦福大學(xué)的課程CS221和CS234、伯克利大學(xué)的課程CS294-129、卡內(nèi)基–梅隆大學(xué)的課程10-701、倫敦大學(xué)學(xué)院的課程GI13/4C60、猶他大學(xué)的課程CS6300和華盛頓大學(xué)的課程CSE573。

最后，李崇博士非常感謝他的博士導(dǎo)師Nicola Elia。Elia教授對(duì)科學(xué)研究的嚴(yán)謹(jǐn)態(tài)度和方法，特別是他在最優(yōu)反饋控制和信息理論方面令人印象深刻的見解，極大地影響了本書的寫作方式。事實(shí)上，最優(yōu)反饋控制一直被視為強(qiáng)化學(xué)習(xí)歷史上的兩條主要線索之一。而另一條線索來自動(dòng)物學(xué)習(xí)心理學(xué)。本書是對(duì)反饋控制理論和反饋信息理論的長(zhǎng)期思考和深入研究的直接成果。邱美康教授感謝他的研究小組成員蓋珂珂教授和邱龍飛先生在將強(qiáng)化學(xué)習(xí)應(yīng)用于網(wǎng)絡(luò)安全方面的研究洞察力和奉獻(xiàn)精神。我們相信由人工智能引領(lǐng)的新興領(lǐng)域?qū)母旧细淖兪澜�、人類和整個(gè)宇宙。

你還可能感興趣

我要評(píng)論