本書共二十一章,內(nèi)容包括:SRE與DevOps的關(guān)系、實(shí)施SLO、SLO工程案例研究、監(jiān)控、基于SLO的告警、消除瑣事、簡(jiǎn)單性等。
在2016年,Google出版的第一本站點(diǎn)可靠性工程(SRE)書籍引起了行業(yè)的大范圍討論,當(dāng)今生產(chǎn)環(huán)境服務(wù)運(yùn)營(yíng)意味這什么?為何可靠性方面的考慮是服務(wù)設(shè)計(jì)的基礎(chǔ)?現(xiàn)在,編寫上一本SRE暢銷書的Google工程師們?yōu)槲覀兟≈赝瞥隽吮緯,這是一本充滿真實(shí)案例的實(shí)戰(zhàn)參考手冊(cè),展示了如何在生產(chǎn)環(huán)境中運(yùn)維SRE的原則和實(shí)踐。
在這本全新的SRE工作手冊(cè)中,提供的實(shí)踐案例并不但源于Google的經(jīng)驗(yàn),還來(lái)自那些經(jīng)歷過(guò)SRE旅程的Google公有云的用戶。值得注意的是,本書還包括Evernote、The Home Depot、紐約時(shí)報(bào)和其他公司總結(jié)的來(lái)之不易的第一手經(jīng)驗(yàn)。
無(wú)論你所在公司規(guī)模的大小,都可以深入研究這本工作手冊(cè),通過(guò)學(xué)習(xí)嘗試完善你們自己的SRE實(shí)踐。
Betsy Beyer,Niall Richard Murphy,David K. Rensin,Kent Kawahara和Stephen Thorne是Google網(wǎng)站可靠性工程組織里曾經(jīng)和現(xiàn)任的成員,他們的職責(zé)是關(guān)懷和護(hù)理Google的生產(chǎn)系統(tǒng)。