第1章 互聯(lián)網(wǎng)軟件可靠性概論 1
1.1 為什么要研究互聯(lián)網(wǎng)軟件可靠性
工程 1
1.1.1 大型互聯(lián)網(wǎng)企業(yè)的典型案例
回顧 1
1.1.2 研究互聯(lián)網(wǎng)服務(wù)可靠性的
迫切性和重要性 3
1.1.3 研究軟件可靠性工程是未來(lái)更
復(fù)雜的軟件產(chǎn)品發(fā)展的需要 3
1.2 什么是可靠性工程 3
1.2.1 可靠性與可靠性工程概述 4
1.2.2 可靠性工程發(fā)展的3個(gè)階段 4
1.2.3 傳統(tǒng)物理可靠性工程方法 6
1.3 軟件可靠性工程 9
1.3.1 軟件可靠性工程的概念 9
1.3.2 軟件可靠性工程發(fā)展的兩個(gè)
階段 10
1.4 互聯(lián)網(wǎng)軟件的可靠性 16
1.4.1 相關(guān)名詞介紹 16
1.4.2 互聯(lián)網(wǎng)軟件可靠性工程現(xiàn)狀及
挑戰(zhàn) 18
1.4.3 互聯(lián)網(wǎng)軟件可靠性工程方法
發(fā)展的3個(gè)階段 21
1.5 互聯(lián)網(wǎng)軟件可靠性工程的工作
思路 26
1.5.1 理解軟件可靠性的3個(gè)核心
問(wèn)題 26
1.5.2 建立可靠性工程體系框架的
思路 30
1.6 本章小結(jié) 31
第2章 互聯(lián)網(wǎng)軟件可靠性工程及
可靠性度量 32
2.1 軟件生命周期的可靠性工作 32
2.1.1 互聯(lián)網(wǎng)軟件生命周期的可靠性
工作及原則 33
2.1.2 需求階段的可靠性工作 34
2.1.3 設(shè)計(jì)與實(shí)現(xiàn)階段的可靠性
工作 35
2.1.4 測(cè)試與驗(yàn)證階段的可靠性
工作 37
2.1.5 部署與發(fā)布階段的可靠性
工作 38
2.1.6 持續(xù)運(yùn)行階段的可靠性
工作 39
2.2 故障生命周期的可靠性工作 41
2.2.1 監(jiān)控故障 42
2.2.2 故障定界定位 42
2.2.3 修復(fù)故障 43
2.3 可靠性工程6種能力綜述 44
2.4 互聯(lián)網(wǎng)軟件可靠性度量與評(píng)價(jià) 45
2.4.1 可靠性度量介紹 45
2.4.2 可靠性度量和分析方法 47
2.4.3 軟件可靠性度量過(guò)程 54
2.4.4 如何制定可靠性目標(biāo) 58
2.5 本章小結(jié) 60
第3章 互聯(lián)網(wǎng)軟件可靠性設(shè)計(jì)與
分析 61
3.1 為什么要進(jìn)行可靠性設(shè)計(jì) 61
3.1.1 什么是可靠性設(shè)計(jì) 61
3.1.2 可靠性是設(shè)計(jì)出來(lái)的 62
3.2 可靠性設(shè)計(jì)原則與通用方法 64
3.2.1 可靠性設(shè)計(jì)的原則 64
3.2.2 可靠性設(shè)計(jì)的4種方法 65
3.3 軟件可靠性架構(gòu)模型 68
3.4 可靠性分析與架構(gòu)風(fēng)險(xiǎn) 72
3.5 可靠性分配 74
3.5.1 可靠性分配的目的 74
3.5.2 可靠性分配的原則 75
3.5.3 可靠性分配的方法 75
3.6 架構(gòu)分層設(shè)計(jì)及其可靠性方法 76
3.6.1 可靠性視角的分層架構(gòu) 77
3.6.2 業(yè)務(wù)架構(gòu)的可靠性設(shè)計(jì) 78
3.6.3 應(yīng)用架構(gòu)的可靠性設(shè)計(jì) 78
3.6.4 系統(tǒng)架構(gòu)的可靠性設(shè)計(jì) 85
3.6.5 部署架構(gòu)的可靠性設(shè)計(jì) 92
3.6.6 基礎(chǔ)設(shè)施架構(gòu)的可靠性設(shè)計(jì) 97
3.6.7 可靠性相關(guān)能力的設(shè)計(jì) 99
3.7 架構(gòu)可靠性評(píng)審 99
3.7.1 評(píng)審目的 99
3.7.2 評(píng)審過(guò)程 100
3.7.3 評(píng)審方法 101
3.8 可靠性預(yù)計(jì) 102
3.9 本章小結(jié) 103
第4章 可靠性觀測(cè)能力建設(shè)與
實(shí)踐 104
4.1 建設(shè)觀測(cè)能力的目的 104
4.2 排查、監(jiān)控、觀測(cè)技術(shù)的發(fā)展 107
4.2.1 登錄服務(wù)器通過(guò)系統(tǒng)命令
排查問(wèn)題 107
4.2.2 集中式監(jiān)控系統(tǒng)與日志系統(tǒng) 110
4.2.3 可觀測(cè)性 115
4.2.4 觀測(cè)能力與監(jiān)控 116
4.2.5 建立綜合的觀測(cè)能力 117
4.3 監(jiān)控觀測(cè)的感知場(chǎng)景與感知
方式 118
4.3.1 業(yè)務(wù)可靠性感知 119
4.3.2 影響范圍及原因定界定位 121
4.3.3 幫助理解復(fù)雜系統(tǒng)結(jié)構(gòu)并
自動(dòng)建模 126
4.3.4 智能告警條件的數(shù)據(jù)感知 129
4.3.5 根因推薦與排查診斷、決策 131
4.3.6 容量感知與彈性 135
4.3.7 人的感知與決策能力 137
4.3.8 場(chǎng)景化的固化大盤 138
4.3.9 巡檢與非實(shí)時(shí)分析 140
4.4 觀測(cè)能力設(shè)計(jì) 141
4.4.1 設(shè)計(jì)原則 141
4.4.2 設(shè)計(jì)方法 143
4.5 觀測(cè)能力要求與度量 148
4.5.1 定性要求與分析 148
4.5.2 定量要求與分析 150
4.6 觀測(cè)能力建設(shè)實(shí)踐 154
4.7 本章小結(jié) 157
第5章 故障修復(fù)、綜合保障能力建設(shè)與實(shí)踐 158
5.1 軟件故障修復(fù)能力概述 158
5.1.1 什么是軟件故障修復(fù)能力 158
5.1.2 修復(fù)能力是現(xiàn)代軟件系統(tǒng)的
重要能力 159
5.1.3 研究故障規(guī)律是修復(fù)能力的
基礎(chǔ) 159
5.2 軟件故障修復(fù)能力設(shè)計(jì)與建設(shè) 160
5.2.1 設(shè)計(jì)原則 160
5.2.2 預(yù)案平臺(tái)的設(shè)計(jì) 163
5.2.3 變更型故障快速修復(fù) 167
5.2.4 災(zāi)難型故障快速修復(fù) 171
5.2.5 容量型故障快速修復(fù) 175
5.2.6 應(yīng)急協(xié)同 177
5.3 運(yùn)維保障能力 184
5.4 修復(fù)能力的度量和要求 188
5.4.1 定性要求 188
5.4.2 定量要求與評(píng)估 189
5.5 修復(fù)能力及保障能力建設(shè)實(shí)踐 193
5.5.1 虎牙音視頻修復(fù)能力實(shí)踐 193
5.5.2 預(yù)案平臺(tái)建設(shè)實(shí)踐 194
5.5.3 虎牙帶寬資源保障能力
實(shí)踐 196
5.6 本章小結(jié) 196
第6章 可靠性試驗(yàn)與反脆弱能力
建設(shè)與實(shí)踐 197
6.1 互聯(lián)網(wǎng)軟件可靠性試驗(yàn)與反脆弱
能力概述 197
6.1.1 什么是可靠性試驗(yàn)與反脆弱
能力 198
6.1.2 為什么要反脆弱 199
6.2 軟件系統(tǒng)的脆弱性因素分析 200
6.2.1 環(huán)境、產(chǎn)品、人的關(guān)系 201
6.2.2 脆弱性因素分析 202
6.3 反脆弱能力建設(shè)與分析 212
6.3.1 應(yīng)對(duì)脆弱性的思路 213
6.3.2 反脆弱能力建設(shè)原則 213
6.3.3 環(huán)境脆弱性的可靠性試驗(yàn):
混沌工程 214
6.3.4 軟件系統(tǒng)自身的可靠性試驗(yàn):
故障注入 218
6.3.5 人為因素反脆弱設(shè)計(jì):
故障演練 221
6.3.6 變更型故障反脆弱設(shè)計(jì):
變更管控 222
6.4 可靠性試驗(yàn)與反脆弱能力的
要求 223
6.4.1 定性要求 223
6.4.2 定量要求 226
6.5 實(shí)踐案例 227
6.6 本章小結(jié) 230
第7章 可靠性管理能力 231
7.1 可靠性管理工作概述 231
7.2 軟件可靠性工作規(guī)劃及目標(biāo)
管理 235
7.3 故障治理 237
7.3.1 故障復(fù)盤 238
7.3.2 故障評(píng)審定級(jí) 243
7.3.3 定期回顧可靠性 247
7.4 人員與團(tuán)隊(duì)管理 248
7.4.1 可靠性工程師團(tuán)隊(duì) 248
7.4.2 團(tuán)隊(duì)轉(zhuǎn)型 250
7.5 以SRE方式運(yùn)維業(yè)務(wù) 254
7.5.1 以SRE方式接手現(xiàn)有業(yè)務(wù) 255
7.5.2 接手新業(yè)務(wù) 256
7.6 本章小結(jié) 257