本書的寫作初衷是,從學者的角度,用一種通俗易懂的方式,將基于深度學習的目標檢測的相關(guān)論文中的理論和方法呈現(xiàn)給讀者,同時針對作者在深度學習教學過程中遇到的難點,進行深入的分析和講解。本書側(cè)重對卷積神經(jīng)網(wǎng)絡(luò)的介紹,而深度學習的內(nèi)容不止于此。所以,作者將深度學習分為有監(jiān)督學習、無監(jiān)督學習和強化學習三類,將圖像分類、目標檢測、人臉識別、語音識別、雙向生成對抗網(wǎng)絡(luò)和AlphaGo等應(yīng)用場景歸入不同的類別,并分別對其原理進行了概括性的講解。本書適合有一定深度學習或目標檢測學習基礎(chǔ)的學生、研究者、從業(yè)者閱讀。
杜鵬,博士,華為昇騰AI技術(shù)專家,主要研究方向為異構(gòu)計算、計算機圖形學、人工智能等,曾在韓國科學技術(shù)院、新加坡南洋理工大學、杭州電子科技大學從事科研與教學工作,在SIGGRAPH、 CVPR、ICCV等國際著名會議發(fā)表論文十余篇。蘇統(tǒng)華,博士, 哈爾濱工業(yè)大學副教授、軟件學院副院長,主要研究領(lǐng)域包括大規(guī)模模式識別與手寫漢字識別、深度學習方法與GPU計算等。作為自然手寫體中文文本識別的開拓者,建立領(lǐng)域內(nèi)首款手寫中文庫(HIT-MW庫)。該庫為國內(nèi)外約200家科研院所采用,獲得兩個國際手寫漢字識別競賽第一名。王波,主要從事位姿估計、圖像分割/生成等計算機視覺算法研究與應(yīng)用,研究成果發(fā)表在CVPR、AAAI等國際著名學術(shù)會議上。諶明,博士,2004年加入美國道富集團, 2011年加入浙江核新同花順網(wǎng)絡(luò)信息股份有限公司并任首席技術(shù)官,推動了包括計算機視覺、語音技術(shù)、自然語言處理、機器學習等在金融、醫(yī)療等領(lǐng)域的商業(yè)化落地。
第1章 深度學習概述 2
1.1 深度學習發(fā)展簡史 2
1.2 有監(jiān)督學習 4
1.2.1 圖像分類 4
1.2.2 目標檢測 6
1.2.3 人臉識別 10
1.2.4 語音識別 13
1.3 無監(jiān)督學習 17
1.3.1 無監(jiān)督學習概述 18
1.3.2 雙向生成對抗網(wǎng)絡(luò) 18
1.4 強化學習 21
1.4.1 AlphaGo 22
1.4.2 AlphaGo Zero 24
1.5 小結(jié) 25
參考資料 25
第2章 深度神經(jīng)網(wǎng)絡(luò) 28
2.1 神經(jīng)元 28
2.2 感知機 31
2.3 前向傳遞 32
2.3.1 前向傳遞的流程 33
2.3.2 激活函數(shù) 34
2.3.3 損失函數(shù) 38
2.4 后向傳遞 41
2.4.1 后向傳遞的流程 41
2.4.2 梯度下降 41
2.4.3 參數(shù)修正 43
2.5 防止過擬合 45
2.5.1 dropout 46
2.5.2 正則化 46
2.6 小結(jié) 47
第3章 卷積神經(jīng)網(wǎng)絡(luò) 48
3.1 卷積層 49
3.1.1 valid卷積 49
3.1.2 full卷積 51
3.1.3 same卷積 52
3.2 池化層 53
3.3 反卷積 54
3.4 感受野 56
3.5 卷積神經(jīng)網(wǎng)絡(luò)實例 57
3.5.1 LeNet-5 58
3.5.2 AlexNet 60
3.5.3 VGGNet 63
3.5.4 GoogLeNet 66
3.5.5 ResNet 76
3.5.6 MobileNet 77
3.6 小結(jié) 79
進 階 篇
第4章 兩階段目標檢測方法 82
4.1 R-CNN 82
4.1.1 算法流程 82
4.1.2 訓練過程 83
4.2 SPP-Net 87
4.2.1 網(wǎng)絡(luò)結(jié)構(gòu) 87
4.2.2 空間金字塔池化 88
4.3 Fast R-CNN 89
4.3.1 感興趣區(qū)域池化層 90
4.3.2 網(wǎng)絡(luò)結(jié)構(gòu) 91
4.3.3 全連接層計算加速 92
4.3.4 目標分類 93
4.3.5 邊界框回歸 94
4.3.6 訓練過程 95
4.4 Faster R-CNN 99
4.4.1 網(wǎng)絡(luò)結(jié)構(gòu) 100
4.4.2 RPN 101
4.4.3 訓練過程 107
4.5 R-FCN 109
4.5.1 R-FCN網(wǎng)絡(luò)結(jié)構(gòu) 110
4.5.2 位置敏感的分數(shù)圖 111
4.5.3 位置敏感的RoI池化 111
4.5.4 R-FCN損失函數(shù) 113
4.5.5 Caffe網(wǎng)絡(luò)模型解析 113
4.5.6 U-Net 117
4.5.7 SegNet 118
4.6 Mask R-CNN 119
4.6.1 實例分割簡介 119
4.6.2 COCO數(shù)據(jù)集的像素級標注 121
4.6.3 網(wǎng)絡(luò)結(jié)構(gòu) 121
4.7 小結(jié) 125
參考資料 125
第5章 單階段目標檢測方法 126
5.1 SSD 126
5.1.1 default box 126
5.1.2 網(wǎng)絡(luò)結(jié)構(gòu) 127
5.1.3 Caffe網(wǎng)絡(luò)模型解析 128
5.1.4 訓練過程 137
5.2 RetinaNet 138
5.2.1 FPN 139
5.2.2 聚焦損失函數(shù) 140
5.3 RefineDet 142
5.3.1 網(wǎng)絡(luò)模型 142
5.3.2 Caffe網(wǎng)絡(luò)模型解析 144
5.3.3 訓練過程 153
5.4 YOLO 154
5.4.1 YOLO v1 154
5.4.2 YOLO v2 157
5.4.3 YOLO v3 159
5.5 目標檢測算法應(yīng)用場景舉例 161
5.5.1 高速公路坑洞檢測 161
5.5.2 息肉檢測 162
5.6 小結(jié) 163
參考資料 164
應(yīng) 用 篇
第6章 肋骨骨折檢測 166
6.1 國內(nèi)外研究現(xiàn)狀 166
6.2 解決方案 168
6.3 預(yù)處理 168
6.4 肋骨骨折檢測 169
6.5 實驗結(jié)果分析 170
6.6 小結(jié) 172
參考資料 172
第7章 肺結(jié)節(jié)檢測 174
7.1 國內(nèi)外研究現(xiàn)狀 174
7.2 總體框架 176
7.2.1 肺結(jié)節(jié)數(shù)據(jù)集 176
7.2.2 肺結(jié)節(jié)檢測難點 177
7.2.3 算法框架 177
7.3 肺結(jié)節(jié)可疑位置推薦算法 178
7.3.1 CT圖像的預(yù)處理 179
7.3.2 肺結(jié)節(jié)分割算法 180
7.3.3 優(yōu)化方法 182
7.3.4 推斷方法 184
7.4 可疑肺結(jié)節(jié)定位算法 185
7.5 實驗結(jié)果與分析(1) 186
7.5.1 實驗結(jié)果 186
7.5.2 改進點效果分析 186
7.6 假陽性肺結(jié)節(jié)抑制算法 188
7.6.1 假陽性肺結(jié)節(jié)抑制網(wǎng)絡(luò) 188
7.6.2 優(yōu)化策略 192
7.6.3 推斷策略 194
7.7 實驗結(jié)果與分析(2) 194
7.7.1 實驗結(jié)果 194
7.7.2 改進點效果分析 195
7.7.3 可疑位置推薦算法與假陽性抑制算法的整合 196
7.8 小結(jié) 197
參考資料 197
第8章 車道線檢測 199
8.1 國內(nèi)外研究現(xiàn)狀 199
8.2 主要研究內(nèi)容 201
8.2.1 總體解決方案 201
8.2.2 各階段概述 202
8.3 車道線檢測系統(tǒng)的設(shè)計與實現(xiàn) 205
8.3.1 車道線圖像數(shù)據(jù)標注與篩選 206
8.3.2 車道線圖片預(yù)處理 207
8.3.3 車道線分割模型訓練 211
8.3.4 車道線檢測 220
8.3.5 車道線檢測結(jié)果 224
8.4 車道線檢測系統(tǒng)性能測試 224
8.4.1 車道線檢測質(zhì)量測試 224
8.4.2 車道線檢測時間測試 226
8.5 小結(jié) 226
參考資料 227
第9章 交通視頻分析 228
9.1 國內(nèi)外研究現(xiàn)狀 229
9.2 主要研究內(nèi)容 230
9.2.1 總體設(shè)計 231
9.2.2 精度和性能要求 231
9.3 交通視頻分析 232
9.3.1 車輛檢測和車牌檢測 232
9.3.2 車牌識別功能設(shè)計詳解 234
9.3.3 車輛品牌及顏色的識別 242
9.3.4 目標跟蹤設(shè)計詳解 243
9.4 系統(tǒng)測試 246
9.4.1 車輛檢測 247
9.4.2 車牌檢測 250
9.4.3 車牌識別 252
9.4.4 車輛品牌識別 255
9.4.5 目標跟蹤 257
9.5 小結(jié) 258
參考資料 258
第10章 道路坑洞檢測 260
10.1 系統(tǒng)流程 260
10.2 道路坑洞圖像生成 262
10.2.1 坑洞生成網(wǎng)絡(luò) 262
10.2.2 遮罩生成方法 263
10.2.3 圖像融合 264
10.2.4 基于增廣訓練集的目標檢測 265
10.3 實驗與分析 266
10.3.1 影響因素 267
10.3.2 數(shù)據(jù)增廣方法對比 268
10.3.3 邊緣提取方法對比 270
10.3.4 圖像融合方法對比 271
10.3.5 目標檢測 273
10.4 小結(jié) 274
參考資料 274