艾輝,中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院碩士,融 360 高 級(jí)技術(shù)經(jīng)理。主要負(fù)責(zé)機(jī)器學(xué)習(xí)產(chǎn)品的質(zhì)量保障工作,曾在餓了么公司擔(dān)任高 級(jí)技術(shù)經(jīng)理,負(fù)責(zé)用戶產(chǎn)品、新零售產(chǎn)品的質(zhì)量保障工作。有 8 年多的測(cè)試開發(fā)工作經(jīng)驗(yàn),曾多次受邀在行業(yè)技術(shù)大會(huì)( 如 MTSC、GITC、NCTS、TiD、A2M 等)上做主題分享。對(duì)大數(shù)據(jù)、機(jī)器學(xué)習(xí)測(cè)試技術(shù)有深刻的理解,并長(zhǎng)期專注于質(zhì)量保障與工程效能研究。
陳高飛,東北大學(xué)計(jì)算機(jī)碩士,融 360 測(cè)試開發(fā)工程師。主要從事機(jī)器學(xué)習(xí)方面的測(cè)試開發(fā)工作。擅長(zhǎng)白盒測(cè)試、大數(shù)據(jù)測(cè)試和模型測(cè)試,在工具平臺(tái)開發(fā)方面有豐富的實(shí)踐經(jīng)驗(yàn)。
陳花,北京郵電大學(xué)信息通信工程學(xué)院碩士,融 360 高 級(jí)測(cè)試開發(fā)工程師。主要從事服務(wù)器端測(cè)試開發(fā)工作,主導(dǎo)過多個(gè)大型項(xiàng)目的測(cè)試。擅長(zhǎng)白盒測(cè)試、安全測(cè)試、自動(dòng)化測(cè)試及工具開發(fā)。
方娟紅,東北大學(xué)計(jì)算機(jī)碩士,融 360 測(cè)試開發(fā)工程師。主要從事服務(wù)器端測(cè)試開發(fā)工作。在企業(yè)級(jí)應(yīng)用的測(cè)試和開發(fā)方面有著豐富的實(shí)踐經(jīng)驗(yàn)。
郭學(xué)敏,西安電子科技大學(xué)電子工程學(xué)院碩士,融 360 測(cè)試開發(fā)工程師。主要負(fù)責(zé)機(jī)器學(xué)習(xí)方面的測(cè)試開發(fā)工作,主導(dǎo)過多個(gè)大型項(xiàng)目的測(cè)試。擅長(zhǎng)大數(shù)據(jù)測(cè)試、特征分析與模型評(píng)估,且在特征工程測(cè)試方面有著豐富的實(shí)踐經(jīng)驗(yàn)。
郝嶸,北京信息科技大學(xué)自動(dòng)化學(xué)院碩士,融 360 測(cè)試開發(fā)工程師。從事 Python 開發(fā)、機(jī)器學(xué)習(xí)測(cè)試、大數(shù)據(jù)測(cè)試工作多年,在大數(shù)據(jù)的質(zhì)量保障及測(cè)試工具開發(fā)方面有著豐富的實(shí)踐經(jīng)驗(yàn)。
雷天鳴,哈爾濱理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系碩士,融 360 測(cè)試開發(fā)工程師。主要從事機(jī)器學(xué)習(xí)方向的測(cè)試開發(fā)工作。擅長(zhǎng)大數(shù)據(jù)測(cè)試、特征測(cè)試及模型算法評(píng)測(cè)等,且對(duì)金融風(fēng)控業(yè)務(wù)有深刻的理解。
李曼曼,融 360 高級(jí)測(cè)試開發(fā)工程師。有近 10 年測(cè)試領(lǐng)域從業(yè)經(jīng)驗(yàn), 擅長(zhǎng)白盒測(cè)試、性能測(cè)試、自動(dòng)化測(cè)試、持續(xù)集成及工程效能。在 AI 測(cè)試方面有一定的探索實(shí)踐。
李雪,西安電子科技大學(xué)通信工程碩士,融 360 測(cè)試開發(fā)工程師。主要從事平臺(tái)及機(jī)器學(xué)習(xí)方面的測(cè)試開發(fā)工作。擅長(zhǎng)自動(dòng)化測(cè)試、性能測(cè)試及安全測(cè)試,且對(duì)特征測(cè)試分析有著豐富的實(shí)踐經(jīng)驗(yàn)。
孫金娟,山西財(cái)經(jīng)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)學(xué)士,融 360 測(cè)試開發(fā)工程師。有近 8 年 Java 開發(fā)、測(cè)試開發(fā)工作經(jīng)驗(yàn),擅長(zhǎng)大數(shù)據(jù)測(cè)試及工具平臺(tái)開發(fā)。
張海霞,中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院碩士,融 360 高級(jí)測(cè)試開發(fā)工程師。有近 7 年測(cè)試領(lǐng)域從業(yè)經(jīng)驗(yàn),擅長(zhǎng)白盒測(cè)試、性能測(cè)試及自動(dòng)化測(cè)試。在測(cè)試平臺(tái)開發(fā)方面有著豐富的實(shí)踐經(jīng)驗(yàn),且對(duì)數(shù)據(jù)挖掘技術(shù)有扎實(shí)的實(shí)踐積累。
張咪,北京交通大學(xué)通信學(xué)院碩士,融 360 高級(jí)測(cè)試開發(fā)工程師。主要負(fù)責(zé)用戶產(chǎn)品的質(zhì)量保障工作。曾負(fù)責(zé)基礎(chǔ)架構(gòu)、運(yùn)維自動(dòng)化等方面的測(cè)試、開發(fā)工作。在自動(dòng)化測(cè)試、服務(wù)穩(wěn)定性、專項(xiàng)測(cè)試、工程效能等方面有著豐富的實(shí)踐經(jīng)驗(yàn),且對(duì)機(jī)器學(xué)習(xí)工程技術(shù)有深刻的理解。
張朋周,中國(guó)地質(zhì)大學(xué)計(jì)算機(jī)碩士,融 360 高級(jí)測(cè)試開發(fā)工程師。曾在RAISECOM 和百度從事測(cè)試開發(fā)工作,有近 8 年的測(cè)試工作經(jīng)驗(yàn)。目前主要負(fù)責(zé)機(jī)器學(xué)習(xí)方面的測(cè)試開發(fā)工作,主導(dǎo)了多個(gè)工具平臺(tái)的開發(fā),在模型評(píng)估平臺(tái)方面有著豐富的實(shí)踐經(jīng)驗(yàn)。
目 錄
第 一部分 基礎(chǔ)知識(shí)
第 1 章 機(jī)器學(xué)習(xí)的發(fā)展和應(yīng)用 2
1.1 什么是機(jī)器學(xué)習(xí) 2
1.2 機(jī)器學(xué)習(xí)的發(fā)展 3
1.3 機(jī)器學(xué)習(xí)的應(yīng)用 5
1.3.1 數(shù)據(jù)挖掘 5
1.3.2 人臉檢測(cè) 6
1.3.3 人機(jī)對(duì)弈 7
1.3.4 機(jī)器翻譯 7
1.3.5 自動(dòng)駕駛 7
1.3.6 其他應(yīng)用 8
1.4 本章小結(jié) 8
第 2 章 Python 編程基礎(chǔ) 9
2.1 Python 概述 9
2.2 Python 平臺(tái)搭建 9
2.2.1 Python 環(huán)境部署 9
2.2.2 Python 運(yùn)行方式 12
2.3 Python 語法基礎(chǔ) 14
2.3.1 Python 編程規(guī)范 14
2.3.2 基本數(shù)據(jù)類型 15
2.3.3 Python 編程基礎(chǔ) 18
2.3.4 模塊和包 21
2.3.5 文件操作 22
2.4 本章小結(jié) 23
第 3 章 數(shù)據(jù)分析基礎(chǔ) 24
3.1 數(shù)據(jù)分析概述 24
3.1.1 什么是數(shù)據(jù)分析 24
3.1.2 數(shù)據(jù)分析的步驟 24
3.1.3 常用的數(shù)據(jù)分析策略 26
3.1.4 數(shù)據(jù)分析方法 27
3.1.5 數(shù)據(jù)分析工具 28
3.2 Python 中常用的數(shù)據(jù)分析庫 29
3.2.1 Numpy 29
3.2.2 Pandas 33
3.2.3 Matplotlib 37
3.2.4 SciPy 39
3.3 利用 Python 進(jìn)行數(shù)據(jù)分析 42
3.3.1 數(shù)據(jù)加載、存儲(chǔ) 42
3.3.2 數(shù)據(jù)清洗和準(zhǔn)備 46
3.3.3 數(shù)據(jù)規(guī)整 54
3.3.4 數(shù)據(jù)可視化 61
3.3.5 數(shù)據(jù)分組和聚合 64
3.3.6 數(shù)據(jù)分析案例 70
3.4 本章小結(jié) 77
第 4 章 機(jī)器學(xué)習(xí)基礎(chǔ) 78
4.1 機(jī)器學(xué)習(xí)簡(jiǎn)介 78
4.1.1 機(jī)器學(xué)習(xí)中的基本概念 78
4.1.2 機(jī)器學(xué)習(xí)分類及訓(xùn)練方式 79
4.1.3 機(jī)器學(xué)習(xí)三要素 81
4.2 機(jī)器學(xué)習(xí)庫 83
4.2.1 Scikit-learn 83
4.2.2 StatsModels 87
4.3 機(jī)器學(xué)習(xí)算法 89
4.3.1 回歸算法 89
4.3.2 支持向量機(jī) 91
4.3.3 決策樹 92
4.3.4 聚類 94
4.3.5 降維 100
4.3.6 集成學(xué)習(xí) 102
4.3.7 神經(jīng)網(wǎng)絡(luò) 106
4.3.8 常用模型的特點(diǎn)和應(yīng)用場(chǎng)景 109
4.4 本章小結(jié) 111
第二部分 大數(shù)據(jù)測(cè)試
第 5 章 大數(shù)據(jù)基礎(chǔ) 114
5.1 什么是大數(shù)據(jù) 114
5.2 Hadoop 生態(tài)系統(tǒng) 115
5.2.1 HDFS 116
5.2.2 MapReduce 118
5.2.3 Hive 121
5.2.4 HBase 124
5.2.5 Storm、Spark 和 Flink 131
5.3 數(shù)據(jù)倉庫與 ETL 流程 133
5.3.1 什么是 ETL 133
5.3.2 什么是數(shù)據(jù)倉庫 134
5.3.3 數(shù)據(jù)倉庫的架構(gòu) 135
5.4 本章小結(jié) 136
第 6 章 大數(shù)據(jù)測(cè)試指南 137
6.1 大數(shù)據(jù)測(cè)試概述 137
6.1.1 什么是大數(shù)據(jù)測(cè)試 137
6.1.2 大數(shù)據(jù)測(cè)試與傳統(tǒng)數(shù)據(jù)測(cè)試差異 138
6.2 大數(shù)據(jù) ETL 測(cè)試 139
6.2.1 ETL 測(cè)試流程 139
6.2.2 ETL 測(cè)試方法 140
6.2.3 ETL 測(cè)試場(chǎng)景 143
6.3 本章小結(jié) 147
第 7 章 大數(shù)據(jù)工具實(shí)踐 148
7.1 大數(shù)據(jù)測(cè)試工具 148
7.1.1 大數(shù)據(jù)測(cè)試的痛點(diǎn) 148
7.1.2 大數(shù)據(jù)測(cè)試工具 easy_data_test 的設(shè)計(jì) 149
7.1.3 大數(shù)據(jù)測(cè)試工具 easy_data_test 的使用 152
7.1.4 大數(shù)據(jù)測(cè)試工具展望 157
7.2 數(shù)據(jù)質(zhì)量監(jiān)控平臺(tái)157
7.2.1 數(shù)據(jù)質(zhì)量把控環(huán)節(jié) 158
7.2.2 數(shù)據(jù)質(zhì)量評(píng)估要點(diǎn) 158
7.2.3 數(shù)據(jù)質(zhì)量監(jiān)控平臺(tái)設(shè)計(jì) 159
7.3 數(shù)據(jù)調(diào)度平臺(tái) 163
7.3.1 調(diào)度系統(tǒng)概述 163
7.3.2 Azkaban 概述 163
7.3.3 Azkaban 實(shí)踐 164
7.4 本章小結(jié) 168
第三部分 模型測(cè)試
第 8 章 機(jī)器學(xué)習(xí)測(cè)試基礎(chǔ) 170
8.1 機(jī)器學(xué)習(xí)生命周期 170
8.2 機(jī)器學(xué)習(xí)測(cè)試難點(diǎn) 173
8.3 機(jī)器學(xué)習(xí)測(cè)試重點(diǎn) 174
8.4 模型工程服務(wù)測(cè)試 176
8.4.1 單元測(cè)試 177
8.4.2 集成測(cè)試 178
8.4.3 系統(tǒng)測(cè)試 179
8.5 A/B 測(cè) 試 180
8.5.1 A/B 測(cè) 試 180
8.5.2 做 A/B 測(cè)試的原因 181
8.5.3 A/B 測(cè)試在機(jī)器學(xué)習(xí)模型中的應(yīng)用 181
8.6 本章小結(jié) 182
第 9 章 特征專項(xiàng)測(cè)試 184
9.1 特征工程簡(jiǎn)介 184
9.1.1 數(shù)據(jù)探索 184
9.1.2 數(shù)據(jù)預(yù)處理 185
9.1.3 特征構(gòu)建 190
9.1.4 特征選擇 190
9.2 特征測(cè)試方法 191
9.2.1 特征指標(biāo)分析 191
9.2.2 特征穩(wěn)定性測(cè)試 198
9.3 特征測(cè)試實(shí)踐 199
9.3.1 特征指標(biāo)分析實(shí)踐 199
9.3.2 特征可視化實(shí)踐 203
9.3.3 特征穩(wěn)定性測(cè)試實(shí)踐 207
9.3.4 特征監(jiān)控實(shí)踐 211
9.4 本章小結(jié) 212
第 10 章 模型算法評(píng)估測(cè)試 213
10.1 模型算法評(píng)估基礎(chǔ) 213
10.1.1 模型算法評(píng)估概述 213
10.1.2 樣本數(shù)據(jù)劃分策略 214
10.1.3 統(tǒng)計(jì)學(xué)指標(biāo)與統(tǒng)計(jì)圖 216
10.1.4 模型算法評(píng)估指標(biāo) 217
10.2 模型算法的測(cè)試方法 223
10.2.1 模型蛻變測(cè)試 223
10.2.2 模型模糊測(cè)試 226
10.2.3 模型魯棒性測(cè)試 227
10.2.4 模型安全測(cè)試 229
10.2.5 模型可解釋性測(cè)試 230
10.2.6 模型在線測(cè)試 233
10.2.7 模型監(jiān)控與迭代 234
10.3 不同應(yīng)用場(chǎng)景下模型算法的評(píng)測(cè) 235
10.3.1 圖像分類應(yīng)用場(chǎng)景下的模型算法評(píng)測(cè) 235
10.3.2 推薦應(yīng)用場(chǎng)景下的模型算法評(píng)測(cè) 236
10.3.3 金融風(fēng)控應(yīng)用場(chǎng)景下的模型算法評(píng)測(cè) 239
10.4 本章小結(jié) 241
第四部分 模型工程
第 11 章 模型評(píng)估平臺(tái)實(shí)踐 244
11.1 模型評(píng)估平臺(tái)背景 244
11.2 模型評(píng)估平臺(tái)的設(shè)計(jì) 245
11.2.1 平臺(tái)需求分析 245
11.2.2 平臺(tái)架構(gòu)設(shè)計(jì) 246
11.3 模型評(píng)估平臺(tái)展示 253
11.3.1 模型配置規(guī)則 253
11.3.2 模型評(píng)估指標(biāo) 255
11.3.3 模型評(píng)估報(bào)告 261
11.4 模型評(píng)估平臺(tái)總結(jié) 263
11.4.1 回 顧 264
11.4.2 展 望 265
11.5 本章小結(jié) 266
第 12 章 機(jī)器學(xué)習(xí)工程技術(shù) 267
12.1 機(jī)器學(xué)習(xí)平臺(tái)概述 267
12.1.1 機(jī)器學(xué)習(xí)平臺(tái)發(fā)展歷程 267
12.1.2 主流的機(jī)器學(xué)習(xí)平臺(tái) 269
12.1.3 機(jī)器學(xué)習(xí)平臺(tái)的建設(shè) 270
12.2 數(shù)據(jù)與建模工程技術(shù) 272
12.2.1 數(shù)據(jù)采集 272
12.2.2 數(shù)據(jù)存儲(chǔ) 272
12.2.3 數(shù)據(jù)加工 273
12.2.4 樣本數(shù)據(jù) 274
12.2.5 特征工程 275
12.2.6 模型構(gòu)建 275
12.3 模型部署工程技術(shù) 279
12.3.1 模型部署概述 279
12.3.2 模型發(fā)布方式 279
12.3.3 模型線上監(jiān)控 284
12.4 本章小結(jié) 286
第 13 章 機(jī)器學(xué)習(xí)的持續(xù)交付 287
13.1 機(jī)器學(xué)習(xí)持續(xù)交付的介紹與定義 287
13.1.1 持續(xù)交付 287
13.1.2 機(jī)器學(xué)習(xí)持續(xù)交付的定義 289
13.2 機(jī)器學(xué)習(xí)持續(xù)交付的主要挑戰(zhàn) 290
13.2.1 組織流程的挑戰(zhàn) 290
13.2.2 復(fù)雜技術(shù)的挑戰(zhàn) 292
13.3 如何構(gòu)建機(jī)器學(xué)習(xí)管道 292
13.3.1 機(jī)器學(xué)習(xí)管道概述 293
13.3.2 構(gòu)建機(jī)器學(xué)習(xí)管道 293
13.3.3 Pipeline(管道)設(shè)計(jì)的關(guān)注點(diǎn) 307
13.3.4 Pipeline 的技術(shù)組件 307
13.4 本章小結(jié) 309
第五部分 AI In Test
第 14 章 AI 在測(cè)試領(lǐng)域的探索與實(shí)踐 312
14.1 測(cè)試發(fā)展面臨的挑戰(zhàn) 312
14.2 AI 在測(cè)試領(lǐng)域的應(yīng)用及優(yōu)勢(shì) 313
14.3 業(yè)界智能化測(cè)試案例介紹 314
14.3.1 AI 在測(cè)試效能方面的探索 315
14.3.2 AI 在自動(dòng)化測(cè)試方面的實(shí)踐 317
14.4 主流AI 測(cè)試工具簡(jiǎn)介 320
14.5 本章小結(jié) 322
第 15 章 AI 時(shí)代測(cè)試工程師的未來 324
15.1 AI 對(duì)測(cè)試未來發(fā)展的影響 324
15.2 AI 時(shí)代測(cè)試工程師的定位 325
15.3 測(cè)試工程師的AI 學(xué)習(xí)路線 326
15.4 本章小結(jié) 328
參考文獻(xiàn) 329