人工智能開發(fā)叢書--Scikit-learn機器學習詳解(上)
定 價:99 元
叢書名:人工智能開發(fā)叢書
- 作者:潘風文、潘啟儒 著
- 出版時間:2021/1/1
- ISBN:9787122378491
- 出 版 社:化學工業(yè)出版社
- 中圖法分類:TP181
- 頁碼:348
- 紙張:
- 版次:01
- 開本:16開
本書主要內(nèi)容包括機器學習介紹,NumPy、Pandas、SciPy庫、Matplotlib(可視化)四個基礎(chǔ)模塊,Scikit-learn算法、模型、擬合、過擬合、欠擬合、模型性能度量指標、數(shù)據(jù)標準化、非線性轉(zhuǎn)換、離散化,以及特征抽取和降維的各種方法,包括特征哈希、文本特征抽取、特征聚合等。全書通過實用范例和圖解形式講解,選材典型,案例豐富,適合從事大數(shù)據(jù)、數(shù)據(jù)挖掘、機器學習等人工智能領(lǐng)域開發(fā)的各類人員。
潘風文,博士,從事大數(shù)據(jù)、人工智能領(lǐng)域的研究和實踐二十多年,成功主持過多項大型數(shù)據(jù)倉庫及商業(yè)智能BI項目,包括電商平臺用戶畫像智能系統(tǒng),Themis企業(yè)征信盡調(diào)平臺智能系統(tǒng),武漢農(nóng)商行數(shù)據(jù)倉庫DW系統(tǒng),金融界大型網(wǎng)站數(shù)據(jù)分析系統(tǒng),CGoGo手機搜索引擎,陜西移動BI智能分析系統(tǒng),中國電信移動支付系統(tǒng)等,主持過數(shù)據(jù)挖掘人工智能領(lǐng)域多項國家科研項目。
1 機器學習 1
1.1 機器學習和人工智能 2
1.2 機器學習和大數(shù)據(jù) 4
1.3 機器學習和數(shù)據(jù)挖掘 6
1.4 機器學習分類和應用 7
1.5 機器學習開發(fā)步驟 10
1.5.1 數(shù)據(jù)挖掘標準流程 10
1.5.2 機器學習開發(fā)步驟 15
本章小結(jié) 18
2 Scikit-learn預備知識 20
2.1 NumPy 21
2.1.1 NumPy數(shù)組概念 23
2.1.2 NumPy數(shù)據(jù)類型 24
2.1.3 NumPy數(shù)組創(chuàng)建 26
2.1.4 NumPy數(shù)組操作 37
2.1.5 NumPy隨機數(shù) 51
2.1.6 NumPy輸入輸出 57
2.1.7 NumPy矩陣 58
2.1.8 NumPy線性代數(shù) 59
2.1.9 NumPy常數(shù) 63
2.2 Pandas 63
2.2.1 Pandas數(shù)據(jù)結(jié)構(gòu) 64
2.2.2 Pandas頂層函數(shù) 114
2.2.3 Pandas應用舉例 115
2.3 SciPy庫 122
2.3.1 SciPy庫基礎(chǔ)知識 123
2.3.2 稀疏矩陣及其處理 124
2.3.3 SciPy庫應用舉例 138
2.4 Matplotlib 144
2.4.1 Matplotlib基礎(chǔ)知識 145
2.4.2 Matplotlib應用舉例 149
本章小結(jié) 161
3 Scikit-learn基礎(chǔ)應用 163
3.1 機器學習的算法和模型 164
3.1.1 特征變量和目標變量 165
3.1.2 算法訓練 166
3.1.3 過擬合和欠擬合 174
3.1.4 模型性能度量 175
3.2 模型選擇 180
3.3 Scikit-learn的功能模塊 180
3.4 Scikit-learn 應用 182
3.4.1 安裝Scikit-learn 182
3.4.2 數(shù)據(jù)導入 183
3.4.3 模型持久化 185
3.4.4 文本數(shù)據(jù)處理 186
3.4.5 隨機狀態(tài)控制 187
3.4.6 分類型變量處理 187
3.4.7 Pandas數(shù)據(jù)框處理 188
3.4.8 輸入輸出約定 188
3.5 應用實例 191
本章小結(jié) 193
4 Scikit-learn數(shù)據(jù)變換 195
4.1 概念介紹 196
4.1.1 評估器(estimator) 196
4.1.2 轉(zhuǎn)換器(transformer) 197
4.1.3 管道(pipeline) 198
4.2 數(shù)據(jù)預處理 199
4.2.1 數(shù)據(jù)標準化 201
4.2.2 數(shù)據(jù)非線性轉(zhuǎn)換 223
4.2.3 數(shù)據(jù)歸一化 232
4.2.4 分類型特征變量編碼 237
4.2.5 數(shù)據(jù)離散化 245
4.2.6 特征組合 251
4.3 缺失值處理 254
4.3.1 單變量插補 255
4.3.2 多變量插補 258
4.3.3 最近鄰插補 262
4.3.4 標記插補缺失值 264
4.4 目標變量預處理 268
4.4.1 多類別分類標簽二值化 268
4.4.2 多標簽分類標簽二值化 273
4.4.3 目標變量標簽編碼 276
本章小結(jié) 279
5 Scikit-learn特征抽取和降維 281
5.1 特征抽取 282
5.1.1 字典列表對象向量化 283
5.1.2 特征哈希 286
5.1.3 文本特征抽取 291
5.1.4 圖像特征抽取 316
5.2 特征降維 320
5.2.1 主成分分析 321
5.2.2 特征聚合 326
5.2.3 隨機投影 330
本章小結(jié) 340
附錄 342
1. 互操作和框架增強包 343
2. 評估器和任務(wù)擴展包 344
3. 統(tǒng)計知識擴展包 347
4. 推薦引擎擴展包 347
5. 特定領(lǐng)域的擴展包 347