人工智能與大數(shù)據(卷1):基礎概念和模型
定 價:119.9 元
叢書名:R語言
- 作者:[新加坡]周志華(Chew Chee Hua)
- 出版時間:2022/4/1
- ISBN:9787115575753
- 出 版 社:人民郵電出版社
- 中圖法分類:TP18
- 頁碼:289
- 紙張:
- 版次:01
- 開本:小16開
本書介紹了人工智能和大數(shù)據涉及的核心概念和模型。書中涉及概念包括監(jiān)督和非監(jiān)督學習、數(shù)據類型、可視化、線性回歸、邏輯回歸、分類回歸樹、神經網絡等。同時,本書理論和實際并重,基于真實的實例和數(shù)據集,引入了R語言演示實際計算和操作,為讀者展示解決實際問題的代碼,從而讓讀者掌握在實際生活中解決相關問題的方法。
本書適合想要綜合學習人工智能、大數(shù)據和數(shù)據科學,尤其是想要依靠這些學科解決實際問題的人學習,也適合作為相關課程的參考教材。
1. 針對初學人士,對核心概念進行了詳細的解釋。
2. 理論和實操并重,采用了真實的案例和數(shù)據集進行演示。
3. 向讀者展示如何使用開源編程語言(即R語言)將概念投入應用。
4. 章末提供有關概念和實際計算的習題,幫助讀者進一步理解。
注意:本書作者為新加坡南洋理工大學高級講師Chew Chee Hua(中文名:周志華)先生,與《機器學習》作者、南京大學周志華教授不是同一人。請各位讀者不要混淆。
Chew Chee Hua(中文名:周志華),新加披南洋理工大學高級講師,主講課程包括分析學、機器學習、商業(yè)分析及應用機器學習、分析戰(zhàn)略等。曾為政府機構、銀行、保險公司、醫(yī)院和大型企業(yè)設計和領導高級分析解決方案。
第 1 章 介紹和概述 . 1
1.1 主要的成功案例和應用 .1
1.1.1 Netflix 的 120 億美元營收目標 .1
1.1.2 在醫(yī)院急診部使用有限的信息拯救生命 .3
1.1.3 癌癥診斷與損傷預后 .5
1.1.4 從零開始使用低預算連續(xù)贏得 20 場比賽 .6
1.1.5 殼牌公司深海石油鉆探的預測性資產維護 .7
1.1.6 預測選舉結果 .8
1.1.7 星展銀行預測現(xiàn)金需求和優(yōu)化調度 .9
1.1.8 新加坡稅務局檢測稅務欺詐 .10
1.1.9 違規(guī)和欺詐貸款風險檢測 .11
1.2 適合 ADA 解決的問題特征 .12
1.3 數(shù)據分析、數(shù)據科學和人工智能的區(qū)別 .13
1.4 analysis 和 analytics .14
1.5 組織 ADA 能力的發(fā)展曲線 .15
1.6 規(guī)劃、開發(fā)和部署 ADA .18
1.7 四大預測模型 .19
第 2 章 基本概念和原則. 21
2.1 本章目標 .21
2.2 可視化和模型 .21
2.3 監(jiān)督學習和無監(jiān)督學習 .24
2.4 模型的可解釋性 .25
2.5 原則 1:正確模型不唯一 .26
2.5.1 模型和等式 .28
2.5.2 評估預測模型 .29
2.6 原則 2:訓練數(shù)據和測試數(shù)據分離 . 31
2.6.1 在訓練 - 測試拆分前進行分層 .33
2.6.2 有效地執(zhí)行分層和訓練 - 測試拆分 .34
2.6.3 訓練集與測試集之間的權衡 .39
2.7 原則 3:風險校正模型 . 39
2.7.1 多項式插值定理的影響 .40
2.7.2 模型復雜度 .41
第 3 章 數(shù)據探索和摘要. 47
3.1 本章目標 .47
3.2 數(shù)據初探和 R 語言的 data.table .47
3.2.1 data.table 的語法 .48
3.2.2 示例:2014 年的紐約航班 .48
3.2.3 行篩選 .51
3.2.4 列排序 .52
3.2.5 篩選幾列并進行重命名 .53
3.2.6 進一步的數(shù)據探索和問題 .53
3.3 公共用途微觀樣本數(shù)據 .59
3.3.1 探索 PUMS 中的健康保險覆蓋面數(shù)據 .60
3.3.2 在 R 中導入數(shù)據和摘要概述 .61
3.3.3 缺失值概述 .66
3.3.4 繪制單一連續(xù)變量的圖形摘要—概率密度 .67
3.3.5 繪制單一分類變量的圖形摘要—條形圖 .71
3.3.6 繪制分類變量X 和連續(xù)變量Y 的圖形摘要—箱線圖 .73
3.3.7 繪制連續(xù)變量X 和連續(xù)變量Y 的圖形摘要—散點圖 .75
3.3.8 繪制連續(xù)變量X 和分類變量X 的圖形摘要—抖動
散點圖 .76
3.4 結論 .79
第 4 章 數(shù)據結構和可視化 . 83
4.1 本章目標 .83
4.2 數(shù)據結構的格式 .83
4.3 檢查數(shù)據結構 .85
4.3.1 連續(xù)數(shù)據和分類數(shù)據 .85
4.3.2 定類數(shù)據與定序數(shù)據 .87
4.4 可視化 .90
4.5 結論 .93
第 5 章 數(shù)據清洗和準備. 95
5.1 本章目標 .95
5.2 缺失值 .95
5.2.1 更正不一致的缺失值記錄 .96
5.2.2 NA 和 NULL .98
5.2.3 處理(真實存在的)缺失值 .99
5.3 處理分類數(shù)據中的 NA 和錯誤值 .100
5.4 處理連續(xù)數(shù)據中的 NA 和錯誤值 .100
5.5 結論 .102
第 6 章 線性回歸:最佳實踐. 105
6.1 本章目標 .105
6.2 相關性 .105
6.2.1 強相關和因果關系 .108
6.2.2 強相關和直線關系 .109
6.2.3 弱相關性和無趨勢 .110
6.3 單輸入變量的線性回歸 .112
6.4 多重R 方和調整R 方 .115
6.5 線性回歸方程和線性回歸模型 .117
6.6 模型診斷圖 .118
6.7 有影響力的異常值 .119
6.8 向模型中增加一個二次項 .121
6.9 多因子的線性回歸 .123
6.10 訓練 - 測試拆分 .135
6.11 結論 .137
第 7 章 邏輯回歸:最佳實踐. 140
7.1 本章目標 .140
7.2 相對風險和勝算比 .140
7.3 單一連續(xù)輸入變量的二元邏輯回歸 .145
7.3.1 示例: 基于學習時長預測考試結果 .148
7.3.2 邏輯回歸的混淆矩陣 .152
7.4 多輸入變量的二元邏輯回歸 .154
7.5 多元邏輯回歸 .159
7.5.1 多分類值Y 的邏輯函數(shù) .160
7.5.2 示例:影響服務評級的因素 .161
7.6 結論 .166
第 8 章 分類回歸樹 . 171
8.1 本章目標 .171
8.2 預測心臟病發(fā)作的模型和要求 .172
8.3 階段 1:使用二分法將樹增長到最大值 .175
8.3.1 度量分類變量結點的雜質 .176
8.3.2 CART 樹的增長過程 .179
8.4 階段 2:用最弱連接剪枝法將樹修剪到最小值 .180
8.4.1 最弱連接剪枝 .182
8.4.2 rpart 包中的α 和cp .185
8.4.3 k 折交叉驗證和 1 標準誤差規(guī)則 .185
8.5 示例:CART 模型在定向信用卡營銷中的運用
(Y 為分類數(shù)據) .187
8.6 示例:CART 模型在汽車燃油效率中的運用
(Y 為連續(xù)數(shù)據) .198
8.7 通過代理項自動處理缺失值 .205
8.8 結論 .211
8.9 rpart 包的重要函數(shù)和參數(shù)總結 .212
第 9 章 神經網絡. 219
9.1 本章目標 .219
9.2 大腦處理信息過程的建模 .220
9.3 信息的處理、關聯(lián)和傳輸 .221
9.4 示例:巧克力口味測試 .222
9.5 通過增加權重訓練神經網絡 .226
9.5.1 反向傳播 .226
9.5.2 彈性反向傳播和權重回溯 .228
9.6 設計神經網絡需要考慮的細節(jié) .229
9.6.1 規(guī)范所有輸入變量的取值范圍 .229
9.6.2 限制網絡復雜度 .230
9.6.3 neuralnet 和 nnet .230
9.7 示例:不孕風險 .231
9.8 結論 .236、
第 10 章 字符串和文本挖掘 . 240
10.1 本章目標 .240
10.2 處理字符串 .240
10.3 基本的文本挖掘概念 .247
10.3.1 示例:對期刊標題進行分析的字符串操作 .249
10.3.2 示例:對期刊標題分析的文本挖掘操作 .252
10.3.3 文檔要素矩陣 .256
10.3.4 非索引字 .257
10.4 情緒分析 .259
10.5 結論 .266
第 11 章 結束感想和后續(xù)計劃. 269
附錄 A R 和 RStudio 的安裝 . 271
A.1 下載安裝 R .271
A.2 下載安裝 RStudio .273
A.3 在 RStudio 中將 R 升級到最新版本 .274
附錄 B 基本的 R 命令和腳本 . 275
B.1 RStudio 界面的 4 個面板 .275
B.2 檢查和設置工作目錄 .280
B.3 將數(shù)據輸入 RStudio .281
B.4 R 中的對象命名約定 .284
B.5 R 中的通用運算符 .285
B.6 R 函數(shù) .285
B.7 創(chuàng)建你自己的 R 函數(shù) .287
B.8 練習 R .288