定 價(jià):55 元
叢書名:大數(shù)據(jù)與商務(wù)智能系列
- 作者:謝笑盈
- 出版時(shí)間:2023/3/1
- ISBN:9787121452383
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:280
- 紙張:
- 版次:01
- 開本:16開
本書首先簡要介紹了大數(shù)據(jù)分析與挖掘的相關(guān)概念,以及R語言的基礎(chǔ)知識,以此來幫助讀者了解、使用R語言;其次詳細(xì)介紹了探索性數(shù)據(jù)分析、數(shù)據(jù)采集,以此來幫助讀者了解數(shù)據(jù)的基本分析方法和數(shù)據(jù)的獲取方法;然后著重介紹了目前主流的數(shù)據(jù)挖掘算法——時(shí)間序列算法、線性回歸算法、分類算法、關(guān)聯(lián)算法、聚類算法,從算法的原理到如何使用R語言進(jìn)行算法實(shí)現(xiàn)都進(jìn)行了詳細(xì)的介紹并提供了實(shí)操代碼,以此幫助讀者學(xué)習(xí)數(shù)據(jù)挖掘及使用R語言完成數(shù)據(jù)挖掘任務(wù);最后通過6個(gè)旅游行業(yè)的實(shí)際案例來幫助讀者將學(xué)習(xí)到的知識運(yùn)用到真實(shí)的業(yè)務(wù)場景中,并融會(huì)貫通整個(gè)知識體系。 本書無須讀者具備R語言和大數(shù)據(jù)分析與挖掘的基礎(chǔ)知識。無論是R語言初學(xué)者,還是熟練的R語言用戶,都能從本書中找到有用的內(nèi)容。本書既可以作為一本學(xué)習(xí)R語言的教材,也可以作為大數(shù)據(jù)分析與挖掘的工具書。
謝笑盈:統(tǒng)計(jì)學(xué)博士、副教授、碩士生導(dǎo)師、澳大利亞科廷大學(xué)訪問學(xué)者,研究方向?yàn)榇髷?shù)據(jù)統(tǒng)計(jì)分析方法與應(yīng)用。近5年來,主持完成國家社科基金項(xiàng)目1項(xiàng),國家統(tǒng)計(jì)局重點(diǎn)項(xiàng)目1項(xiàng);以第一作者或通訊作者身份發(fā)表中科院SCI1區(qū)TOP論文1篇、SCI2區(qū)TOP論文1篇、ESI高被引論文1篇、EI檢索論文3篇,其他中文核心以上刊物論文5篇;指導(dǎo)學(xué)生獲得全國大學(xué)生市場調(diào)查與分析大賽總決賽三等獎(jiǎng)1次、浙江省大學(xué)生市場調(diào)查與分析大賽一等獎(jiǎng)2次、浙江省金融創(chuàng)新大賽一等獎(jiǎng)1次。
第1章 大數(shù)據(jù)分析與挖掘概論 1
1.1 大數(shù)據(jù)分析與挖掘 1
1.1.1 大數(shù)據(jù)定義 1
1.1.2 大數(shù)據(jù)分析與挖掘的概念 2
1.2 大數(shù)據(jù)分析與挖掘流程 3
1.2.1 數(shù)據(jù)獲取 3
1.2.2 數(shù)據(jù)預(yù)處理 3
1.2.3 數(shù)據(jù)分析 4
1.2.4 數(shù)據(jù)解釋 5
1.3 大數(shù)據(jù)分析與挖掘應(yīng)用 5
1.3.1 優(yōu)化任務(wù) 5
1.3.2 預(yù)測任務(wù) 5
1.3.3 分類任務(wù) 5
1.3.4 識別任務(wù) 6
第2章 R語言編程基礎(chǔ) 7
2.1 R語言的安裝及配置 7
2.1.1 R語言的獲取和安裝 8
2.1.2 RStudio的獲取和安裝 9
2.2 界面與菜單 12
2.2.1 RGui界面 12
2.2.2 RStudio界面 12
2.3 變量與數(shù)據(jù)類型 15
2.3.1 變量 15
2.3.2 數(shù)據(jù)類型 15
2.4 數(shù)據(jù)結(jié)構(gòu) 17
2.4.1 向量 17
2.4.2 數(shù)組 19
2.4.3 矩陣 21
2.4.4 列表 22
2.4.5 數(shù)據(jù)框 23
2.4.6 因子 25
2.5 控制語句 26
2.5.1 條件語句 26
2.5.2 循環(huán)語句 28
2.6 函數(shù) 30
2.6.1 內(nèi)置函數(shù) 30
2.6.2 自定義函數(shù) 33
第3章 數(shù)據(jù)預(yù)處理 35
3.1 數(shù)據(jù)表的基本操作 35
3.1.1 數(shù)據(jù)表保存 35
3.1.2 數(shù)據(jù)表讀取 37
3.1.3 選取子集 40
3.1.4 連接數(shù)據(jù)庫 42
3.2 數(shù)據(jù)分組、分割、合并和變形 44
3.2.1 數(shù)據(jù)分組 44
3.2.2 數(shù)據(jù)分割 46
3.2.3 數(shù)據(jù)合并 47
3.2.4 數(shù)據(jù)變形 49
3.3 缺失值、異常值、重復(fù)值處理 52
3.3.1 缺失值 52
3.3.2 異常值 59
3.3.3 重復(fù)值 61
3.4 數(shù)據(jù)類型的轉(zhuǎn)換 62
3.4.1 判斷數(shù)據(jù)類型函數(shù) 62
3.4.2 轉(zhuǎn)換數(shù)據(jù)類型的函數(shù) 63
3.5 提取字符 64
3.5.1 截取字符 64
3.5.2 正則表達(dá)式 65
第4章 探索性數(shù)據(jù)分析 69
4.1 描述性統(tǒng)計(jì)方法 69
4.1.1 常用統(tǒng)計(jì)指標(biāo) 69
4.1.2 數(shù)據(jù)總結(jié) 70
4.2 數(shù)據(jù)可視化 72
4.2.1 箱線圖 72
4.2.2 直方圖 74
4.2.3 散點(diǎn)圖 75
4.2.4 餅圖 77
第5章 數(shù)據(jù)采集 80
5.1 網(wǎng)絡(luò)數(shù)據(jù)采集的原理 80
5.1.1 網(wǎng)頁通信的過程 80
5.1.2 請求數(shù)據(jù)的方法 87
5.1.3 網(wǎng)頁的組成元素 88
5.2 數(shù)據(jù)采集入門 90
5.2.1 數(shù)據(jù)采集常用包概述 90
5.2.2 數(shù)據(jù)采集前的準(zhǔn)備 91
5.2.3 編寫第一個(gè)數(shù)據(jù)采集 92
5.3 使用常用的R包采集數(shù)據(jù) 96
5.3.1 使用RCurl包獲取網(wǎng)絡(luò)數(shù)據(jù) 96
5.3.2 使用rvest包獲取網(wǎng)絡(luò)數(shù)據(jù) 98
5.3.3 使用httr包獲取網(wǎng)絡(luò)數(shù)據(jù) 106
5.4 爬蟲限制處理 107
5.4.1 解決IP限制問題 108
5.4.2 驗(yàn)證碼處理 109
5.4.3 登錄問題處理 110
第6章 時(shí)間序列算法 111
6.1 時(shí)間序列算法概述 111
6.1.1 時(shí)序?qū)ο?113
6.1.2 時(shí)序平滑處理 113
6.1.3 時(shí)序季節(jié)性分解 116
6.2 時(shí)序指數(shù)模型 118
6.3 時(shí)序ARIMA模型 122
第7章 線性回歸算法 129
7.1 一元線性回歸模型 129
7.2 多項(xiàng)式回歸模型 131
7.3 多元線性回歸模型 133
第8章 分類算法 136
8.1 Logistic回歸 136
8.1.1 Logistic回歸算法原理 137
8.1.2 邏輯回歸算法應(yīng)用 139
8.2 決策樹 143
8.2.1 決策樹算法原理 143
8.2.2 決策樹算法應(yīng)用 147
8.3 支持向量機(jī) 150
8.3.1 支持向量機(jī)算法原理 151
8.3.2 支持向量機(jī)算法應(yīng)用 155
8.4 樸素貝葉斯 157
8.4.1 貝葉斯定理 157
8.4.2 最大似然估計(jì) 157
8.4.3 樸素貝葉斯分類算法原理 158
8.4.4 樸素貝葉斯分類算法應(yīng)用 159
8.5 人工神經(jīng)網(wǎng)絡(luò) 166
8.5.1 人工神經(jīng)網(wǎng)絡(luò)的基本概念 166
8.5.2 感知器和人工神經(jīng)元模型 167
8.5.3 前饋神經(jīng)網(wǎng)絡(luò) 168
8.5.4 人工神經(jīng)網(wǎng)絡(luò)算法應(yīng)用 169
8.6 隨機(jī)森林 177
8.6.1 隨機(jī)森林算法原理 177
8.6.2 隨機(jī)森林算法應(yīng)用 178
8.7 XGBoost算法 183
8.7.1 XGBoost算法的原理 184
8.7.2 XGBoost算法應(yīng)用 187
第9章 關(guān)聯(lián)算法 189
9.1 關(guān)聯(lián)算法概述 189
9.1.1 相關(guān)名詞 190
9.1.2 關(guān)聯(lián)規(guī)則及頻繁項(xiàng)集的產(chǎn)生 190
9.2 Apriori算法 191
9.2.1 Apriori算法概述 191
9.2.2 先驗(yàn)原理 191
9.2.3 連接步和剪枝步 192
9.2.4 Apriori算法流程 193
9.2.5 Apriori算法實(shí)例 193
9.3 ECLAT算法 196
9.3.1 ECLAT算法概述 196
9.3.2 ECLAT算法流程 198
9.3.3 ECLAT算法實(shí)例 198
第10章 聚類算法 202
10.1 聚類算法概述 202
10.1.1 聚類算法的類型 202
10.1.2 聚類算法評估的特點(diǎn) 202
10.2 K均值聚類算法 203
10.2.1 劃分方法概述 203
10.2.2 K均值聚類算法的優(yōu)缺點(diǎn) 203
10.2.3 K均值聚類算法的流程 203
10.2.4 K均值聚類分析案例 204
10.3 凝聚式層次聚類算法 205
10.3.1 凝聚式層次聚類概述 205
10.3.2 凝聚式層次聚類算法流程 207
10.3.3 凝聚式層次聚類算法實(shí)例 209
【應(yīng)用案例1】景點(diǎn)輿情數(shù)據(jù)采集 211
【應(yīng)用案例2】旅游電商平臺數(shù)據(jù)采集 218
【應(yīng)用案例3】旅游網(wǎng)站景點(diǎn)路線推薦 233
【應(yīng)用案例4】旅游城市和景點(diǎn)的負(fù)荷預(yù)測 236
【應(yīng)用案例5】精品旅行服務(wù)成單預(yù)測 239
【應(yīng)用案例6】航班延誤預(yù)測 259