本書(shū)注重實(shí)用性,是一本全面而細(xì)致的R指南,高度概括了該軟件和它的強(qiáng)大功能,展示了使用的統(tǒng)計(jì)示例,且對(duì)于難以用傳統(tǒng)方法處理的凌亂、不完整和非正態(tài)的數(shù)據(jù)給出了優(yōu)雅的處理方法。作者不僅僅探討統(tǒng)計(jì)分析,還闡述了大量探索和展示數(shù)據(jù)的圖形功能。新版做了大量更新和修正,新增了近200頁(yè)內(nèi)容,介紹數(shù)據(jù)挖掘、預(yù)測(cè)性分析和高級(jí)編程。
本書(shū)適合數(shù)據(jù)分析人員及R用戶學(xué)習(xí)參考。
大數(shù)據(jù)時(shí)代已經(jīng)到來(lái),在商業(yè)、經(jīng)濟(jì)及其他領(lǐng)域中基于數(shù)據(jù)和分析去發(fā)現(xiàn)問(wèn)題并作出科學(xué)、客觀的決策越來(lái)越重要。開(kāi)源軟件R是世界上流行的數(shù)據(jù)分析、統(tǒng)計(jì)計(jì)算及制圖語(yǔ)言,幾乎能夠完成任何數(shù)據(jù)處理任務(wù),可安裝并運(yùn)行于所有主流平臺(tái),為我們提供了成千上萬(wàn)的專業(yè)模塊和實(shí)用工具,是從大數(shù)據(jù)中獲取有用信息的**工具,是數(shù)據(jù)挖掘、數(shù)據(jù)分析人才的必讀技能。
本書(shū)從解決實(shí)際問(wèn)題入手,盡量跳脫統(tǒng)計(jì)學(xué)的理論闡述來(lái)討論R語(yǔ)言及其應(yīng)用,講解清晰透澈,極具實(shí)用性。作者不僅高度概括了R語(yǔ)言的強(qiáng)大功能,展示了各種實(shí)用的統(tǒng)計(jì)示例,而且對(duì)于難以用傳統(tǒng)方法分析的凌亂、不完整和非正態(tài)的數(shù)據(jù)也給出了完備的處理方法。第2版新增6章內(nèi)容,涵蓋時(shí)間序列、聚類分析、分類、高級(jí)編程、創(chuàng)建包和創(chuàng)建動(dòng)態(tài)報(bào)告等,并分別詳細(xì)介紹了如何使用ggplot2和lattice進(jìn)行高級(jí)繪圖。通讀本書(shū),你將全面掌握使用R語(yǔ)言進(jìn)行數(shù)據(jù)分析、數(shù)據(jù)挖掘的技巧,領(lǐng)略大量探索和展示數(shù)據(jù)的圖形功能,并學(xué)會(huì)如何撰寫(xiě)動(dòng)態(tài)報(bào)告,從而更加高效地進(jìn)行分析與溝通。
想要成為備受高科技企業(yè)追捧的數(shù)據(jù)分析師嗎?想要科學(xué)分析數(shù)據(jù)并正確決策嗎?不妨從本書(shū)開(kāi)始,挑戰(zhàn)大數(shù)據(jù),用R開(kāi)始炫酷地統(tǒng)計(jì)與分析數(shù)據(jù)吧!
Robert I. Kabacoff
R語(yǔ)言社區(qū)學(xué)習(xí)網(wǎng)站Quick-R的維護(hù)者,現(xiàn)為全球化開(kāi)發(fā)與咨詢公司Management研究集團(tuán)研發(fā)副總裁。此前,Kabacoff博士是佛羅里達(dá)諾瓦東南大學(xué)的教授,講授定量方法和統(tǒng)計(jì)編程的研究生課程。Kabacoff還是臨床心理學(xué)博士、統(tǒng)計(jì)顧問(wèn),擅長(zhǎng)數(shù)據(jù)分析,在健康、金融服務(wù)、制造業(yè)、行為科學(xué)、政府和學(xué)術(shù)界有20余年的研究和統(tǒng)計(jì)咨詢經(jīng)驗(yàn)。
王小寧
中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院14級(jí)碩士,16級(jí)博士,統(tǒng)計(jì)之都副主編,中國(guó)人民大學(xué)數(shù)據(jù)挖掘中心分布式計(jì)算負(fù)責(zé)人,研究興趣包括統(tǒng)計(jì)機(jī)器學(xué)習(xí)和缺失數(shù)據(jù)。
劉擷芯
中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院13級(jí)碩士,愛(ài)荷華大學(xué)商學(xué)院16級(jí)博士,中國(guó)人民大學(xué)數(shù)據(jù)挖掘中心核心成員之一,研究興趣包括統(tǒng)計(jì)機(jī)器學(xué)習(xí)和文本分析。
黃俊文
2014年畢業(yè)于中山大學(xué)數(shù)學(xué)系,2016年畢業(yè)于加州大學(xué)圣地亞哥分校統(tǒng)計(jì)學(xué)專業(yè),統(tǒng)計(jì)之都成員,易易網(wǎng)創(chuàng)始人之一,目前關(guān)注計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)的結(jié)合與應(yīng)用,包括機(jī)器學(xué)習(xí)方法等。他致力于成為一個(gè)有趣的人。
第一部分 入門(mén)
第1章 R語(yǔ)言介紹 3
1.1 為何要使用R 4
1.2 R的獲取和安裝 6
1.3 R的使用 6
1.3.1 新手上路 7
1.3.2 獲取幫助 10
1.3.3 工作空間 10
1.3.4 輸入和輸出 12
1.4 包 13
1.4.1 什么是包 14
1.4.2 包的安裝 14
1.4.3 包的載入 14
1.4.4 包的使用方法 14
1.5 批處理 15
1.6 將輸出用為輸入:結(jié)果的重用 16
1.7 處理大數(shù)據(jù)集 16
1.8 示例實(shí)踐 16
1.9 小結(jié) 18
第2章 創(chuàng)建數(shù)據(jù)集 19
2.1 數(shù)據(jù)集的概念 19
2.2 數(shù)據(jù)結(jié)構(gòu) 20
2.2.1 向量 21
2.2.2 矩陣 22
2.2.3 數(shù)組 23
2.2.4 數(shù)據(jù)框 24
2.2.5 因子 27
2.2.6 列表 28
2.3 數(shù)據(jù)的輸入 30
2.3.1 使用鍵盤(pán)輸入數(shù)據(jù) 31
2.3.2 從帶分隔符的文本文件導(dǎo)入數(shù)據(jù) 32
2.3.3 導(dǎo)入Excel數(shù)據(jù) 35
2.3.4 導(dǎo)入XML數(shù)據(jù) 36
2.3.5 從網(wǎng)頁(yè)抓取數(shù)據(jù) 36
2.3.6 導(dǎo)入SPSS數(shù)據(jù) 36
2.3.7 導(dǎo)入SAS數(shù)據(jù) 37
2.3.8 導(dǎo)入Stata數(shù)據(jù) 37
2.3.9 導(dǎo)入NetCDF數(shù)據(jù) 38
2.3.10 導(dǎo)入HDF5數(shù)據(jù) 38
2.3.11 訪問(wèn)數(shù)據(jù)庫(kù)管理系統(tǒng) 38
2.3.12 通過(guò)Stat/Transfer導(dǎo)入數(shù)據(jù) 40
2.4 數(shù)據(jù)集的標(biāo)注 40
2.4.1 變量標(biāo)簽 40
2.4.2 值標(biāo)簽 41
2.5 處理數(shù)據(jù)對(duì)象的實(shí)用函數(shù) 41
2.6 小結(jié) 42
第3章 圖形初階 43
3.1 使用圖形 43
3.2 一個(gè)簡(jiǎn)單的例子 45
3.3 圖形參數(shù) 46
3.3.1 符號(hào)和線條 47
3.3.2 顏色 49
3.3.3 文本屬性 50
3.3.4 圖形尺寸與邊界尺寸 51
3.4 添加文本、自定義坐標(biāo)軸和圖例 53
3.4.1 標(biāo)題 54
3.4.2 坐標(biāo)軸 54
3.4.3 參考線 56
3.4.4 圖例 57
3.4.5 文本標(biāo)注 58
3.4.6 數(shù)學(xué)標(biāo)注 60
3.5 圖形的組合 61
3.6 小結(jié) 67
第4章 基本數(shù)據(jù)管理 68
4.1 一個(gè)示例 68
4.2 創(chuàng)建新變量 70
4.3 變量的重編碼 71
4.4 變量的重命名 72
4.5 缺失值 74
4.5.1 重編碼某些值為缺失值 74
4.5.2 在分析中排除缺失值 75
4.6 日期值 76
4.6.1 將日期轉(zhuǎn)換為字符型變量 77
4.6.2 更進(jìn)一步 78
4.7 類型轉(zhuǎn)換 78
4.8 數(shù)據(jù)排序 79
4.9 數(shù)據(jù)集的合并 79
4.9.1 向數(shù)據(jù)框添加列 79
4.9.2 向數(shù)據(jù)框添加行 80
4.10 數(shù)據(jù)集取子集 80
4.10.1 選入(保留)變量 80
4.10.2 剔除(丟棄)變量 81
4.10.3 選入觀測(cè) 82
4.10.4 subset()函數(shù) 82
4.10.5 隨機(jī)抽樣 83
4.11 使用SQL語(yǔ)句操作數(shù)據(jù)框 83
4.12 小結(jié) 84
第5章 高級(jí)數(shù)據(jù)管理 85
5.1 一個(gè)數(shù)據(jù)處理難題 85
5.2 數(shù)值和字符處理函數(shù) 86
5.2.1 數(shù)學(xué)函數(shù) 86
5.2.2 統(tǒng)計(jì)函數(shù) 87
5.2.3 概率函數(shù) 90
5.2.4 字符處理函數(shù) 92
5.2.5 其他實(shí)用函數(shù) 94
5.2.6 將函數(shù)應(yīng)用于矩陣和數(shù)據(jù)框 95
5.3 數(shù)據(jù)處理難題的一套解決方案 96
5.4 控制流 100
5.4.1 重復(fù)和循環(huán) 100
5.4.2 條件執(zhí)行 101
5.5 用戶自編函數(shù) 102
5.6 整合與重構(gòu) 104
5.6.1 轉(zhuǎn)置 104
5.6.2 整合數(shù)據(jù) 105
5.6.3 reshape2包 106
5.7 小結(jié) 108
第二部分 基本方法
第6章 基本圖形 110
6.1 條形圖 110
6.1.1 簡(jiǎn)單的條形圖 111
6.1.2 堆砌條形圖和分組條形圖 112
6.1.3 均值條形圖 113
6.1.4 條形圖的微調(diào) 114
6.1.5 棘狀圖 115
6.2 餅圖 116
6.3 直方圖 118
6.4 核密度圖 120
6.5 箱線圖 122
6.5.1 使用并列箱線圖進(jìn)行跨組比較 123
6.5.2 小提琴圖 125
6.6 點(diǎn)圖 127
6.7 小結(jié) 129
第7章 基本統(tǒng)計(jì)分析 130
7.1 描述性統(tǒng)計(jì)分析 131
7.1.1 方法云集 131
7.1.2 更多方法 132
7.1.3 分組計(jì)算描述性統(tǒng)計(jì)量 134
7.1.4 分組計(jì)算的擴(kuò)展 135
7.1.5 結(jié)果的可視化 137
7.2 頻數(shù)表和列聯(lián)表 137
7.2.1 生成頻數(shù)表 137
7.2.2 獨(dú)立性檢驗(yàn) 143
7.2.3 相關(guān)性的度量 144
7.2.4 結(jié)果的可視化 145
7.3 相關(guān) 145
7.3.1 相關(guān)的類型 145
7.3.2 相關(guān)性的顯著性檢驗(yàn) 147
7.3.3 相關(guān)關(guān)系的可視化 149
7.4 t檢驗(yàn) 149
7.4.1 獨(dú)立樣本的t檢驗(yàn) 150
7.4.2 非獨(dú)立樣本的t檢驗(yàn) 151
7.4.3 多于兩組的情況 151
7.5 組間差異的非參數(shù)檢驗(yàn) 152
7.5.1 兩組的比較 152
7.5.2 多于兩組的比較 153
7.6 組間差異的可視化 155
7.7 小結(jié) 155
第三部分 中級(jí)方法
第8章 回歸 158
8.1 回歸的多面性 159
8.1.1 OLS回歸的適用情境 159
8.1.2 基礎(chǔ)回顧 160
8.2 OLS 回歸 160
8.2.1 用lm()擬合回歸模型 161
8.2.2 簡(jiǎn)單線性回歸 163
8.2.3 多項(xiàng)式回歸 164
8.2.4 多元線性回歸 167
8.2.5 有交互項(xiàng)的多元線性回歸 169
8.3 回歸診斷 171
8.3.1 標(biāo)準(zhǔn)方法 172
8.3.2 改進(jìn)的方法 175
8.3.3 線性模型假設(shè)的綜合驗(yàn)證 181
8.3.4 多重共線性 181
8.4 異常觀測(cè)值 182
8.4.1 離群點(diǎn) 182
8.4.2 高杠桿值點(diǎn) 182
8.4.3 強(qiáng)影響點(diǎn) 184
8.5 改進(jìn)措施 186
8.5.1 刪除觀測(cè)點(diǎn) 186
8.5.2 變量變換 187
8.5.3 增刪變量 188
8.5.4 嘗試其他方法 188
8.6 選擇“最佳”的回歸模型 189
8.6.1 模型比較 189
8.6.2 變量選擇 190
8.7 深層次分析 193
8.7.1 交叉驗(yàn)證 193
8.7.2 相對(duì)重要性 195
8.8 小結(jié) 197
第9章 方差分析 198
9.1 術(shù)語(yǔ)速成 198
9.2 ANOVA模型擬合 201
9.2.1 aov()函數(shù) 201
9.2.2 表達(dá)式中各項(xiàng)的順序 202
9.3 單因素方差分析 203
9.3.1 多重比較 204
9.3.2 評(píng)估檢驗(yàn)的假設(shè)條件 206
9.4 單因素協(xié)方差分析 208
9.4.1 評(píng)估檢驗(yàn)的假設(shè)條件 209
9.4.2 結(jié)果可視化 210
9.5 雙因素方差分析 211
9.6 重復(fù)測(cè)量方差分析 214
9.7 多元方差分析 217
9.7.1 評(píng)估假設(shè)檢驗(yàn) 218
9.7.2 穩(wěn)健多元方差分析 220
9.8 用回歸來(lái)做ANOVA 220
9.9 小結(jié) 222
第10章 功效分析 223
10.1 假設(shè)檢驗(yàn)速覽 223
10.2 用pwr包做功效分析 225
10.2.1 t檢驗(yàn) 226
10.2.2 方差分析 228
10.2.3 相關(guān)性 228
10.2.4 線性模型 229
10.2.5 比例檢驗(yàn) 230
10.2.6 卡方檢驗(yàn) 231
10.2.7 在新情況中選擇合適的效應(yīng)值 232
10.3 繪制功效分析圖形 233
10.4 其他軟件包 235
10.5 小結(jié) 236
第11章 中級(jí)繪圖 237
11.1 散點(diǎn)圖 238
11.1.1 散點(diǎn)圖矩陣 240
11.1.2 高密度散點(diǎn)圖 242
11.1.3 三維散點(diǎn)圖 244
11.1.4 旋轉(zhuǎn)三維散點(diǎn)圖 247
11.1.5 氣泡圖 248
11.2 折線圖 250
11.3 相關(guān)圖 253
11.4 馬賽克圖 258
11.5 小結(jié) 260
第12章 重抽樣與自助法 261
12.1 置換檢驗(yàn) 261
12.2 用coin包做置換檢驗(yàn) 263
12.2.1 獨(dú)立兩樣本和K樣本檢驗(yàn) 264
12.2.2 列聯(lián)表中的獨(dú)立性 266
12.2.3 數(shù)值變量間的獨(dú)立性 266
12.2.4 兩樣本和K樣本相關(guān)性檢驗(yàn) 267
12.2.5 深入探究 267
12.3 lmPerm包的置換檢驗(yàn) 267
12.3.1 簡(jiǎn)單回歸和多項(xiàng)式回歸 268
12.3.2 多元回歸 269
12.3.3 單因素方差分析和協(xié)方差分析 270
12.3.4 雙因素方差分析 271
12.4 置換檢驗(yàn)點(diǎn)評(píng) 271
12.5 自助法 272
12.6 boot包中的自助法 272
12.6.1 對(duì)單個(gè)統(tǒng)計(jì)量使用自助法 274
12.6.2 多個(gè)統(tǒng)計(jì)量的自助法 276
12.7 小結(jié) 278
第四部分 高級(jí)方法
第13章 廣義線性模型 280
13.1 廣義線性模型和glm()函數(shù) 281
13.1.1 glm()函數(shù) 281
13.1.2 連用的函數(shù) 282
13.1.3 模型擬合和回歸診斷 283
13.2 Logistic回歸 284
13.2.1 解釋模型參數(shù) 286
13.2.2 評(píng)價(jià)預(yù)測(cè)變量對(duì)結(jié)果概率的影響 287
13.2.3 過(guò)度離勢(shì) 288
13.2.4 擴(kuò)展 289
13.3 泊松回歸 289
13.3.1 解釋模型參數(shù) 291
13.3.2 過(guò)度離勢(shì) 292
13.3.3 擴(kuò)展 294
13.4 小結(jié) 295
第14章 主成分分析和因子分析 296
14.1 R中的主成分和因子分析 297
14.2 主成分分析 298
14.2.1 判斷主成分的個(gè)數(shù) 298
14.2.2 提取主成分 300
14.2.3 主成分旋轉(zhuǎn) 303
14.2.4 獲取主成分得分 304
14.3 探索性因子分析 305
14.3.1 判斷需提取的公共因子數(shù) 306
14.3.2 提取公共因子 307
14.3.3 因子旋轉(zhuǎn) 308
14.3.4 因子得分 312
14.3.5 其他與EFA相關(guān)的包 312
14.4 其他潛變量模型 312
14.5 小結(jié) 313
第15章 時(shí)間序列 315
15.1 在R 中生成時(shí)序?qū)ο蟆?17
15.2 時(shí)序的平滑化和季節(jié)性分解 319
15.2.1 通過(guò)簡(jiǎn)單移動(dòng)平均進(jìn)行平滑處理 319
15.2.2 季節(jié)性分解 321
15.3 指數(shù)預(yù)測(cè)模型 326
15.3.1 單指數(shù)平滑 326
15.3.2 Holt 指數(shù)平滑和Holt-Winters指數(shù)平滑 329
15.3.3 ets()函數(shù)和自動(dòng)預(yù)測(cè) 331
15.4 ARIMA預(yù)測(cè)模型 333
15.4.1 概念介紹 333
15.4.2 ARMA和ARIMA模型 334
15.4.3 ARIMA的自動(dòng)預(yù)測(cè) 339
15.5 延伸閱讀 340
15.6 小結(jié) 340
第16章 聚類分析 342
16.1 聚類分析的一般步驟 343
16.2 計(jì)算距離 344
16.3 層次聚類分析 345
16.4 劃分聚類分析 350
16.4.1 K均值聚類 350
16.4.2 圍繞中心點(diǎn)的劃分 354
16.5 避免不存在的類 356
16.6 小結(jié) 359
第17章 分類 360
17.1 數(shù)據(jù)準(zhǔn)備 361
17.2 邏輯回歸 362
17.3 決策樹(shù) 363
17.3.1 經(jīng)典決策樹(shù) 364
17.3.2 條件推斷樹(shù) 366
17.4 隨機(jī)森林 368
17.5 支持向量機(jī) 370
17.6 選擇預(yù)測(cè)效果最好的解 374
17.7 用rattle包進(jìn)行數(shù)據(jù)挖掘 376
17.8 小結(jié) 381
第18章 處理缺失數(shù)據(jù)的高級(jí)方法 382
18.1 處理缺失值的步驟 383
18.2 識(shí)別缺失值 384
18.3 探索缺失值模式 385
18.3.1 列表顯示缺失值 385
18.3.2 圖形探究缺失數(shù)據(jù) 386
18.3.3 用相關(guān)性探索缺失值 389
18.4 理解缺失數(shù)據(jù)的來(lái)由和影響 391
18.5 理性處理不完整數(shù)據(jù) 391
18.6 完整實(shí)例分析(行刪除) 392
18.7 多重插補(bǔ) 394
18.8 處理缺失值的其他方法 397
18.8.1 成對(duì)刪除 398
18.8.2 簡(jiǎn)單(非隨機(jī))插補(bǔ) 398
18.9 小結(jié) 399
第五部分 技能拓展
第19章 使用ggplot2進(jìn)行高級(jí)繪圖 402
19.1 R 中的四種圖形系統(tǒng) 402
19.2 ggplot2包介紹 403
19.3 用幾何函數(shù)指定圖的類型 407
19.4 分組 411
19.5 刻面 413
19.6 添加光滑曲線 416
19.7 修改ggplot2圖形的外觀 418
19.7.1 坐標(biāo)軸 419
19.7.2 圖例 420
19.7.3 標(biāo)尺 421
19.7.4 主題 423
19.7.5 多重圖 425
19.8 保存圖形 426
19.9 小結(jié) 426
第20章 高級(jí)編程 427
20.1 R語(yǔ)言回顧 427
20.1.1 數(shù)據(jù)類型 427
20.1.2 控制結(jié)構(gòu) 433
20.1.3 創(chuàng)建函數(shù) 436
20.2 環(huán)境 437
20.3 面向?qū)ο蟮木幊獭?39
20.3.1 泛型函數(shù) 439
20.3.2 S3模型的限制 441
20.4 編寫(xiě)有效的代碼 442
20.5 調(diào)試 445
20.5.1 常見(jiàn)的錯(cuò)誤來(lái)源 445
20.5.2 調(diào)試工具 446
20.5.3 支持調(diào)試的會(huì)話選項(xiàng) 448
20.6 深入學(xué)習(xí) 451
20.7 小結(jié) 451
第21章 創(chuàng)建包 452
21.1 非參分析和npar 包 453
21.2 開(kāi)發(fā)包 457
21.2.1 計(jì)算統(tǒng)計(jì)量 457
21.2.2 打印結(jié)果 460
21.2.3 匯總結(jié)果 461
21.2.4 繪制結(jié)果 463
21.2.5 添加樣本數(shù)據(jù)到包 464
21.3 創(chuàng)建包的文檔 466
21.4 建立包 467
21.5 深入學(xué)習(xí) 471
21.6 小結(jié) 471
第22章 創(chuàng)建動(dòng)態(tài)報(bào)告 472
22.1 用模版生成報(bào)告 474
22.2 用R和Markdown創(chuàng)建動(dòng)態(tài)報(bào)告 475
22.3 用R和LaTeX創(chuàng)建動(dòng)態(tài)報(bào)告 480
22.4 用R和Open Document創(chuàng)建動(dòng)態(tài)報(bào)告 483
22.5 用R和Microsoft Word創(chuàng)建動(dòng)態(tài)報(bào)告 485
22.6 小結(jié) 489
第23章 使用lattice進(jìn)行高級(jí)繪圖 490
23.1 lattice包 490
23.2 調(diào)節(jié)變量 494
23.3 面板函數(shù) 495
23.4 分組變量 498
23.5 圖形參數(shù) 502
23.6 自定義圖形條帶 503
23.7 頁(yè)面布局 504
23.8 深入學(xué)習(xí) 507
附錄A 圖形用戶界面 508
附錄B 自定義啟動(dòng)環(huán)境 511
附錄C 從R中導(dǎo)出數(shù)據(jù) 513
附錄D R中的矩陣運(yùn)算 515
附錄E 本書(shū)中用到的擴(kuò)展包 517
附錄F 處理大數(shù)據(jù)集 522
附錄G 更新R 526
后記:探索R的世界 528
參考文獻(xiàn) 530