大數(shù)據(jù)技術經(jīng)歷了多年的發(fā)展,已經(jīng)在金融、電信、教育、醫(yī)藥等領域得到了較多也較為成功的應用,這使人們看到了該技術所帶來的社會變革,而IT 技術的高速發(fā)展使得該技術趨于大眾化,使得越來越多的人能夠參與其中,分享該技術帶來的樂趣。
本書系統(tǒng)地介紹了數(shù)據(jù)分析、數(shù)據(jù)可視化與數(shù)據(jù)挖掘的概念和方法,在內(nèi)容編排上側重于應用,用案例將知識點進行串聯(lián),本次修訂將數(shù)據(jù)可視化進階細化為可視化進階數(shù)據(jù)圖表制作、數(shù)據(jù)公式與函數(shù)、數(shù)據(jù)可視化案例,對其操作方案與步驟進行詳解,以期達到提高讀者的學習興趣、增強實踐動手能力的目的。
本書對于初次接觸數(shù)據(jù)分析的讀者會有很大幫助,書中對數(shù)據(jù)分析的每一步操作都有詳盡的說明,且選用的軟件都是相關工具軟件,無須編程基礎即可完成整個分析過程,使讀者能夠脫離枯燥的代碼環(huán)境,專注于數(shù)據(jù)本身,為數(shù)據(jù)分析帶來全新的思路和視角。書中涉及的數(shù)據(jù)均來自于網(wǎng)絡,僅供學習研究使用。
本書由張丹玨任主編,鄭俊任副主編,施慶、趙任穎、程五生、盛家駿、翁少逸和蔣雨蔚參與編寫。全書由顧順德主審。具體分工如下:第1 章由施慶編寫;第2 章的2.1~2.4由程五生編寫;第2 章的2.5 由趙任穎編寫;第2 章的2.6 和第3 章由鄭俊編寫;第4 章由施慶編寫;第5~8 章和附錄A 由張丹玨編寫;附錄B 由盛家駿、翁少逸和蔣雨蔚編寫,張丹玨整理;附錄C 由趙任穎編寫。
在本書的編寫過程中,得到了許多老師的大力支持和熱情幫助,中國鐵道出版社有限公司對本書的出版給予了大力支持,在此表示衷心的感謝!
由于時間倉促,編者水平有限,書中難免存在疏漏或不足之處,懇請讀者批評指正,以便及時修改和完善。
編 者
2020 年6 月
第1 章 數(shù)據(jù)分析概述 1
1.1 大數(shù)據(jù)簡介 1
1.2 數(shù)據(jù)可視化 2
1.2.1 數(shù)據(jù)可視化概述 2
1.2.2 在線可視化工具 2
1.2.3 桌面版可視化軟件 6
1.3 數(shù)據(jù)挖掘 7
1.3.1 數(shù)據(jù)挖掘概述 7
1.3.2 常用數(shù)據(jù)挖掘工具 7
1.4 數(shù)據(jù)分析 9
1.4.1 數(shù)據(jù)分析概述 9
1.4.2 數(shù)據(jù)分析的目的與分類 9
1.4.3 數(shù)據(jù)分析的作用 9
1.5 數(shù)據(jù)分析的步驟 10
1.6 數(shù)據(jù)分析方法論 11
1.7 常見數(shù)據(jù)分析法則 12
第2章 數(shù)據(jù)可視化初步 14
2.1 Oracle 數(shù)據(jù)分析軟件產(chǎn)品簡介 14
2.2 軟件安裝 16
2.2.1 硬件要求 16
2.2.2 安裝Oracle AD 16
2.2.3 安裝DVML 16
2.3 Oracle AD 功能介紹 17
2.3.1 認識主頁 17
2.3.2 連接到文件 19
2.3.3 連接到數(shù)據(jù)庫 20
2.3.4 創(chuàng)建項目和添加數(shù)據(jù)集 21
2.3.5 項目的導入導出 26
2.3.6 工作界面簡介 28
2.4 Oracle AD 支持的數(shù)據(jù)類型 29
2.4.1 定性數(shù)據(jù)與定量數(shù)據(jù) 29
2.4.2 度量和屬性 35
2.4.3 連續(xù)和離散 35
2.5 數(shù)據(jù)準備 36
2.5.1 轉換數(shù)據(jù)類型 36
2.5.2 連接 38
2.5.3 提取 39
2.5.4 拆分 42
2.5.5 創(chuàng)建 44
2.5.6 分組 46
2.5.7 收集器 47
2.6 創(chuàng)作一個畫布 49
2.6.1 畫布新建與設置 49
2.6.2 將數(shù)據(jù)添加到可視化畫布 50
2.6.3 添加多個可視化圖表 51
2.6.4 更改可視化類型 52
2.6.5 調(diào)整可視化屬性 54
2.6.6 顏色設置 56
2.6.7 大。▽挾龋┰O置 58
2.6.8 排序和篩選 59
2.6.9 數(shù)據(jù)的鉆探 61
2.6.10 用作篩選器 61
2.6.11 導出畫布 62
第3 章 數(shù)據(jù)圖表制作 65
3.1 條形圖 66
3.2 水平條形圖 75
3.3 線形圖 77
3.4 面積圖 82
3.5 餅圖 84
3.6 旭日圖 88
3.7 樹狀圖 91
3.8 雷達線 92
3.9 網(wǎng)格熱圖 95
3.10 標記云 98
3.11 散點圖 100
3.12 組合圖表 106
3.13 瀑布圖 110
3.14 箱線圖 113
3.15 地圖 116
3.16 敘述 118
第4 章 數(shù)據(jù)公式與函數(shù) 121
4.1 常量與運算符 121
4.2 公式與函數(shù)操作 123
4.2.1 公式的使用 123
4.2.2 函數(shù)的輸入 126
4.3 常用函數(shù) 126
4.3.1 聚合函數(shù) 126
4.3.2 字符串函數(shù) 135
4.3.3 數(shù)學函數(shù) 139
4.3.4 轉換函數(shù) 141
4.3.5 日歷/ 日期函數(shù) 142
4.3.6 表達式函數(shù) 147
第5 章 數(shù)據(jù)可視化案例 152
5.1 圖解中國能源 152
5.1.1 數(shù)據(jù)整理 152
5.1.2 能源概況 154
5.1.3 四類能源生產(chǎn)與消耗比例 156
5.1.4 敘述 158
5.2 圖解新冠肺炎疫情發(fā)展 159
5.2.1 數(shù)據(jù)整理 159
5.2.2 疫情概況 160
5.2.3 部分省份/ 城市排名 161
5.2.4 每日新增情況 166
5.2.5 敘述 168
第6 章 數(shù)據(jù)挖掘基礎 169
6.1 數(shù)據(jù)挖掘概述 169
6.1.1 數(shù)據(jù)挖掘的分類 169
6.1.2 數(shù)據(jù)挖掘的步驟 170
6.1.3 數(shù)據(jù)挖掘的應用 171
6.1.4 數(shù)據(jù)挖掘的案例 172
6.2 IBM SPSS Modeler 18 簡介 173
6.2.1 軟件下載與安裝 174
6.2.2 軟件界面介紹 174
6.2.3 數(shù)據(jù)流構建 176
6.2.4 模型簡介 178
6.3 數(shù)據(jù)整理 180
6.3.1 數(shù)據(jù)的屬性 181
6.3.2 數(shù)據(jù)的角色 181
6.3.3 數(shù)據(jù)的導入 181
6.3.4 數(shù)據(jù)的集成 186
6.3.5 數(shù)據(jù)的導出 188
6.4 數(shù)據(jù)建模決策樹 189
6.4.1 決策樹案例 189
6.4.2 用戶畫像案例 193
6.5 數(shù)據(jù)建模關聯(lián)分析 195
6.5.1 關聯(lián)參數(shù) 195
6.5.2 關聯(lián)分析案例 196
第7 章 數(shù)據(jù)分析報告 199
7.1 數(shù)據(jù)分析報告概述 199
7.2 數(shù)據(jù)分析報告的寫作原則 199
7.3 數(shù)據(jù)分析報告的結構 200
7.4 數(shù)據(jù)分析報告排版 201
第8 章 數(shù)據(jù)分析案例 207
8.1 廣告投入分析 207
8.1.1 數(shù)據(jù)整理 207
8.1.2 廣告投入概況分析 209
8.1.3 項目廣告投放分析 211
8.1.4 留學英語公開課在百度投放渠道分析 212
8.1.5 注冊人數(shù)預測 215
8.1.6 封面 220
8.1.7 結論 220
8.1.8 敘述 221
8.2 成績分析 221
8.2.1 數(shù)據(jù)整理 221
8.2.2 人數(shù)分析 224
8.2.3 生源地分析 227
8.2.4 成績分析 229
8.2.5 封面 235
8.2.6 結論 236
8.2.7 敘述 237
附錄A 數(shù)據(jù)分析報告評分表 238
附錄B 數(shù)據(jù)分析報告示例 239
附錄C Access 基本操作 254
參考文獻 260