本書以公安大數(shù)據(jù)應用型教改實踐為出發(fā)點,以公安實戰(zhàn)案例化教學思想為導向,將教學內(nèi)容合理地劃分為3個模塊:大數(shù)據(jù)理論模塊(第1章),主要介紹大數(shù)據(jù)的概念、發(fā)展、應用和常用的數(shù)據(jù)挖掘工具,旨在使讀者初步理解大數(shù)據(jù);數(shù)據(jù)分析與挖掘模塊(第2~9章),主要介紹SPSS Modeler軟件、數(shù)據(jù)清洗、時間序列分析、決策樹、人工神經(jīng)網(wǎng)絡、Logistic回歸分析、關聯(lián)分析和聚類分析,充分結(jié)合公安大數(shù)據(jù)的特點,給出多個實戰(zhàn)型、功能型案例;數(shù)據(jù)可視化模塊(第10章),主要介紹數(shù)據(jù)可視化的基本概念和操作,給出6個典型、完整的公安工作中的數(shù)據(jù)可視化案例,提高讀者的數(shù)據(jù)可視化處理能力。 本書適合作為公安類本科院校和高職高專院校大數(shù)據(jù)相關課程的教材及參考書,也可供相關技術人員參考。
邱明月,女,講師,2015年~2016年,福岡工業(yè)大學博士后研究員,2016年至今,任南京森林警察學院信息技術學院教師,現(xiàn)任情報技術教研室主任。主要從事方向為公安情報、數(shù)據(jù)挖掘。
大數(shù)據(jù)理論模塊
第1章 大數(shù)據(jù)理論 2
1.1 大數(shù)據(jù)的概念 2
1.1.1 大數(shù)據(jù)的定義 2
1.1.2 大數(shù)據(jù)的本質(zhì) 2
1.1.3 大數(shù)據(jù)的分類 3
1.1.4 大數(shù)據(jù)的特征 5
1.1.5 大數(shù)據(jù)的功能 6
1.1.6 大數(shù)據(jù)處理的基本流程 6
1.2 大數(shù)據(jù)的發(fā)展 7
1.2.1 大數(shù)據(jù)的發(fā)展現(xiàn)狀 7
1.2.2 大數(shù)據(jù)的發(fā)展趨勢 7
1.3 大數(shù)據(jù)的應用 8
1.3.1 企業(yè)內(nèi)部大數(shù)據(jù) 8
1.3.2 在線社交網(wǎng)絡大數(shù)據(jù) 8
1.3.3 健康醫(yī)療大數(shù)據(jù) 9
1.3.4 金融大數(shù)據(jù) 9
1.4 常用的數(shù)據(jù)挖掘工具 10
1.4.1 Tableau 10
1.4.2 Excel 10
1.4.3 SPSS Modeler 11
數(shù)據(jù)分析與挖掘模塊
第2章 SPSS Modeler軟件 14
2.1 SPSS Modeler 軟件概述 14
2.1.1 SPSS Modeler界面 14
2.1.2 數(shù)據(jù)流的基本管理和執(zhí)行 16
2.1.3 數(shù)據(jù)流的其他管理 18
2.1.4 SPSS Modeler應用案例 20
2.2 SPSS Modeler數(shù)據(jù)的讀入 25
2.2.1 變量的類型 25
2.2.2 讀數(shù)據(jù) 26
2.2.3 生成實驗方案數(shù)據(jù) 32
2.2.4 數(shù)據(jù)合并 34
2.3 SPSS Modeler數(shù)據(jù)的基本分析 38
2.3.1 數(shù)據(jù)質(zhì)量 38
2.3.2 基本描述分析 44
2.3.3 變量分布探索 47
2.3.4 二分類型變量相關性研究 49
2.3.5 兩總體的平均值比較 56
2.3.6 變量的重要性分析 62
第3章 數(shù)據(jù)清洗 67
3.1 數(shù)據(jù)清洗概述 67
3.1.1 數(shù)據(jù)清洗的概念 67
3.1.2 數(shù)據(jù)清洗的對象 67
3.1.3 數(shù)據(jù)清洗的一般步驟 68
3.1.4 數(shù)據(jù)清洗的常用方式 69
3.1.5 數(shù)據(jù)清洗的基本方法 69
3.2 Excel數(shù)據(jù)清洗的基本操作 70
3.2.1 重復值的處理 70
3.2.2 缺失值及異常值的處理 74
3.3 Excel數(shù)據(jù)加工的基本操作 78
3.3.1 字段分列 78
3.3.2 字段合并 79
3.3.3 字段匹配 80
3.3.4 數(shù)據(jù)分組 81
3.4 Excel數(shù)據(jù)透視表 81
3.4.1 數(shù)據(jù)透視表應用 81
3.4.2 數(shù)據(jù)透視表的實用技巧 85
第4章 時間序列分析 89
4.1 時間序列 89
4.1.1 時間序列概述 89
4.1.2 時間序列的預測步驟 90
4.2 移動平均法 90
4.2.1 一次移動平均法 91
4.2.2 二次移動平均法 94
4.3 指數(shù)平滑法 96
4.3.1 一次指數(shù)平滑法 97
4.3.2 二次指數(shù)平滑法 98
4.3.3 三次指數(shù)平滑法 104
第5章 分類預測:決策樹 110
5.1 決策樹概述 110
5.1.1 什么是決策樹 110
5.1.2 決策樹的幾何理解 111
5.1.3 決策樹的核心問題 111
5.2 SPSS Modeler中的C5.0算法及應用 113
5.2.1 C5.0決策樹的分割點 113
5.2.2 C5.0決策樹的剪枝過程 114
5.2.3 C5.0決策樹的推理規(guī)則集 115
5.2.4 C5.0決策樹的應用 116
5.3 SPSS Modeler中的C&RT算法及應用 123
5.3.1 C&RT的生長過程 124
5.3.2 C&RT的剪枝過程 125
5.3.3 C&RT的應用 127
5.4 SPSS Modeler中的CHAID算法及應用 129
5.4.1 CHAID算法的最佳分組變量 130
5.4.2 CHAID算法的剪枝過程 130
5.4.3 Exhaustive CHAID算法 131
5.4.4 CHAID算法的應用 131
5.5 SPSS Modeler中的QUEST算法及應用 132
5.5.1 QUEST算法的最佳分割點 132
5.5.2 QUEST算法的應用 133
5.6 決策樹算法的評估和注意事項 134
第6章 分類預測:人工神經(jīng)網(wǎng)絡 143
6.1 人工神經(jīng)網(wǎng)絡概述 143
6.1.1 人工神經(jīng)網(wǎng)絡的概念和種類 143
6.1.2 人工神經(jīng)網(wǎng)絡中的節(jié)點 145
6.1.3 建立人工神經(jīng)網(wǎng)絡的一般步驟 147
6.2 SPSS Modeler中的B-P反向傳播網(wǎng)絡 149
6.2.1 感知器模型 149
6.2.2 B-P反向傳播網(wǎng)絡 152
6.2.3 B-P反向傳播算法 154
6.2.4 B-P反向傳播網(wǎng)絡的建立 156
6.3 SPSS Modeler中的徑向基函數(shù)網(wǎng)絡 159
6.3.1 徑向基函數(shù)網(wǎng)絡 159
6.3.2 徑向基函數(shù)網(wǎng)絡中的隱藏層節(jié)點和輸出節(jié)點 160
6.3.3 徑向基函數(shù)網(wǎng)絡的學習過程 161
6.4 人工神經(jīng)網(wǎng)絡的應用 162
第7章 分類預測:Logistic回歸分析 176
7.1 二項Logistic回歸方程 176
7.1.1 二項Logistic回歸方程概述 176
7.1.2 二項Logistic回歸方程中系數(shù)的含義 178
7.2 二項Logistic回歸分析的應用 180
7.3 多項Logistic回歸分析的應用 184
第8章 關聯(lián)分析 185
8.1 簡單關聯(lián)規(guī)則分析 185
8.1.1 簡單關聯(lián)規(guī)則的基本概念 186
8.1.2 簡單關聯(lián)規(guī)則的有效性和實用性 187
8.2 Apriori算法 190
8.2.1 尋找頻繁項集 190
8.2.2 依據(jù)頻繁項集產(chǎn)生簡單關聯(lián)規(guī)則 192
8.3 Apriori算法的應用 193
8.4 序列關聯(lián)規(guī)則分析 200
8.4.1 序列關聯(lián)規(guī)則的基本概念 200
8.4.2 序列關聯(lián)規(guī)則的時間約束 201
8.5 Sequence算法 202
8.5.1 產(chǎn)生頻繁序列集 202
8.5.2 依據(jù)頻繁序列集生成序列關聯(lián)規(guī)則 203
8.6 Sequence算法的應用 204
第9章 聚類分析 208
9.1 聚類分析概述 208
9.2 K-Means聚類算法及應用 209
9.2.1 K-Means聚類算法對“親疏程度”的衡量 209
9.2.2 K-Means聚類過程 209
9.2.3 K-Means聚類算法的應用 211
9.3 兩步聚類算法及應用 219
9.3.1 兩步聚類算法對“親疏程度”的衡量 219
9.3.2 兩步聚類過程 220
9.3.3 兩步聚類算法的應用 222
9.4 Kohonen網(wǎng)絡聚類算法及應用 224
9.4.1 Kohonen網(wǎng)絡聚類算法的原理 224
9.4.2 Kohonen網(wǎng)絡聚類過程 225
9.4.3 Kohonen網(wǎng)絡聚類算法的應用 227
9.5 基于聚類分析的離群值探索及應用 230
9.5.1 多維空間基于聚類的診斷方法 230
9.5.2 多維空間基于聚類的診斷方法的應用 232
數(shù)據(jù)可視化模塊
第10章 數(shù)據(jù)可視化 238
10.1 數(shù)據(jù)可視化入門 238
10.1.1 i2 Analyst’s Notebook 8軟件 238
10.1.2 基本概念 239
10.1.3 數(shù)據(jù)接口 243
10.2 基本功能 243
10.2.1 基本操作 243
10.2.2 搜索查找 245
10.3 功能演練 248
10.3.1 話單關系分析 248
10.3.2 人員物品動態(tài)關系 255
10.3.3 銀行賬戶交易分析 259
10.3.4 話單ABC分析 266
10.3.5 盜竊案旅業(yè)分析 272
10.3.6 人員活動軌跡 275