為促進(jìn)中國城市軌道交通自動化水平及系統(tǒng)設(shè)備研發(fā)制造能力的提升,逐步形成全自動運(yùn)行系統(tǒng)及其配套的產(chǎn)業(yè)鏈,并滿足城市軌道交通全自動運(yùn)行的需求,中國城市軌道交通協(xié)會組織編寫了城市軌道交通全自動運(yùn)行系統(tǒng)規(guī)范。本書的內(nèi)容包括范圍、規(guī)范性引用文件、術(shù)語與縮略語、一般要求、測試環(huán)境及條件、測試需求等。
引導(dǎo)性:引領(lǐng)讀者進(jìn)入大數(shù)據(jù)領(lǐng)域的基礎(chǔ)性讀物
前瞻性:介紹大數(shù)據(jù)新技術(shù)及其行業(yè)應(yīng)用
經(jīng)典性:關(guān)注大數(shù)據(jù)技術(shù)經(jīng)典算法
全球范圍內(nèi),運(yùn)用大數(shù)據(jù)推動經(jīng)濟(jì)發(fā)展、完善社會治理、提升政府服務(wù)和監(jiān)管能 力正成為趨勢,國內(nèi)外政府相繼制定實(shí)施大數(shù)據(jù)戰(zhàn)略性文件,大力推動大數(shù)據(jù)發(fā)展和 應(yīng)用。與之相關(guān)的職業(yè)需求也呈爆發(fā)式增長,根據(jù) IDC(國際數(shù)據(jù)公司)和 Gartner(高 德納咨詢公司)等發(fā)布的相關(guān)報告顯示,目前全球云計(jì)算、大數(shù)據(jù)市場規(guī)模已超過 3 000 億美元,而未來潛在市場價值將達(dá)到萬億美元規(guī)模,大數(shù)據(jù)與云計(jì)算專業(yè)將為全 球帶來 440 萬個 IT 新崗位和上千萬個非 IT 崗位。2019 年,我國互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng) 用戶規(guī)模居全球第一,擁有豐富的數(shù)據(jù)資源和應(yīng)用市場優(yōu)勢,大數(shù)據(jù)部分關(guān)鍵技術(shù)研 發(fā)取得突破,涌現(xiàn)出一批互聯(lián)網(wǎng)創(chuàng)新企業(yè)和創(chuàng)新應(yīng)用,2015 年 11 月 3 日發(fā)布的《中 共中央關(guān)于制定國民經(jīng)濟(jì)和社會發(fā)展第十三個五年規(guī)劃的建議》明確提出實(shí)施國家大 數(shù)據(jù)戰(zhàn)略。椐預(yù)測,2019 年我國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模為 7 000 億元,2020 年將突破萬億元。
大數(shù)據(jù)成為了繼互聯(lián)網(wǎng)蓬勃發(fā)展以來的又一輪 IT 工業(yè)革命,被人們寄予厚望。大 數(shù)據(jù)技術(shù)包括數(shù)據(jù)的采集、存儲、處理、分析和可視化,本書對上述內(nèi)容做了詳細(xì)介紹。 數(shù)據(jù)采集部分主要介紹了網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù)和日志數(shù)據(jù)采集技術(shù),同時討論了數(shù)據(jù)清 洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約等數(shù)據(jù)預(yù)處理技術(shù);數(shù)據(jù)存儲部分主要介紹了大 數(shù)據(jù)分析中所用到的主流分布式文件存儲系統(tǒng),包括 HBase 分布式數(shù)據(jù)庫、MongoDB 分布式數(shù)據(jù)庫和 Hive 分布式數(shù)據(jù)倉庫,數(shù)據(jù)處理部分討論了數(shù)據(jù)處理平臺的架構(gòu)設(shè) 計(jì),并分別著重介紹了批處理、流處理和混合處理 3 種流行的大數(shù)據(jù)計(jì)算框架以及它們所對應(yīng)的典型系統(tǒng):Hadoop、Storm、Spark;大數(shù)據(jù)分析部分重點(diǎn)討論了常用的統(tǒng) 計(jì)數(shù)據(jù)分析方法,包括描述統(tǒng)計(jì)、相關(guān)分析、回歸分析和主成分分析,同時主要介紹 了幾種經(jīng)典的數(shù)據(jù)挖掘算法,包括 ID3 算法、C4.5 算法、CART 算法、K-Means 算法、 Apriori 算法和神經(jīng)網(wǎng)絡(luò)的常用訓(xùn)練算法;數(shù)據(jù)可視化部分主要介紹了文本可視化、網(wǎng) 絡(luò)可視化、時空數(shù)據(jù)可視化及多維數(shù)據(jù)可視化等常用可視化方法及相關(guān)工具。與此同 時,針對大數(shù)據(jù)隱私與安全,介紹了數(shù)據(jù)安全、數(shù)據(jù)隱私、數(shù)據(jù)信息共享與隱私信息 融合以及云環(huán)境下的大數(shù)據(jù)安全與隱私保護(hù)。針對大數(shù)據(jù)應(yīng)用,相繼討論了大數(shù)據(jù)在 互聯(lián)網(wǎng)商業(yè)中的應(yīng)用,包括用戶畫像、大數(shù)據(jù)精準(zhǔn)營銷和互聯(lián)網(wǎng)金融;大數(shù)據(jù)在行業(yè) 中的應(yīng)用,包括教育行業(yè)、電力行業(yè)、醫(yī)療行業(yè)和軍事領(lǐng)域;大數(shù)據(jù)在人工智能方面 的應(yīng)用,包括語音識別和機(jī)器翻譯、共享經(jīng)濟(jì)和智慧城市。zui后,在大數(shù)據(jù)思維部分, 討論了大數(shù)據(jù)時代面臨的挑戰(zhàn),探討了大數(shù)據(jù)時代的思維變革、大數(shù)據(jù)激發(fā)的創(chuàng)造力, 并對數(shù)據(jù)科學(xué)進(jìn)行了展望。
本書的編寫得到了河南省高等學(xué)校計(jì)算機(jī)教育研究會,中國鐵道出版社有限公司 領(lǐng)導(dǎo)和編輯的大力支持。中國科學(xué)院計(jì)算技術(shù)研究所張廣軍研究員、鄭州輕工業(yè)大學(xué) 的吳懷廣博士和張偉偉博士對本書的編寫提出了許多寶貴的意見和建議,本書的編寫 得到了鄭州輕工業(yè)大學(xué)、鄭州工程技術(shù)學(xué)院等院校的大力支持,在此一并表示衷心的 感謝。
本書由甘勇和陶紅偉確定內(nèi)容的選取和組織,由史雯雋、尚松濤、陳浩然、陶紅偉、 劉家磊和馬江濤具體執(zhí)筆。史文雋編寫第 1 章,尚松濤編寫第 2、3 章,陳浩然編寫第 4 章, 陶紅偉編寫第 5 章,劉家磊編寫第 6、7 章,馬江濤編寫第 8、9 章,zui后由甘勇和陶 紅偉定稿。
本書作者力圖將數(shù)據(jù)科學(xué)與大數(shù)據(jù)的原理、技術(shù)及其應(yīng)用介紹清楚,但由于時間、 精力、知識結(jié)構(gòu)有限,書中難免有疏漏之處,懇請讀者批評指正。
編 者 2019 年 6 月
甘勇:教授、鄭州工程技術(shù)學(xué)院副校長,長期工作在教學(xué)科研一線,主持的大學(xué)計(jì)算機(jī)和程序設(shè)計(jì)基礎(chǔ)課程被評為河南省精品課程、河南省精品資源共享課,擔(dān)任教育部計(jì)算機(jī)課程教學(xué)指導(dǎo)委員會委員、河南省計(jì)算機(jī)類專業(yè)和網(wǎng)絡(luò)空間安全專業(yè)教學(xué)指導(dǎo)委員會副主任,兼任中國計(jì)算機(jī)學(xué)會理事、河南省計(jì)算機(jī)學(xué)會副理事長、河南省計(jì)算機(jī)教育研究會副理事長。榮獲過優(yōu)秀教學(xué)成果二等獎、2項(xiàng)河南省優(yōu)秀教學(xué)成果特等獎、3項(xiàng)河南省優(yōu)秀教學(xué)成果二等獎。陶紅偉:鄭州輕工業(yè)大學(xué)計(jì)算機(jī)與通信工程學(xué)院副教授、博士,主要研究方向包括大數(shù)據(jù)分析、軟件可信度量與評估、信息安全。主持省部級以及橫向項(xiàng)目5項(xiàng),作為主要成員參與國家863重點(diǎn)項(xiàng)目子課題、國家自然科學(xué)基金重大研究計(jì)劃集成項(xiàng)目子課題、國家863項(xiàng)目和國家自然科學(xué)基金項(xiàng)目等。
第1章 大數(shù)據(jù)與數(shù)據(jù)科學(xué) / 1
1.1 大數(shù)據(jù)概述 / 1
1.1.1 大數(shù)據(jù)的概念 / 2
1.1.2 大數(shù)據(jù)的特征 / 2
1.1.3 大數(shù)據(jù)的結(jié)構(gòu)類型 / 3
1.2 大數(shù)據(jù)的發(fā)展 / 4
1.3 大數(shù)據(jù)處理的挑戰(zhàn) / 5
1.4 數(shù)據(jù)科學(xué)的概念 / 6
1.5 數(shù)據(jù)科學(xué)的由來 / 7
1.6 數(shù)據(jù)科學(xué)的應(yīng)用場景 / 9
1.6.1 行業(yè)數(shù)據(jù) / 9
1.6.2 數(shù)據(jù)服務(wù) / 10
小結(jié) / 11
習(xí)題 / 11
第2章 數(shù)據(jù)采集與數(shù)據(jù)預(yù)處理 / 12
2.1 數(shù)據(jù)采集和數(shù)據(jù)預(yù)處理概述 / 12
2.1.1 數(shù)據(jù)采集概述 / 12
2.1.2 數(shù)據(jù)預(yù)處理概述 / 13
2.2 數(shù)據(jù)采集技術(shù) / 15
2.2.1 網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù) / 15
2.2.2 日志數(shù)據(jù)采集技術(shù) / 23
2.3 數(shù)據(jù)預(yù)處理技術(shù) / 28
2.3.1 數(shù)據(jù)清洗 / 28
2.3.2 數(shù)據(jù)集成 / 30
2.3.3 數(shù)據(jù)變換 / 30
2.3.4 數(shù)據(jù)規(guī)約 / 32
小結(jié) / 33
習(xí)題 / 33
第3章 數(shù)據(jù)存儲 / 34
3.1 數(shù)據(jù)存儲概述 34
3.1.1 數(shù)據(jù)存儲的發(fā)展歷程 / 34
3.1.2 數(shù)據(jù)存儲模型 / 36
3.2 大數(shù)據(jù)存儲 / 36
3.2.1 海量數(shù)據(jù)存儲關(guān)鍵技術(shù) / 37
3.2.2 分布式文件系統(tǒng) / 37
3.3 分布式數(shù)據(jù)庫 / 41
3.3.1 HBase 分布式數(shù)據(jù)庫 / 42
3.3.2 MongoDB 分布式 數(shù)據(jù)庫 / 45
3.3.3 Hive 分布式數(shù)據(jù) 倉庫 / 47
小結(jié) / 49
習(xí)題 / 49
第4章 大數(shù)據(jù)處理平臺 / 50
4.1 概述 / 50
4.2 大數(shù)據(jù)的處理平臺架構(gòu) / 51
4.2.1 技術(shù)架構(gòu) / 51
4.2.2 開源平臺 / 52
4.3 大數(shù)據(jù)的批量處理 / 54
4.3.1 批量計(jì)算的概念 / 54
4.3.2 批量計(jì)算的軟件系統(tǒng) / 55
4.4 大數(shù)據(jù)的流式計(jì)算 / 63
4.4.1 流式計(jì)算的概念 / 63
4.4.2 流式計(jì)算的軟件系統(tǒng) / 64
4.5 大數(shù)據(jù)的混合處理計(jì)算 / 68
4.5.1 混合處理計(jì)算的概念 / 68
4.5.2 混合處理計(jì)算的軟件系統(tǒng) / 69
小結(jié) / 78
習(xí)題 / 79
第5章 數(shù)據(jù)分析 / 80
5.1 數(shù)據(jù)分析概述 / 80
5.1.1 數(shù)據(jù)分析的概念和作用 / 80
5.1.2 數(shù)據(jù)分析的類型 / 81
5.1.3 數(shù)據(jù)分析的流程 / 81
5.2 統(tǒng)計(jì)數(shù)據(jù)分析方法 / 83
5.2.1 描述統(tǒng)計(jì) / 83
5.2.2 相關(guān)分析 / 84
5.2.3 回歸分析 / 88
5.2.4 主成分分析 / 92
5.3 數(shù)據(jù)挖掘算法 / 96
5.3.1 決策樹 / 96
5.3.2 K-Means 算法 / 101
5.3.3 Apriori 算法 / 106
5.3.4 神經(jīng)網(wǎng)絡(luò) / 111
5.4 數(shù)據(jù)分析工具 / 113
小結(jié) / 114
習(xí)題 / 114
第6章 數(shù)據(jù)可視化 / 117
6.1 數(shù)據(jù)可視化概述 / 117
6.1.1 數(shù)據(jù)可視化的基本特征 / 119
6.1.2 數(shù)據(jù)可視化的作用 / 120
6.1.3 數(shù)據(jù)可視化的流程 / 123
6.2 數(shù)據(jù)可視化方法 / 126
6.2.1 文本可視化 / 126
6.2.2 網(wǎng)絡(luò)可視化 / 129
6.2.3 時空數(shù)據(jù)可視化 / 131
6.2.4 多維數(shù)據(jù)可視化 / 134
6.3 數(shù)據(jù)可視化軟件與工具 / 136
6.3.1 Excel / 137
6.3.2 NodeXL / 137
6.3.3 Processing / 138
6.3.4 R / 139
6.3.5 ECharts / 139
6.3.6 Wolfram Mathematica / 141
小結(jié) / 141
習(xí)題 / 142
第7章 數(shù)據(jù)安全與隱私 / 143
7.1 大數(shù)據(jù)安全概述 / 143
7.1.1 大數(shù)據(jù)安全體系結(jié)構(gòu) / 148
7.1.2 大數(shù)據(jù)安全 / 150
7.2 數(shù)據(jù)安全協(xié)議 / 157
7.3 數(shù)據(jù)隱私 / 159
7.4 數(shù)據(jù)信息共享與隱私信息融合 / 160
7.5 云環(huán)境下的大數(shù)據(jù)安全與隱私保護(hù) / 163
小結(jié) / 165
習(xí)題 / 165
第8章 大數(shù)據(jù)應(yīng)用 / 166
8.1 互聯(lián)網(wǎng)商業(yè)應(yīng)用 / 166
8.1.1 用戶畫像 / 166
8.1.2 大數(shù)據(jù)精準(zhǔn)營銷 / 169
8.1.3 互聯(lián)網(wǎng)金融 / 171
8.2 行業(yè)大數(shù)據(jù) / 173
8.2.1 教育大數(shù)據(jù) / 173
8.2.2 電力大數(shù)據(jù) / 174
8.2.3 醫(yī)療大數(shù)據(jù) / 177
8.3 人工智能應(yīng)用 / 179
8.3.1 語音識別和機(jī)器翻譯 / 179
8.3.2 共享經(jīng)濟(jì) / 180
8.3.3 智慧城市 / 183
小結(jié) / 187
習(xí)題 / 188
第9章 數(shù)據(jù)思維 / 189
9.1 大數(shù)據(jù)時代的挑戰(zhàn) / 189
9.2 大數(shù)據(jù)時代的思維變革 / 194
9.2.1 第四范式 / 194
9.2.2 數(shù)據(jù)的混雜性 / 195
9.2.3 樣本與總體 / 196
9.2.4 數(shù)據(jù)的相關(guān)關(guān)系與因果關(guān)系 / 197
9.2.5 大數(shù)據(jù)與幸存者偏差 / 198
9.3 大數(shù)據(jù)激發(fā)創(chuàng)造力 / 199
9.3.1 大數(shù)據(jù)預(yù)測電影票房 / 199
9.3.2 利用大數(shù)據(jù)治理紐約 / 200
9.3.3 大數(shù)據(jù)助力總統(tǒng)競選 / 202
9.4 數(shù)據(jù)科學(xué)展望 / 204
9.4.1 開放數(shù)據(jù)運(yùn)動 / 204
9.4.2 數(shù)據(jù)科學(xué)家所需的專業(yè)技能 / 206
9.4.3 數(shù)據(jù)科學(xué)的發(fā)展前景 / 208
小結(jié) 210
習(xí)題 210
參考文獻(xiàn) / 211