大數(shù)據(jù)技術(shù)是一個面向?qū)嶋H應(yīng)用的技術(shù)。從大數(shù)據(jù)中獲取有價值信息是大數(shù)據(jù)技術(shù)的精髓。本書概括性介紹了數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)的主要內(nèi)容。全書分為 9 章,主要包括概述、大數(shù)據(jù)處理平臺、大數(shù)據(jù)獲取與存儲管理技術(shù)、大數(shù)據(jù)抽取技術(shù)、大數(shù)據(jù)清洗技術(shù)、大數(shù)據(jù)去噪與標(biāo)準(zhǔn)化、大數(shù)據(jù)約簡與集成技術(shù)、大數(shù)據(jù)分析與挖掘技術(shù)、大數(shù)據(jù)分析結(jié)果解釋與展現(xiàn)。
本書在內(nèi)容上,注重基本概念、基本方法介紹,實(shí)例豐富、語言精練、邏輯層次清晰,適合作為大學(xué)數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)和相近專業(yè)的教材,也可以作為科技人員的參考書。
全面:對大數(shù)據(jù)涉及的各項(xiàng)技術(shù)如Hadoop、MapReduce、Storm、Spark等做了深入簡出的介紹。
實(shí)用:配有多個實(shí)際操作案例供讀者參考,輕松學(xué)習(xí)。
大數(shù)據(jù)技術(shù)與應(yīng)用展現(xiàn)出銳不可當(dāng)?shù)膹?qiáng)大生命力,科學(xué)界與企業(yè)界對其寄予厚望。大數(shù)據(jù)成為繼 20 世紀(jì)末、21 世紀(jì)初互聯(lián)網(wǎng)蓬勃發(fā)展以來的又一輪 IT 工業(yè)革命。 大數(shù)據(jù)技術(shù)是指經(jīng)過數(shù)據(jù)獲取、清洗、集成、挖掘、分析與結(jié)果解釋,從各種類型的巨量數(shù)據(jù)中快速獲得有價值信息的全部技術(shù)。大數(shù)據(jù)技術(shù)的精髓是從大數(shù)據(jù)中產(chǎn)生新見解、識別復(fù)雜關(guān)系和做出越來越精準(zhǔn)的預(yù)測。 大數(shù)據(jù)技術(shù)是現(xiàn)代科學(xué)與技術(shù)發(fā)展,尤其是計(jì)算機(jī)科學(xué)技術(shù)發(fā)展的重要成果和結(jié)晶,是科學(xué)發(fā)展史的又一個新的里程碑。大數(shù)據(jù)的出現(xiàn)對計(jì)算機(jī)許多領(lǐng)域提出了挑戰(zhàn)與沖擊,推動了計(jì)算機(jī)科學(xué)技術(shù)的發(fā)展。 大數(shù)據(jù)技術(shù)的出現(xiàn)凝集了多學(xué)科的研究成果,是一門多學(xué)科的交叉融合技術(shù),隨著科學(xué)技術(shù)的發(fā)展,大數(shù)據(jù)技術(shù)發(fā)展更為迅速,應(yīng)用更為深入與廣泛,并凸顯其巨大潛力和應(yīng)用價值。 本書系統(tǒng)地介紹了大數(shù)據(jù)技術(shù)的核心內(nèi)容,對大數(shù)據(jù)處理周期的各部分的模型和方法做了概括性介紹,而且基于應(yīng)用的角度介紹了當(dāng)下流行的 Hadoop、Storm 和 Spark 大數(shù)據(jù)處理平臺,為將大數(shù)據(jù)處理周期中的處理方法在這些平臺上實(shí)現(xiàn)建立了基礎(chǔ)。本書主要內(nèi)容說明如下。 第 1 章為概述,主要包括數(shù)據(jù)科學(xué)、大數(shù)據(jù)的生態(tài)環(huán)境、大數(shù)據(jù)的概念、大數(shù)據(jù)的性質(zhì)、大數(shù)據(jù)處理周期和科學(xué)研究范式;第 2 章為大數(shù)據(jù)處理平臺,主要包括 Hadoop大數(shù)據(jù)處理平臺、Storm 大數(shù)據(jù)處理平臺和 Spark 大數(shù)據(jù)處理平臺;第 3 章為大數(shù)據(jù)獲取與存儲管理技術(shù),主要包括大數(shù)據(jù)獲取、領(lǐng)域數(shù)據(jù)、網(wǎng)站數(shù)據(jù)、網(wǎng)絡(luò)爬蟲、大數(shù)據(jù)存儲、大數(shù)據(jù)的存儲管理技術(shù)、NewSQL 和 NoSQL、分布式文件系統(tǒng)、虛擬存儲技術(shù)和云存儲技術(shù);第 4 章為大數(shù)據(jù)抽取技術(shù),主要包括大數(shù)據(jù)抽取技術(shù)概述、增量數(shù)據(jù)抽取技術(shù)、非結(jié)構(gòu)化數(shù)據(jù)抽取和基于 Hadoop 平臺的數(shù)據(jù)抽;第 5 章為大數(shù)據(jù)清洗技術(shù),主要包括數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗、不完整數(shù)據(jù)清洗、異常數(shù)據(jù)清洗、重復(fù)數(shù)據(jù)清洗、文本清洗和數(shù)據(jù)清洗的實(shí)現(xiàn);第 6 章為大數(shù)據(jù)去噪與標(biāo)準(zhǔn)化,主要包括基本的數(shù)據(jù)轉(zhuǎn)換方法、數(shù)據(jù)平滑技術(shù)、數(shù)據(jù)規(guī)范化和數(shù)據(jù)泛化;第 7 章為大數(shù)據(jù)約簡與集成技術(shù),主要包括數(shù)據(jù)約簡概述、特征約簡、樣本約簡、數(shù)據(jù)立方體聚集、維約簡屬性子集選擇算法、數(shù)據(jù)壓縮、數(shù)值約簡、數(shù)據(jù)集成的概念與相關(guān)問題、數(shù)據(jù)遷移、數(shù)據(jù)集成模式、數(shù)據(jù)集成系統(tǒng)和數(shù)據(jù)聚類集成;第8章為大數(shù)據(jù)分析與挖掘技術(shù),主要包括大數(shù)據(jù)分析概述、統(tǒng)計(jì)分析方法、數(shù)據(jù)挖掘理論基礎(chǔ)、關(guān)聯(lián)規(guī)則挖掘、分類方法、聚類方法、序列模式挖掘、非結(jié)構(gòu)化文本數(shù)據(jù)挖掘和基于MapReduce的分析與挖掘?qū)嵗坏?章為大數(shù)據(jù)分析結(jié)果解釋與展現(xiàn),主要包括數(shù)據(jù)分析結(jié)果解釋、數(shù)據(jù)的基本展現(xiàn)方式、大數(shù)據(jù)可視化、大數(shù)據(jù)可視分析和數(shù)據(jù)可視化實(shí)現(xiàn)。 本書在結(jié)構(gòu)上為積木狀,各章內(nèi)容均為獨(dú)立、注重概念性與方法性論述。出于篇幅考慮,書中所提及理論結(jié)果沒有給出證明,如需要可以查閱相關(guān)文獻(xiàn)。由于作者水平有限,書中不足之處在所難免,敬請讀者批評指正。
陳明,國內(nèi)計(jì)算機(jī)科學(xué)領(lǐng)域資深專家,曾任大連理工大學(xué)計(jì)算機(jī)科學(xué)與工程系教授、系主任,中國石油大學(xué)(北京)計(jì)算機(jī)科學(xué)與技術(shù)系教授、系主任。中國計(jì)算機(jī)學(xué)會理事、中國人工智能學(xué)會理事、中國人工智能學(xué)會智能信息網(wǎng)專委會副主任。全國高校計(jì)算機(jī)基礎(chǔ)教育研究會常務(wù)理事、教育部IT&AT 教育工程專家組成員。
第 1 章 概述 ............................................ 1
1.1 數(shù)據(jù)科學(xué) ................................................2
1.1.1 數(shù)據(jù)科學(xué)的產(chǎn)生與發(fā)展 ................2
1.1.2 數(shù)據(jù)科學(xué)的相關(guān)術(shù)語 ....................2
1.1.3 數(shù)據(jù)科學(xué)的主要內(nèi)容 ....................3
1.1.4 數(shù)據(jù)科學(xué)的研究過程與體系框架.................................................4
1.1.5 數(shù)據(jù)科學(xué)、數(shù)據(jù)技術(shù)與數(shù)據(jù)工程.................................................6
1.1.6 大數(shù)據(jù)問題 ....................................6
1.2 大數(shù)據(jù)的生態(tài)環(huán)境 ................................7
1.2.1 互聯(lián)網(wǎng)世界 ....................................7
1.2.2 物理世界 ........................................9
1.3 大數(shù)據(jù)的概念 ........................................9
1.3.1 數(shù)據(jù)容量 ......................................10
1.3.2 數(shù)據(jù)類型 ...................................... 11
1.3.3 價值密度 ...................................... 11
1.3.4 速度 .............................................. 11
1.3.5 真實(shí)性 .......................................... 11
1.4 大數(shù)據(jù)的性質(zhì) ...................................... 11
1.4.1 非結(jié)構(gòu)性 ......................................12
1.4.2 不完備性 ......................................13
1.4.3 時效性 ..........................................13
1.4.4 安全性 ..........................................13
1.4.5 可靠性 ..........................................13
1.5 大數(shù)據(jù)處理周期 ..................................13
1.5.1 大數(shù)據(jù)處理全過程 ......................14
1.5.2 大數(shù)據(jù)技術(shù)的特征 ......................15
1.5.3 大數(shù)據(jù)的一些熱點(diǎn)技術(shù) ..............17
1.6 科學(xué)研究范式 ......................................18
1.6.1 科學(xué)研究范式的產(chǎn)生與發(fā)展 ......18
1.6.2 數(shù)據(jù)密集型科學(xué)研究第四范式....19
小結(jié) ...............................................................23
第 2 章 大數(shù)據(jù)處理平臺 ........................ 24
2.1 Hadoop 大數(shù)據(jù)處理平臺 ....................24
2.1.1 離線計(jì)算概述 ..............................25
2.1.2 MapReduce 分布編程模型 ..........26
2.1.3 基于 Hadoop 的分布計(jì)算 ............27
2.1.4 MapReduce 程序設(shè)計(jì)分析 ..........31
2.1.5 Hadoop 環(huán)境部署與程序運(yùn)行 .....36
2.2 Storm 大數(shù)據(jù)處理平臺 .......................42
2.2.1 流式數(shù)據(jù)的概念與特征 ..............43
2.2.2 大數(shù)據(jù)的計(jì)算模式 ......................45
2.2.3 流式數(shù)據(jù)處理技術(shù)的應(yīng)用 ..........46
2.2.4 流式計(jì)算的系統(tǒng)架構(gòu) ..................50
2.2.5 Storm 流處理過程 ........................52
2.2.6 單詞計(jì)數(shù) topology .......................56
2.3 Spark 大數(shù)據(jù)處理平臺 ........................58
2.3.1 交互式處理系統(tǒng)的問題 ..............58
2.3.2 Scala 編程語言簡介 .....................58
2.3.3 Spark 的主要特點(diǎn) ........................59
2.3.4 軟件棧 ..........................................60
2.3.5 核心概念 ......................................61
2.3.6 彈性分布式數(shù)據(jù)集 RDD .............62
2.3.7 單詞計(jì)數(shù)實(shí)例分析 ......................66
小結(jié) ...............................................................67
第 3 章 大數(shù)據(jù)獲取與存儲管理技術(shù) ...... 68
3.1 大數(shù)據(jù)獲取 ..........................................69
3.1.1 大數(shù)據(jù)獲取的挑戰(zhàn) ......................69
3.1.2 傳統(tǒng)的數(shù)據(jù)獲取與大數(shù)據(jù)獲取的區(qū)別...............................................69
3.2 領(lǐng)域數(shù)據(jù) ..............................................70
3.2.1 文本數(shù)據(jù) ......................................70
3.2.2 語音數(shù)據(jù) ......................................71
3.2.3 圖片數(shù)據(jù) ......................................71
3.2.4 攝像頭視頻數(shù)據(jù) ..........................71
3.2.5 圖像數(shù)字化數(shù)據(jù) ..........................71
3.2.6 圖形數(shù)字化數(shù)據(jù) ..........................71
3.2.7 空間數(shù)據(jù) ......................................72
3.3 網(wǎng)站數(shù)據(jù) ..............................................72
3.3.1 網(wǎng)站內(nèi)部數(shù)據(jù) ..............................73
3.3.2 網(wǎng)站外部數(shù)據(jù) ...........................73
3.3.3 移動網(wǎng)站數(shù)據(jù) ..............................73
3.4 網(wǎng)絡(luò)爬蟲 ..............................................73
3.4.1 網(wǎng)絡(luò)爬蟲的工作過程 ..................74
3.4.2 通用網(wǎng)絡(luò)爬蟲 ..............................74
3.4.3 聚焦網(wǎng)絡(luò)爬蟲 ..............................77
3.4.4 數(shù)據(jù)抓取目標(biāo)的定義 ..................79
3.4.5 網(wǎng)頁分析算法 ..............................80
3.4.6 更新策略 ......................................81
3.4.7 分布式爬蟲的系統(tǒng)結(jié)構(gòu) ..............82
3.5 大數(shù)據(jù)存儲 ..........................................84
3.5.1 大數(shù)據(jù)存儲模型 ..........................84
3.5.2 大數(shù)據(jù)存儲問題 ..........................84
3.5.3 大數(shù)據(jù)存儲方式 ..........................85
3.6 大數(shù)據(jù)存儲管理技術(shù) ..........................86
3.6.1 數(shù)據(jù)容量問題 ..............................86
3.6.2 大圖數(shù)據(jù) ......................................87
3.6.3 數(shù)據(jù)存儲管理 ..............................88
3.7 NoSQL 和 NewSQL .............................89
3.7.1 NoSQL ..........................................90
3.7.2 NewSQL 數(shù)據(jù)庫 ..........................93
3.7.3 不同數(shù)據(jù)庫架構(gòu)混合應(yīng)用模式....93
3.8 分布式文件系統(tǒng) ..................................94
3.8.1 評價指標(biāo) ......................................94
3.8.2 HDFS 文件系統(tǒng) ...........................95
3.8.3 NFS 文件系統(tǒng) ..............................96
3.9 虛擬存儲技術(shù) ......................................97
3.9.1 虛擬存儲的特點(diǎn) ..........................98
3.9.2 虛擬存儲的應(yīng)用 ..........................98
3.10 云存儲技術(shù) ........................................99
3.10.1 云存儲原理 ................................99
3.10.2 網(wǎng)絡(luò)結(jié)構(gòu) ....................................99
3.10.3 云的分類 ....................................99
小結(jié) .............................................................100
第 4 章 大數(shù)據(jù)抽取技術(shù) ...................... 101
4.1 大數(shù)據(jù)抽取技術(shù)概述 .......................101
4.1.1 數(shù)據(jù)抽取的定義 ........................102
4.1.2 數(shù)據(jù)映射與數(shù)據(jù)遷移 ................102
4.1.3 數(shù)據(jù)抽取程序 ............................103
4.1.4 抽取、轉(zhuǎn)換和加載 ....................103
4.1.5 數(shù)據(jù)抽取方式 ............................104
4.2 增量數(shù)據(jù)抽取技術(shù) ............................104
4.2.1 增量抽取的特點(diǎn)與策略 ............105
4.2.2 基于觸發(fā)器的增量抽取方式.............................................105
4.2.3 基于時間戳的增量抽取方式.............................................105
4.2.4 全表刪除插入方式 ..................106
4.2.5 全表比對抽取方式 ....................106
4.2.6 日志表方式 ................................107
4.2.7 系統(tǒng)日志分析方式 ....................107
4.2.8 各種數(shù)據(jù)抽取機(jī)制的比較與分析.........................................107
4.3 非結(jié)構(gòu)化數(shù)據(jù)抽取 ............................109
4.3.1 非結(jié)構(gòu)化數(shù)據(jù)類型 ....................109
4.3.2 非結(jié)構(gòu)化數(shù)據(jù)模型 ....................109
4.3.3 非結(jié)構(gòu)化數(shù)據(jù)組織 .................... 111
4.3.4 純文本抽取通用程序庫 ............ 112
4.4 基于 Hadoop 平臺的數(shù)據(jù)抽取 ......... 113
小結(jié) ............................................................. 114
第 5 章 大數(shù)據(jù)清洗技術(shù) .......................115
5.1 數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗 ........................ 115
5.1.1 數(shù)據(jù)質(zhì)量 .................................... 116
5.1.2 數(shù)據(jù)質(zhì)量提高技術(shù) .................... 118
5.1.3 數(shù)據(jù)清洗算法的標(biāo)準(zhǔn) ................120
5.1.4 數(shù)據(jù)清洗的過程與模型 ............120
5.2 不完整數(shù)據(jù)清洗 ................................121
5.2.1 基本方法 ....................................121
5.2.2 基于 k-NN 近鄰缺失數(shù)據(jù)的填充算法.....................................123
5.3 異常數(shù)據(jù)清洗 ....................................124
5.3.1 異常值產(chǎn)生的原因 ....................125
5.3.2 統(tǒng)計(jì)方法 ....................................125
5.3.3 基于鄰近度的離群點(diǎn)檢測 ........126
5.4 重復(fù)數(shù)據(jù)清洗 ....................................127
5.4.1 使用字段相似度識別重復(fù)值算法.............................................127
5.4.2 搜索引擎快速去重算法 ............128
5.5 文本清洗 ............................................128
5.5.1 字符串匹配算法 ........................129
5.5.2 文本相似度度量 ........................131
5.5.3 文檔去重算法 ............................135
5.6 數(shù)據(jù)清洗的實(shí)現(xiàn) ................................135
5.6.1 數(shù)據(jù)清洗的步驟 ........................135
5.6.2 基于 MapReduce 的大數(shù)據(jù)去重.............................................136
小結(jié) .............................................................138
第 6 章 大數(shù)據(jù)去噪與標(biāo)準(zhǔn)化 ............... 139
6.1 基本的數(shù)據(jù)轉(zhuǎn)換方法 ........................139
6.1.1 對數(shù)轉(zhuǎn)換 ....................................139
6.1.2 平方根轉(zhuǎn)換 ................................140
6.1.3 平方轉(zhuǎn)換 ....................................140
6.1.4 倒數(shù)變換 ....................................140
6.2 數(shù)據(jù)平滑技術(shù) ....................................140
6.2.1 移動平均法 ................................141
6.2.2 指數(shù)平滑法 ................................142
6.2.3 分箱平滑法 ................................146
6.3 數(shù)據(jù)規(guī)范化 ........................................148
6.3.1 zui小 - zui大規(guī)范化方法 ............148
6.3.2 z 分?jǐn)?shù)規(guī)范化方法 ......................149
6.3.3 小數(shù)定標(biāo)規(guī)范化方法 ................149
6.4 數(shù)據(jù)泛化處理 ....................................150
6.4.1 空間數(shù)據(jù)支配泛化算法 ............150
6.4.2 非空間數(shù)據(jù)支配泛化方法 ........151
6.4.3 統(tǒng)計(jì)信息網(wǎng)格方法 ....................151
小結(jié) .............................................................151
第 7 章 大數(shù)據(jù)約簡與集成技術(shù) ........... 152
7.1 數(shù)據(jù)約簡概述 ....................................153
7.1.1 數(shù)據(jù)約簡定義 ............................153
7.1.2 數(shù)據(jù)約簡方式 ............................153
7.2 特征約簡 ............................................153
7.2.1 特征提取 ....................................154
7.2.2 特征選擇 ....................................154
7.3 樣本約簡 ............................................155
7.3.1 簡單隨機(jī)抽樣 ............................155
7.3.2 系統(tǒng)抽樣 ....................................155
7.3.3 分層抽樣 ....................................155
7.4 數(shù)據(jù)立方體聚集 ................................155
7.4.1 多維性 ........................................156
7.4.2 數(shù)據(jù)聚集 ....................................156
7.5 維約簡 ................................................157
7.5.1 維約簡的目的 ............................157
7.5.2 維約簡的基本策略 ....................158
7.5.3 維約簡的分類 ............................158
7.6 屬性子集選擇算法 ............................159
7.6.1 逐步向前選擇屬性 ....................159
7.6.2 逐步向后刪除屬性 ....................159
7.6.3 混合式選擇 ...............................159
7.6.4 判定樹歸納 ................................159
7.7 數(shù)據(jù)壓縮 ............................................160
7.7.1 離散小波變換方法 ....................160
7.7.2 主成分分析壓縮方法 ................161
7.8 數(shù)值約簡 ............................................162
7.8.1 有參數(shù)值約簡 ............................162
7.8.2 無參數(shù)值約簡 ............................162
7.9 數(shù)據(jù)集成的概念與相關(guān)問題 ............163
7.9.1 數(shù)據(jù)集成的核心問題 ................165
7.9.2 數(shù)據(jù)集成的分類 ........................166
7.10 數(shù)據(jù)遷移 ..........................................168
7.10.1 在組織內(nèi)部移動數(shù)據(jù) ..............169
7.10.2 非結(jié)構(gòu)化數(shù)據(jù)集成 ..................169
7.10.3 將處理移動到數(shù)據(jù)端 ..............170
7.11 數(shù)據(jù)集成模式 ..................................171
7.11.1 聯(lián)邦數(shù)據(jù)庫集成模式 ...............171
7.11.2 中間件集成模式 ......................172
7.11.3 數(shù)據(jù)倉庫集成模式 ..................173
7.12 數(shù)據(jù)集成系統(tǒng) ..................................173
7.12.1 全局模式 ..................................174
7.12.2 語義映射 ..................................175
7.12.3 查詢重寫 ..................................175
7.13 數(shù)據(jù)聚類集成 ..................................175
7.13.1 數(shù)據(jù)聚類集成概述 ..................175
7.13.2 高維數(shù)據(jù)聚類集成 ..................176
小結(jié) .............................................................178
第 8 章 大數(shù)據(jù)分析與挖掘技術(shù) ........... 179
8.1 大數(shù)據(jù)分析概述 ................................180
8.1.1 大數(shù)據(jù)分析的類型 ...................180
8.1.2 數(shù)字特征 ....................................182
8.1.3 統(tǒng)計(jì)方法論 ...............................184
8.1.4 模型與構(gòu)建 ................................186
8.1.5 R 語言 .........................................186
8.2 統(tǒng)計(jì)分析方法 ....................................188
8.2.1 基本方法 ...................................188
8.2.2 常用分析方法 ............................194
8.3 數(shù)據(jù)挖掘理論基礎(chǔ) ............................ 211
8.3.1 數(shù)據(jù)挖掘是面向應(yīng)用的技術(shù) .... 211
8.3.2 數(shù)據(jù)挖掘的理論基礎(chǔ) ................212
8.3.3 基于數(shù)據(jù)存儲方式的數(shù)據(jù)挖掘.............................................212
8.4 關(guān)聯(lián)規(guī)則挖掘 ....................................214
8.4.1 頻繁項(xiàng)目集生成算法 ................215
8.4.2 關(guān)聯(lián)規(guī)則挖掘質(zhì)量 ....................217
8.5 分類方法 ............................................218
8.5.1 基于距離的分類算法 ................219
8.5.2 KNN 算法的 MapReduce實(shí)現(xiàn) ............................................220
8.5.3 決策樹分類方法 ........................220
8.6 聚類方法 ............................................223
8.6.1 聚類定義與分類 ........................223
8.6.2 距離與相似性的度量 ................225
8.6.3 劃分聚類方法 ............................226
8.6.4 層次聚類方法 ............................228
8.7 序列模式挖掘與文本數(shù)據(jù)挖掘 ........229
8.7.1 時間序列預(yù)測的常用方法 ........229
8.7.2 序列模式挖掘 ............................230
8.8 非結(jié)構(gòu)化文本數(shù)據(jù)挖掘 ....................231
8.8.1 用戶反饋文本 ............................232
8.8.2 用戶反饋文本挖掘的一般過程 ............................................232
8.8.3 文本的自然語言處理 ...............234
8.9 基于 MapReduce 的分析與挖掘?qū)嵗?....................................................235
8.9.1 大數(shù)據(jù)平均值計(jì)算 ....................235
8.9.2 大數(shù)據(jù)排序 ................................236
8.9.3 倒排索引 ....................................237
小結(jié) .............................................................241
第 9 章 大數(shù)據(jù)分析結(jié)果解釋與展現(xiàn) .... 242
9.1 數(shù)據(jù)分析結(jié)果解釋的目的與內(nèi)容 ....243
9.1.1 解釋的目的 ................................243
9.1.2 檢查和驗(yàn)證假設(shè) ........................243
9.1.3 追蹤分析過程 ............................244
9.2 數(shù)據(jù)的基本展現(xiàn)方式 ........................245
9.2.1 基于時間變化的可視化展現(xiàn) ....245
9.2.2 由大及小的可視化展現(xiàn) ............245
9.2.3 由小及大的可視化展現(xiàn) ............246
9.2.4 突出對比的可視化展現(xiàn) ............246
9.2.5 地域空間可視化展現(xiàn) ................246
9.2.6 概念可視化展現(xiàn) ........................248
9.2.7 氣泡圖可視化展現(xiàn) ....................248
9.2.8 注重交叉點(diǎn)的數(shù)據(jù)可視化展現(xiàn) ............................................248
9.2.9 剖析原因的數(shù)據(jù)可視化展現(xiàn) ....248
9.2.10 描繪出異常值的可視化展現(xiàn) ..........................................249
9.3 大數(shù)據(jù)可視化 ....................................249
9.3.1 文本可視化 ................................249
9.3.2 網(wǎng)絡(luò)(圖)可視化 ....................250
9.3.3 時空數(shù)據(jù)可視化 ........................252
9.3.4 多維數(shù)據(jù)可視化 ........................252
9.4 大數(shù)據(jù)可視分析 ................................253
9.4.1 可視分析的理論基礎(chǔ) ................254
9.4.2 大數(shù)據(jù)可視分析技術(shù) ................257
9.5 數(shù)據(jù)可視化實(shí)現(xiàn) ................................260
小結(jié) .............................................................262
參考文獻(xiàn) ............................................... 263
?