本書以大數(shù)據(jù)處理技術(shù)涉及的主要流程為主線,深入淺出地介紹大數(shù)據(jù)相關(guān)的基礎(chǔ)知識(shí)。本書條理清晰、重點(diǎn)突出,內(nèi)容循序漸進(jìn)、難易得當(dāng)。全書共7章,內(nèi)容包括大數(shù)據(jù)概述,大數(shù)據(jù)采集,大數(shù)據(jù)存儲(chǔ)與管理,大數(shù)據(jù)分析,數(shù)據(jù)可視化,數(shù)據(jù)安全、隱私保護(hù)與開放共享,以及大數(shù)據(jù)技術(shù)應(yīng)用實(shí)例。本書還設(shè)置了實(shí)訓(xùn)和課后習(xí)題,通過(guò)練習(xí)和操作實(shí)踐,幫助讀者鞏固所學(xué)的內(nèi)容。
介紹城市管理、金融領(lǐng)域、互聯(lián)網(wǎng)領(lǐng)域、零售行業(yè)方面的多個(gè)項(xiàng)目案例,覆蓋面廣,案例豐富
圍繞大數(shù)據(jù)技術(shù)流程次第展開,層次分明,著重于解決問(wèn)題的思路啟發(fā)與解決方案的實(shí)施
以實(shí)例引入的方式引出技術(shù)內(nèi)容,通俗易懂,新穎獨(dú)特
融入了思政元素
林濤,上海應(yīng)用技術(shù)大學(xué)副教授,主要研究方向?yàn)槿斯ぶ悄芘c物聯(lián)網(wǎng),從事機(jī)器視覺(jué)和智能感知相關(guān)的研究,曾參與華為手機(jī)芯片研發(fā),主持開發(fā)了基于無(wú)線互聯(lián)網(wǎng)的冷鏈疫苗監(jiān)控系統(tǒng),無(wú)人機(jī)智能故障檢測(cè)系統(tǒng)等,合作參與了自動(dòng)駕駛相關(guān)的若干項(xiàng)目。教授《人工智能導(dǎo)論》,《人工神經(jīng)網(wǎng)絡(luò)》,《深度學(xué)習(xí)及其應(yīng)用》等課程。發(fā)表多篇SCI論文《Structured deep learning based object-specific distance estimation from a monocular image》,《Multi-state Feature Optimization of Sign Glosses for Continuous Sign Language Recognition》
張良均,資深大數(shù)據(jù)專家,廣東泰迪智能科技股份有限公司董事長(zhǎng),國(guó)家科技部入庫(kù)技術(shù)專家,教育部全國(guó)專業(yè)學(xué)位水平評(píng)估專家,工信部教育與考試中心入庫(kù)專家,中國(guó)工業(yè)與應(yīng)用數(shù)學(xué)學(xué)會(huì)理事,廣東省工業(yè)與應(yīng)用數(shù)學(xué)學(xué)會(huì)副理事長(zhǎng),廣東省高等職業(yè)教育教學(xué)指導(dǎo)委員會(huì)委員,華南師范大學(xué)、中南財(cái)經(jīng)政法大學(xué)等40余所高校校外碩導(dǎo)或兼職教授,泰迪杯全國(guó)數(shù)據(jù)挖掘挑戰(zhàn)賽發(fā)起人。曾在國(guó)內(nèi)外重要學(xué)術(shù)刊物上發(fā)表學(xué)術(shù)論文10余篇,主導(dǎo)編寫圖書專著60余部,其中獲普通高等教育“十一五”規(guī)劃教材一部,“十三五”職業(yè)教育國(guó)家規(guī)劃教材一部;參與標(biāo)準(zhǔn)建設(shè)4項(xiàng),主持國(guó)家級(jí)課題1項(xiàng)、省部級(jí)課題4項(xiàng)。獲得SAS、SPSS數(shù)據(jù)挖掘認(rèn)證及Hadoop開發(fā)工程師證書,具有信訪、電力、電信、銀行、制造企業(yè)、電子商務(wù)和電子政務(wù)的項(xiàng)目經(jīng)驗(yàn)和行業(yè)背景,并榮獲中國(guó)產(chǎn)學(xué)研合作促進(jìn)獎(jiǎng)、中國(guó)南方電網(wǎng)公司發(fā)明專利一等獎(jiǎng)、廣東省農(nóng)業(yè)技術(shù)推廣二等獎(jiǎng)、廣州市荔灣區(qū)科學(xué)技術(shù)進(jìn)步獎(jiǎng)。
第 1章 大數(shù)據(jù)概述 1
1.1 實(shí)例引入:三次信息化浪潮迎來(lái)大數(shù)據(jù)時(shí)代 1
1.1.1 信息時(shí)代數(shù)據(jù)爆炸 2
1.1.2 三次信息化浪潮 2
1.1.3 大數(shù)據(jù)的發(fā)展 3
1.1.4 大數(shù)據(jù)帶來(lái)思維模式的改變 4
1.1.5 大數(shù)據(jù)的特點(diǎn) 5
1.2 大數(shù)據(jù)產(chǎn)業(yè)發(fā)展概況 6
1.2.1 大數(shù)據(jù)產(chǎn)業(yè)發(fā)展現(xiàn)狀與市場(chǎng)規(guī)模 7
1.2.2 大數(shù)據(jù)產(chǎn)業(yè)應(yīng)用領(lǐng)域及其應(yīng)用價(jià)值 8
1.2.3 大數(shù)據(jù)市場(chǎng)產(chǎn)業(yè)鏈 9
1.3 大數(shù)據(jù)技術(shù)體系 9
1.3.1 數(shù)據(jù)接入 10
1.3.2 數(shù)據(jù)預(yù)處理 10
1.3.3 數(shù)據(jù)存儲(chǔ) 10
1.3.4 數(shù)據(jù)處理 10
1.3.5 數(shù)據(jù)可視化 11
1.3.6 數(shù)據(jù)治理 11
1.3.7 安全與隱私保護(hù) 11
1.4 大數(shù)據(jù)相關(guān)崗位需求 11
小結(jié) 12
課后習(xí)題 12
第 2章 大數(shù)據(jù)采集 15
2.1 實(shí)例引入:在線旅行社的用戶訪問(wèn)行為數(shù)據(jù)采集 15
2.1.1 用戶訪問(wèn)行為數(shù)據(jù)分析的價(jià)值 16
2.1.2 用戶訪問(wèn)行為數(shù)據(jù)采集方案的設(shè)計(jì) 17
2.2 大數(shù)據(jù)采集技術(shù) 20
2.2.1 了解大數(shù)據(jù)采集 20
2.2.2 大數(shù)據(jù)采集的數(shù)據(jù)來(lái)源 22
2.2.3 基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)批量采集 23
2.2.4 系統(tǒng)日志數(shù)據(jù)采集 25
2.2.5 網(wǎng)絡(luò)數(shù)據(jù)實(shí)時(shí)采集 28
2.3 主流的大數(shù)據(jù)采集框架 32
2.3.1 Flume 32
2.3.2 Sqoop 34
小結(jié) 37
實(shí)訓(xùn) 37
實(shí)訓(xùn)1 Flume的安裝和配置 37
實(shí)訓(xùn)2 Sqoop的安裝和配置 38
課后習(xí)題 39
第3章 大數(shù)據(jù)存儲(chǔ)與管理 41
3.1 實(shí)例引入:從平安城市建設(shè)看海量數(shù)據(jù)存儲(chǔ) 41
3.1.1 平安城市建設(shè)中的視頻監(jiān)控系統(tǒng) 42
3.1.2 平安城市視頻監(jiān)控?cái)?shù)據(jù)的存儲(chǔ)技術(shù)方案 42
3.2 傳統(tǒng)的數(shù)據(jù)存儲(chǔ)技術(shù) 44
3.2.1 了解數(shù)據(jù)存儲(chǔ) 45
3.2.2 數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)類型 46
3.2.3 文件系統(tǒng) 47
3.2.4 關(guān)系數(shù)據(jù)庫(kù) 48
3.2.5 數(shù)據(jù)倉(cāng)庫(kù) 48
3.2.6 并行數(shù)據(jù)庫(kù) 48
3.3 大數(shù)據(jù)時(shí)代下的數(shù)據(jù)存儲(chǔ)技術(shù) 49
3.3.1 分布式存儲(chǔ)系統(tǒng) 49
3.3.2 云存儲(chǔ) 52
3.4 主流的分布式存儲(chǔ)框架 56
3.4.1 MySQL 56
3.4.2 Hive 59
3.4.3 HBase 61
3.4.4 MongoDB 64
3.4.5 Redis 67
小結(jié) 70
實(shí)訓(xùn) 70
實(shí)訓(xùn)1 MySQL的安裝配置 70
實(shí)訓(xùn)2 Hive的安裝配置 71
實(shí)訓(xùn)3 HBase的安裝配置 72
課后習(xí)題 73
第4章 大數(shù)據(jù)分析 75
4.1 實(shí)例引入:個(gè)性化用戶畫像實(shí)現(xiàn)精準(zhǔn)營(yíng)銷 75
4.1.1 大數(shù)據(jù)實(shí)現(xiàn)精準(zhǔn)營(yíng)銷 76
4.1.2 用戶畫像是什么 76
4.1.3 構(gòu)建個(gè)性化用戶畫像 77
4.2 大數(shù)據(jù)分析技術(shù) 79
4.2.1 了解數(shù)據(jù)分析與數(shù)據(jù)挖掘 79
4.2.2 數(shù)據(jù)認(rèn)知 80
4.2.3 數(shù)據(jù)處理 83
4.2.4 分析建!85
4.2.5 模型評(píng)估 88
4.3 主流的大數(shù)據(jù)分析處理框架 89
4.3.1 數(shù)據(jù)分析處理框架介紹 89
4.3.2 Hadoop 91
4.3.3 Spark 93
4.3.4 Flink 94
4.3.5 Storm 96
4.3.6 Graph 97
小結(jié) 98
實(shí)訓(xùn) 99
實(shí)訓(xùn)1 Hadoop偽分布式安裝 99
實(shí)訓(xùn)2 Spark偽分布式安裝 99
實(shí)訓(xùn)3 Flink的安裝配置 100
課后習(xí)題 100
第5章 數(shù)據(jù)可視化 103
5.1 實(shí)例引入:某機(jī)場(chǎng)數(shù)據(jù)可視化大屏 103
5.1.1 大屏顯示的應(yīng)用領(lǐng)域和行業(yè) 104
5.1.2 機(jī)場(chǎng)數(shù)據(jù)可視化大屏設(shè)計(jì) 104
5.2 數(shù)據(jù)可視化圖形設(shè)計(jì)指南 105
5.2.1 了解數(shù)據(jù)可視化 105
5.2.2 數(shù)據(jù)可視化的發(fā)展方向 106
5.2.3 基礎(chǔ)圖表 110
5.2.4 一般的數(shù)據(jù)可視化圖形設(shè)計(jì)流程 111
5.3 數(shù)據(jù)可視化主要技術(shù) 112
5.3.1 根據(jù)可視化目標(biāo)分類 113
5.3.2 根據(jù)大數(shù)據(jù)特點(diǎn)分類 115
5.4 主流的數(shù)據(jù)可視化工具 117
5.4.1 數(shù)據(jù)可視化類庫(kù) 118
5.4.2 BI類 120
小結(jié) 123
實(shí)訓(xùn) 123
實(shí)訓(xùn)1 ECharts的安裝配置 123
實(shí)訓(xùn)2 FineBI的安裝配置 124
課后習(xí)題 125
第6章 數(shù)據(jù)安全、隱私保護(hù)與開放共享 128
6.1 實(shí)例引入:菜鳥平臺(tái)共享物流信息 128
6.2 數(shù)據(jù)安全與隱私 130
6.2.1 大數(shù)據(jù)安全概述 130
6.2.2 大數(shù)據(jù)安全與隱私保護(hù)技術(shù)體系架構(gòu) 130
6.3 大數(shù)據(jù)安全及隱私保護(hù)關(guān)鍵技術(shù) 132
6.3.1 數(shù)據(jù)安全技術(shù) 132
6.3.2 個(gè)人隱私保護(hù)技術(shù) 135
6.4 數(shù)據(jù)開放與共享 136
6.4.1 數(shù)據(jù)開放與共享的概念 136
6.4.2 數(shù)據(jù)開放與共享的意義 137
6.4.3 數(shù)據(jù)開放與共享實(shí)施指南 137
小結(jié) 138
課后習(xí)題 138
第7章 大數(shù)據(jù)技術(shù)應(yīng)用實(shí)例 141
7.1 大數(shù)據(jù)技術(shù)在城市管理中的應(yīng)用 141
7.1.1 城市公交用戶出行分析 142
7.1.2 環(huán)保監(jiān)測(cè) 148
7.2 大數(shù)據(jù)技術(shù)在金融領(lǐng)域的應(yīng)用 150
7.2.1 股票價(jià)格漲跌趨勢(shì)預(yù)測(cè) 150
7.2.2 上市公司綜合能力聚類分析 153
7.3 大數(shù)據(jù)技術(shù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用 156
7.3.1 電子商務(wù)營(yíng)銷 156
7.3.2 音樂(lè)推薦系統(tǒng) 157
7.4 大數(shù)據(jù)技術(shù)在零售行業(yè)的應(yīng)用 160
7.4.1 購(gòu)物籃分析 160
7.4.2 客戶價(jià)值分析 164
7.4.3 供應(yīng)鏈管理 167
小結(jié) 170
課后習(xí)題 171
參考文獻(xiàn) 174