本書(shū)按照大數(shù)據(jù)分析流程,以電商產(chǎn)品數(shù)據(jù)為例,由淺入深地講解大數(shù)據(jù)分析的核心開(kāi)發(fā)技術(shù),以及大數(shù)據(jù)分析工具及其組件的作用和使用方法。本書(shū)內(nèi)容系統(tǒng)、全面,可幫助讀者快速掌握大數(shù)據(jù)分析技術(shù)。本書(shū)介紹了大數(shù)據(jù)分析的概念、應(yīng)用場(chǎng)景、分析指標(biāo)、分析工具、分析組件、分布式存儲(chǔ)、分布式處理、數(shù)據(jù)離線分析、數(shù)據(jù)實(shí)時(shí)分析、數(shù)據(jù)挖掘,以及數(shù)據(jù)遷移等知識(shí),并通過(guò)實(shí)際的操作案例,詳細(xì)、直觀地介紹了大數(shù)據(jù)分析的實(shí)現(xiàn)過(guò)程。
本書(shū)可作為高等職業(yè)院校大數(shù)據(jù)技術(shù)等專業(yè)的教材,也可作為大數(shù)據(jù)分析技術(shù)人員的參考書(shū)。
1.結(jié)合大數(shù)據(jù)一線企業(yè)浪潮集團(tuán)在數(shù)據(jù)采集行業(yè)的行業(yè)經(jīng)驗(yàn)與案例總結(jié)。做到了真正的產(chǎn)教融合。
2.以項(xiàng)目為模塊組織教材內(nèi)容,打破了原有教材體系的章節(jié)框架局限。采用明確項(xiàng)目任務(wù)、制定項(xiàng)目計(jì)劃、實(shí)施計(jì)劃、檢查與評(píng)價(jià)的形式,改變了傳統(tǒng)的授課模式與內(nèi)容。
3.深度契合高等職業(yè)學(xué)校大數(shù)據(jù)技術(shù)與應(yīng)用最新專業(yè)教學(xué)標(biāo)準(zhǔn)。
項(xiàng)目1
初識(shí)電商產(chǎn)品數(shù)據(jù)的處理與
分析 1
項(xiàng)目導(dǎo)言 1
項(xiàng)目導(dǎo)圖 1
知識(shí)目標(biāo) 1
技能目標(biāo) 2
素養(yǎng)目標(biāo) 2
任務(wù)1-1 電商產(chǎn)品數(shù)據(jù)背景及數(shù)據(jù)
分析概述 2
任務(wù)描述 2
素質(zhì)拓展 2
任務(wù)技能 2
技能點(diǎn)1 電商產(chǎn)品數(shù)據(jù)背景 2
技能點(diǎn)2 大數(shù)據(jù)分析概念 4
技能點(diǎn)3 大數(shù)據(jù)分析應(yīng)用場(chǎng)景 5
技能點(diǎn)4 大數(shù)據(jù)分析指標(biāo) 9
任務(wù)1-2 電商產(chǎn)品數(shù)據(jù)處理與分析
項(xiàng)目準(zhǔn)備 12
任務(wù)描述 12
素質(zhì)拓展 12
任務(wù)技能 12
技能點(diǎn)1 大數(shù)據(jù)分析工具簡(jiǎn)介 12
技能點(diǎn)2 大數(shù)據(jù)分析組件 15
技能點(diǎn)3 大數(shù)據(jù)分析流程 19
技能點(diǎn)4 大數(shù)據(jù)分析企業(yè)級(jí)應(yīng)用 20
任務(wù)實(shí)施 22
項(xiàng)目小結(jié) 26
課后習(xí)題 26
自我評(píng)價(jià) 27
項(xiàng)目2
電商產(chǎn)品數(shù)據(jù)分布式存儲(chǔ) 28
項(xiàng)目導(dǎo)言 28
項(xiàng)目導(dǎo)圖 28
知識(shí)目標(biāo) 28
技能目標(biāo) 29
素養(yǎng)目標(biāo) 29
任務(wù)2-1 使用HDFS Shell管理
電商產(chǎn)品數(shù)據(jù) 29
任務(wù)描述 29
素質(zhì)拓展 29
任務(wù)技能 29
技能點(diǎn)1 什么是HDFS 29
技能點(diǎn)2 HDFS存儲(chǔ)架構(gòu) 30
技能點(diǎn)3 HDFS文件存取機(jī)制 32
技能點(diǎn)4 HDFS Shell基礎(chǔ)命令 36
技能點(diǎn)5 HDFS Shell管理命令 38
任務(wù)實(shí)施 40
任務(wù)2-2 使用HDFS庫(kù)管理電商
產(chǎn)品數(shù)據(jù) 44
任務(wù)描述 44
素質(zhì)拓展 44
任務(wù)技能 44
技能點(diǎn)1 HDFS庫(kù)簡(jiǎn)介 44
技能點(diǎn)2 HDFS庫(kù)方法 44
任務(wù)實(shí)施 48
項(xiàng)目小結(jié) 51
課后習(xí)題 51
自我評(píng)價(jià) 52
項(xiàng)目3
電商產(chǎn)品數(shù)據(jù)分布式處理 53
項(xiàng)目導(dǎo)言 53
項(xiàng)目導(dǎo)圖 53
知識(shí)目標(biāo) 53
技能目標(biāo) 53
素養(yǎng)目標(biāo) 54
任務(wù)3-1 使用正則表達(dá)式匹配電商
產(chǎn)品數(shù)據(jù) 54
任務(wù)描述 54
素質(zhì)拓展 54
任務(wù)技能 54
技能點(diǎn)1 MapReduce簡(jiǎn)介 54
技能點(diǎn)2 YARN簡(jiǎn)介 56
技能點(diǎn)3 正則表達(dá)式 59
任務(wù)實(shí)施 61
任務(wù)3-2 使用Hadoop Streaming
處理電商產(chǎn)品數(shù)據(jù) 64
任務(wù)描述 64
素質(zhì)拓展 64
任務(wù)技能 64
技能點(diǎn)1 Hadoop Streaming簡(jiǎn)介 64
技能點(diǎn)2 Hadoop Streaming的使用
方法 64
任務(wù)實(shí)施 65
項(xiàng)目小結(jié) 71
課后習(xí)題 71
自我評(píng)價(jià) 72
項(xiàng)目4
電商產(chǎn)品數(shù)據(jù)離線分析 73
項(xiàng)目導(dǎo)言 73
項(xiàng)目導(dǎo)圖 73
知識(shí)目標(biāo) 73
技能目標(biāo) 74
素養(yǎng)目標(biāo) 74
任務(wù)4-1 使用Hive創(chuàng)建電商產(chǎn)品
數(shù)據(jù)庫(kù) 74
任務(wù)描述 74
素質(zhì)拓展 74
任務(wù)技能 74
技能點(diǎn)1 Hive數(shù)據(jù)庫(kù)操作 74
技能點(diǎn)2 Hive表操作 76
技能點(diǎn)3 Hive數(shù)據(jù)操作 78
任務(wù)實(shí)施 80
任務(wù)4-2 使用Hive對(duì)電商產(chǎn)品數(shù)據(jù)
進(jìn)行統(tǒng)計(jì) 84
任務(wù)描述 84
素質(zhì)拓展 84
任務(wù)技能 84
技能點(diǎn)1 算術(shù)運(yùn)算 84
技能點(diǎn)2 數(shù)據(jù)查詢 85
任務(wù)實(shí)施 88
任務(wù)4-3 使用Spark創(chuàng)建基于電商
產(chǎn)品數(shù)據(jù)的分布式數(shù)據(jù)
容器 95
任務(wù)描述 95
素質(zhì)拓展 95
任務(wù)技能 95
技能點(diǎn)1 Spark SQL簡(jiǎn)介 95
技能點(diǎn)2 DataFrame簡(jiǎn)介 97
技能點(diǎn)3 DataFrame創(chuàng)建 98
任務(wù)實(shí)施 102
任務(wù)4-4 使用Spark SQL完成電商
產(chǎn)品數(shù)據(jù)分析 103
任務(wù)描述 103
素質(zhì)拓展 103
任務(wù)技能 104
技能點(diǎn)1 數(shù)據(jù)查看 104
技能點(diǎn)2 數(shù)據(jù)過(guò)濾 105
技能點(diǎn)3 數(shù)據(jù)處理 105
技能點(diǎn)4 數(shù)據(jù)存儲(chǔ) 107
任務(wù)實(shí)施 108
項(xiàng)目小結(jié) 111
課后習(xí)題 111
自我評(píng)價(jià) 112
項(xiàng)目5
電商產(chǎn)品數(shù)據(jù)實(shí)時(shí)分析 113
項(xiàng)目導(dǎo)言 113
項(xiàng)目導(dǎo)圖 113
知識(shí)目標(biāo) 113
技能目標(biāo) 113
素養(yǎng)目標(biāo) 114
任務(wù)5-1 創(chuàng)建數(shù)據(jù)流 114
任務(wù)描述 114
素質(zhì)拓展 114
任務(wù)技能 114
技能點(diǎn)1 流式計(jì)算簡(jiǎn)介 114
技能點(diǎn)2 Spark Streaming簡(jiǎn)介 116
技能點(diǎn)3 DStream簡(jiǎn)介 117
技能點(diǎn)4 DStream的創(chuàng)建 118
任務(wù)實(shí)施 120
任務(wù)5-2 使用Spark Streaming
對(duì)電商產(chǎn)品數(shù)據(jù)進(jìn)行實(shí)時(shí)
數(shù)據(jù)分析 122
任務(wù)描述 122
素質(zhì)拓展 122
任務(wù)技能 122
技能點(diǎn)1 DStream轉(zhuǎn)換操作 122
技能點(diǎn)2 DStream窗口操作 124
技能點(diǎn)3 DStream輸出操作 125
技能點(diǎn)4 Spark Streaming啟動(dòng)與
停止 126
任務(wù)實(shí)施 127
項(xiàng)目小結(jié) 134
課后習(xí)題 134
自我評(píng)價(jià) 135
項(xiàng)目6
電商產(chǎn)品數(shù)據(jù)挖掘 136
項(xiàng)目導(dǎo)言 136
項(xiàng)目導(dǎo)圖 136
知識(shí)目標(biāo) 136
技能目標(biāo) 137
素養(yǎng)目標(biāo) 137
任務(wù)6-1 處理電商產(chǎn)品數(shù)據(jù) 137
任務(wù)描述 137
素質(zhì)拓展 137
任務(wù)技能 137
技能點(diǎn)1 Spark MLlib概述 137
技能點(diǎn)2 Spark MLlib數(shù)據(jù)類型 138
技能點(diǎn)3 特征提取與數(shù)據(jù)處理 140
任務(wù)實(shí)施 144
任務(wù)6-2 使用Spark MLlib對(duì)電商
產(chǎn)品定價(jià) 151
任務(wù)描述 151
素質(zhì)拓展 152
任務(wù)技能 152
技能點(diǎn)1 分類算法 152
技能點(diǎn)2 回歸算法 154
技能點(diǎn)3 推薦算法 156
技能點(diǎn)4 算法評(píng)估 157
任務(wù)實(shí)施 159
項(xiàng)目小結(jié) 162
課后習(xí)題 162
自我評(píng)價(jià) 163
項(xiàng)目7
電商產(chǎn)品數(shù)據(jù)遷移 164
項(xiàng)目導(dǎo)言 164
項(xiàng)目導(dǎo)圖 164
知識(shí)目標(biāo) 164
技能目標(biāo) 164
素養(yǎng)目標(biāo) 165
任務(wù)7-1 根據(jù)電商產(chǎn)品數(shù)據(jù)統(tǒng)計(jì)結(jié)果
創(chuàng)建數(shù)據(jù)表并查看 165
任務(wù)描述 165
素質(zhì)拓展 165
任務(wù)技能 165
技能點(diǎn)1 Sqoop架構(gòu) 165
技能點(diǎn)2 Sqoop連接器 167
技能點(diǎn)3 Sqoop配置數(shù)據(jù)庫(kù)密碼
方式 167
技能點(diǎn)4 列出所有數(shù)據(jù)庫(kù) 168
技能點(diǎn)5 列出數(shù)據(jù)庫(kù)中的所有表 169
任務(wù)實(shí)施 169
任務(wù)7-2 使用Sqoop將Hive中
電商產(chǎn)品數(shù)據(jù)統(tǒng)計(jì)結(jié)果
導(dǎo)出 172
任務(wù)描述 172
素質(zhì)拓展 172
任務(wù)技能 173
技能點(diǎn)1 Sqoop數(shù)據(jù)導(dǎo)入與
導(dǎo)出 173
技能點(diǎn)2 其他常用命令 176
任務(wù)實(shí)施 178
項(xiàng)目小結(jié) 183
課后習(xí)題 183
自我評(píng)價(jià) 184