劍指大數(shù)據(jù)——企業(yè)級(jí)電商數(shù)據(jù)倉庫項(xiàng)目實(shí)戰(zhàn)(精華版)
定 價(jià):95 元
叢書名:程序員硬核技術(shù)叢書
- 作者:尚硅谷教育
- 出版時(shí)間:2024/4/1
- ISBN:9787121475214
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP311.13
- 頁碼:312
- 紙張:
- 版次:01
- 開本:16開
本書完整講解了電商行業(yè)數(shù)據(jù)倉庫項(xiàng)目的構(gòu)建過程,并提供了詳盡的思路分析。在整個(gè)項(xiàng)目構(gòu)建過程中,介紹了關(guān)鍵技術(shù)框架的安裝部署流程和經(jīng)典數(shù)據(jù)指標(biāo)的解決方案,并在其中穿插了大數(shù)據(jù)和數(shù)據(jù)倉庫的經(jīng)典理論知識(shí)。本書從邏輯上可以分為兩大部分:第一部分是第1~3章,重點(diǎn)講解數(shù)據(jù)倉庫的相關(guān)概念和項(xiàng)目需求分析,并初步介紹了數(shù)據(jù)倉庫項(xiàng)目所需的基本環(huán)境;第二部分是第4~8章,這一部分是數(shù)據(jù)倉庫項(xiàng)目構(gòu)建的關(guān)鍵部分,講解了如何對(duì)海量數(shù)據(jù)進(jìn)行采集、存儲(chǔ)和分層計(jì)算,以及如何計(jì)算得到所有的項(xiàng)目需求指標(biāo)。本書適合具有一定編程基礎(chǔ)且對(duì)大數(shù)據(jù)有興趣的讀者閱讀參考。通過本書,讀者可以快速了解大數(shù)據(jù)和數(shù)據(jù)倉庫,掌握數(shù)據(jù)倉庫項(xiàng)目的完整構(gòu)建流程。
尚硅谷教育是一家專業(yè)的IT教育培訓(xùn)機(jī)構(gòu),開設(shè)了JavaEE、大數(shù)據(jù)、HTML5前端等多門學(xué)科,在互聯(lián)網(wǎng)上發(fā)布的JavaEE、大數(shù)據(jù)、HTML5前端、區(qū)塊鏈、C語言、Python等技術(shù)視頻教程廣受贊譽(yù)。
目 錄
第1章 數(shù)據(jù)倉庫概論 1
1.1 數(shù)據(jù)倉庫的概念與特點(diǎn) 1
1.2 數(shù)據(jù)倉庫的演進(jìn)過程 2
1.3 數(shù)據(jù)倉庫技術(shù) 3
1.4 數(shù)據(jù)倉庫基本架構(gòu) 5
1.5 數(shù)據(jù)庫和數(shù)據(jù)倉庫的區(qū)別 8
1.6 學(xué)前導(dǎo)讀 8
1.6.1 學(xué)習(xí)的基礎(chǔ)要求 8
1.6.2 你將學(xué)到什么 9
1.7 本章總結(jié) 9
第2章 項(xiàng)目需求描述 10
2.1 前期調(diào)研 10
2.2 項(xiàng)目架構(gòu)分析 11
2.2.1 電商數(shù)據(jù)倉庫產(chǎn)品描述 11
2.2.2 系統(tǒng)功能結(jié)構(gòu) 12
2.2.3 系統(tǒng)流程圖 12
2.3 項(xiàng)目業(yè)務(wù)概述 13
2.3.1 數(shù)據(jù)采集模塊業(yè)務(wù)描述 13
2.3.2 數(shù)據(jù)倉庫需求業(yè)務(wù)描述 14
2.3.3 數(shù)據(jù)可視化業(yè)務(wù)描述 15
2.4 系統(tǒng)運(yùn)行環(huán)境 16
2.4.1 硬件環(huán)境 16
2.4.2 軟件環(huán)境 16
2.5 本章總結(jié) 18
第3章 項(xiàng)目部署的環(huán)境準(zhǔn)備 19
3.1 集群規(guī)劃與服務(wù)器配置 19
3.2 安裝JDK與Hadoop 19
3.2.1 虛擬機(jī)環(huán)境準(zhǔn)備 19
3.2.2 安裝JDK 23
3.2.3 安裝Hadoop 24
3.2.4 Hadoop的分布式集群部署 25
3.3 本章總結(jié) 31
第4章 用戶行為數(shù)據(jù)采集模塊 32
4.1 日志生成 32
4.1.1 數(shù)據(jù)埋點(diǎn) 32
4.1.2 用戶行為日志格式 32
4.1.3 數(shù)據(jù)模擬 37
4.2 消息隊(duì)列Kafka 40
4.2.1 安裝ZooKeeper 40
4.2.2 ZooKeeper集群?jiǎn)?dòng)、停止腳本 42
4.2.3 安裝Kafka 43
4.2.4 Kafka集群?jiǎn)?dòng)、停止腳本 45
4.2.5 Kafka topic相關(guān)操作 45
4.3 采集日志的Flume 46
4.3.1 Flume組件 46
4.3.2 Flume安裝 47
4.3.3 采集日志的Flume配置 48
4.3.4 采集日志的Flume測(cè)試 49
4.3.5 采集日志的Flume啟動(dòng)、停止腳本 50
4.4 消費(fèi)日志的Flume 51
4.4.1 消費(fèi)日志的Flume配置 51
4.4.2 時(shí)間戳攔截器 53
4.4.3 消費(fèi)日志的Flume測(cè)試 56
4.4.4 消費(fèi)日志的Flume啟動(dòng)、停止腳本 56
4.5 本章總結(jié) 57
第5章 業(yè)務(wù)數(shù)據(jù)采集模塊 58
5.1 電商業(yè)務(wù)概述 58
5.1.1 電商業(yè)務(wù)流程 58
5.1.2 電商常識(shí) 59
5.1.3 電商業(yè)務(wù)表結(jié)構(gòu) 59
5.1.4 數(shù)據(jù)同步策略 70
5.1.5 數(shù)據(jù)同步工具選擇 72
5.2 業(yè)務(wù)數(shù)據(jù)采集 72
5.2.1 MySQL安裝 72
5.2.2 業(yè)務(wù)數(shù)據(jù)生成 75
5.2.3 DataX安裝 77
5.2.4 Maxwell安裝 78
5.2.5 全量同步 83
5.2.6 增量同步 88
5.3 采集通道啟動(dòng)和停止腳本 96
5.4 本章總結(jié) 97
第6章 數(shù)據(jù)倉庫搭建模塊 98
6.1 數(shù)據(jù)倉庫理論準(zhǔn)備 98
6.1.1 數(shù)據(jù)建模概述 98
6.1.2 關(guān)系模型與范式理論 99
6.1.3 維度模型 102
6.1.4 維度建模理論之事實(shí)表 103
6.1.5 維度建模理論之維度表 106
6.1.6 雪花模型、星形模型與星座模型 109
6.2 數(shù)據(jù)倉庫建模實(shí)踐 111
6.2.1 名詞概念 111
6.2.2 為什么要分層 112
6.2.3 數(shù)據(jù)倉庫搭建流程 113
6.2.4 數(shù)據(jù)倉庫開發(fā)規(guī)范 120
6.3 數(shù)據(jù)倉庫搭建環(huán)境準(zhǔn)備 123
6.3.1 Hive安裝 123
6.3.2 Hive on Spark配置 126
6.3.3 YARN容量調(diào)度器并發(fā)度問題 128
6.3.4 數(shù)據(jù)倉庫開發(fā)環(huán)境配置 129
6.3.5 模擬數(shù)據(jù)準(zhǔn)備 131
6.3.6 復(fù)雜數(shù)據(jù)類型 133
6.4 數(shù)據(jù)倉庫搭建——ODS層 134
6.4.1 用戶行為日志數(shù)據(jù) 134
6.4.2 ODS層用戶行為日志數(shù)據(jù)導(dǎo)入腳本 136
6.4.3 業(yè)務(wù)數(shù)據(jù) 138
6.4.4 ODS層業(yè)務(wù)數(shù)據(jù)導(dǎo)入腳本 151
6.5 數(shù)據(jù)倉庫搭建——DIM層 154
6.5.1 商品維度表(全量) 154
6.5.2 優(yōu)惠券維度表(全量) 159
6.5.3 活動(dòng)維度表(全量) 161
6.5.4 地區(qū)維度表(全量) 163
6.5.5 營銷坑位維度表 165
6.5.6 營銷渠道維度表 165
6.5.7 時(shí)間維度表(特殊) 166
6.5.8 用戶維度表(拉鏈表) 167
6.5.9 DIM層首日數(shù)據(jù)裝載腳本 173
6.5.10 DIM層每日數(shù)據(jù)裝載腳本 173
6.6 數(shù)據(jù)倉庫搭建——DWD層 173
6.6.1 交易域加購物車事務(wù)事實(shí)表 174
6.6.2 交易域下單事務(wù)事實(shí)表 176
6.6.3 交易域支付成功事務(wù)事實(shí)表 180
6.6.4 交易域購物車周期快照事實(shí)表 185
6.6.5 交易域交易流程累積快照事實(shí)表 186
6.6.6 工具域優(yōu)惠券使用(支付)事務(wù)事實(shí)表 192
6.6.7 互動(dòng)域收藏事務(wù)事實(shí)表 194
6.6.8 流量域頁面瀏覽事務(wù)事實(shí)表 195
6.6.9 用戶域用戶注冊(cè)事務(wù)事實(shí)表 197
6.6.10 用戶域用戶登錄事務(wù)事實(shí)表 200
6.6.11 DWD層首日業(yè)務(wù)數(shù)據(jù)裝載腳本 202
6.6.12 DWD層每日業(yè)務(wù)數(shù)據(jù)裝載腳本 202
6.7 數(shù)據(jù)倉庫搭建——DWS層 202
6.7.1 最近1日匯總表 203
6.7.2 最近n日匯總表 218
6.7.3 歷史至今匯總表 221
6.8 數(shù)據(jù)倉庫搭建——ADS層 226
6.8.1 流量主題指標(biāo) 226
6.8.2 用戶主題指標(biāo) 230
6.8.3 商品主題指標(biāo) 240
6.8.4 交易主題指標(biāo) 247
6.8.5 優(yōu)惠券主題指標(biāo) 249
6.8.6 ADS層數(shù)據(jù)導(dǎo)入腳本 249
6.9 數(shù)據(jù)模型評(píng)估及優(yōu)化 250
6.10 本章總結(jié) 250
第7章 DolphinScheduler全流程調(diào)度 251
7.1 DolphinScheduler概述與安裝部署 251
7.1.1 DolphinScheduler概述 251
7.1.2 DolphinScheduler安裝部署 252
7.2 創(chuàng)建MySQL數(shù)據(jù)庫和表 258
7.3 DataX數(shù)據(jù)導(dǎo)出 262
7.4 全流程調(diào)度 268
7.4.1 數(shù)據(jù)準(zhǔn)備 268
7.4.2 全流程調(diào)度配置 268
7.5 電子郵件報(bào)警 277
7.5.1 注冊(cè)郵箱 277
7.5.2 配置電子郵件報(bào)警 278
7.6 本章總結(jié) 281
第8章 數(shù)據(jù)可視化模塊 282
8.1 Superset部署 282
8.1.1 環(huán)境準(zhǔn)備 282
8.1.2 Superset安裝 284
8.2 Superset使用 287
8.2.1 對(duì)接MySQL數(shù)據(jù)源 287
8.2.2 制作儀表盤 289
8.3 Superset實(shí)戰(zhàn) 294
8.3.1 制作柱狀圖 294
8.3.2 制作餅狀圖 295
8.3.3 制作;鶊D 297
8.3.4 合成儀表盤頁面 299
8.4 ECharts可視化 299
8.5 本章總結(jié) 301