前言
隨著大數(shù)據(jù)技術(shù)的快速發(fā)展,人們對(duì)數(shù)據(jù)的價(jià)值越來(lái)越重視,數(shù)據(jù)采集、存儲(chǔ)、安全技術(shù)也變得日益重要,數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù)得到了日益廣泛的應(yīng)用。利用數(shù)據(jù)分析技術(shù)從海量數(shù)據(jù)中提取的信息具有極高的價(jià)值,例如,支持企業(yè)高層進(jìn)行業(yè)務(wù)決策、發(fā)現(xiàn)新的銷售和市場(chǎng)機(jī)會(huì)、提升組織的社交媒體營(yíng)銷能力、提高用戶忠誠(chéng)度以及復(fù)購(gòu)率、降低用戶流失率、提前預(yù)測(cè)風(fēng)險(xiǎn)并進(jìn)行防范等。
對(duì)于數(shù)據(jù)的重視以及數(shù)據(jù)分析技術(shù)的發(fā)展與應(yīng)用,帶動(dòng)了企業(yè)對(duì)數(shù)據(jù)分析人才需求的快速增長(zhǎng)。在未來(lái)一段時(shí)間內(nèi),數(shù)據(jù)分析人才缺口會(huì)很大。從事數(shù)據(jù)分析工作需要專門的技能,一名優(yōu)秀的數(shù)據(jù)分析師既要熟練掌握數(shù)據(jù)分析之道數(shù)據(jù)分析的策略、方法(也可以將其理解為做數(shù)據(jù)分析的思路),也要熟練掌握數(shù)據(jù)分析之術(shù)數(shù)據(jù)分析工具的使用。此外,數(shù)據(jù)分析師還需要熟悉行業(yè)知識(shí)、公司業(yè)務(wù)及流程,了解企業(yè)產(chǎn)品和運(yùn)營(yíng)活動(dòng)的設(shè)計(jì)思路,才能根據(jù)數(shù)據(jù)分析的結(jié)論驅(qū)動(dòng)業(yè)務(wù)增長(zhǎng)落地,使得數(shù)據(jù)分析工作的價(jià)值和自身的價(jià)值得以實(shí)現(xiàn)。
本書結(jié)合數(shù)據(jù)分析工作的實(shí)際情況,通過大量案例介紹了數(shù)據(jù)分析的方法和工具,內(nèi)容涵蓋了Excel、VBA、SQL、Tableau以及Python這幾個(gè)常用的數(shù)據(jù)分析工具的使用,融會(huì)貫通地介紹了數(shù)據(jù)分析的道與術(shù)。通過本書,讀者可以由淺入深、循序漸進(jìn)地學(xué)習(xí)數(shù)據(jù)分析,為日常工作中數(shù)據(jù)的處理與分析打下堅(jiān)實(shí)的基礎(chǔ)。
本書內(nèi)容
第1章數(shù)據(jù)分析入門。主要內(nèi)容包括什么是數(shù)據(jù)分析、數(shù)據(jù)分析的職業(yè)發(fā)展及分類,以及數(shù)據(jù)分析之道(數(shù)據(jù)分析需要掌握的理論知識(shí))與數(shù)據(jù)分析之術(shù)(各類軟件工具的運(yùn)用)。
第2章數(shù)據(jù)分析從玩轉(zhuǎn)Excel開始。主要內(nèi)容包括Excel概述、高效處理數(shù)據(jù)的Excel函數(shù)家族、十分有用的Excel數(shù)據(jù)分析技巧、酷炫的Excel圖表可視化、讓你的Excel報(bào)表動(dòng)起來(lái)(VBA)。
第3章海量數(shù)據(jù)管理拿MySQL說(shuō)事兒。主要內(nèi)容包括MySQL數(shù)據(jù)庫(kù)的安裝、將數(shù)據(jù)寫入到數(shù)據(jù)庫(kù)中、重要的單表查詢、復(fù)雜的多表查詢、通過索引提高數(shù)據(jù)的查詢速度、數(shù)據(jù)庫(kù)的增刪改操作。
第4章數(shù)據(jù)可視化Tableau的使用。主要內(nèi)容包括數(shù)據(jù)可視化概述、Tableau概述、數(shù)據(jù)可視化圖表、儀表板的制作與發(fā)布。
第5章數(shù)據(jù)分析進(jìn)階Python數(shù)據(jù)分析。主要內(nèi)容包括數(shù)據(jù)分析的利器Python、Jupyter的使用技巧、數(shù)據(jù)讀取從pandas開始、常見的數(shù)據(jù)處理技術(shù)、探索性數(shù)據(jù)分析、線性回歸模型的應(yīng)用。
本書特點(diǎn)
? 由淺入深,循序漸進(jìn):本書在簡(jiǎn)要概述了數(shù)據(jù)分析的基本概念之后,首先講解了數(shù)據(jù)分析入門工具Excel的操作技巧,然后結(jié)合案例講解了VBA的知識(shí)點(diǎn),幫助讀者快速掌握表格處理技術(shù);結(jié)合MySQL數(shù)據(jù)庫(kù)對(duì)SQL語(yǔ)言的講解可以讓讀者輕松地處理海量數(shù)據(jù);Tableau是用來(lái)進(jìn)行數(shù)據(jù)可視化分析的重要工具;Python作為本書的進(jìn)階部分內(nèi)容,可以幫助讀者高效處理數(shù)據(jù)和通過建模進(jìn)行數(shù)據(jù)分析。書中講解的知識(shí)點(diǎn)環(huán)環(huán)相扣、逐層深入,比較符合初學(xué)者學(xué)習(xí)數(shù)據(jù)分析的認(rèn)知規(guī)律。
? 案例豐富,輕松易學(xué):本書在介紹各類數(shù)據(jù)分析工具時(shí)結(jié)合了大量的實(shí)際案例,能夠讓讀者快速理解并掌握各個(gè)知識(shí)點(diǎn),簡(jiǎn)單易學(xué)、輕松上手。
? 內(nèi)容全面,講解詳細(xì):本書定位在數(shù)據(jù)分析的入門與進(jìn)階,從數(shù)據(jù)分析理論到數(shù)據(jù)處理、從可視化分析到建模分析,知識(shí)點(diǎn)覆蓋得很全面。全書最后附有彩插,將書中對(duì)應(yīng)效果圖直觀呈現(xiàn),方便讀者參考。
? 配套資源豐富,免費(fèi)提供:本書中的案例涉及的數(shù)據(jù)集、代碼等資源都免費(fèi)提供給讀者學(xué)習(xí)使用,可通過掃描封底二維碼IT有得聊,并輸入本書書號(hào)中的五位數(shù)字獲取。
適用對(duì)象
本書適合有志于從事數(shù)據(jù)分析工作或已從事初級(jí)數(shù)據(jù)分析工作的人士自學(xué),也適合產(chǎn)品經(jīng)理、運(yùn)營(yíng)人員、市場(chǎng)人員、對(duì)數(shù)據(jù)分析感興趣的企業(yè)高管以及創(chuàng)業(yè)人員等參考。
本書作者
本書由陳紅波、劉順祥等編著,參與本書編寫的人員還有孫宗鵬、朱燁、陶穎。此外,還要對(duì)幫助本書出版的所有朋友致以衷心的感謝!由于作者水平有限,書中難免出現(xiàn)錯(cuò)誤和不足之處,敬請(qǐng)廣大讀者批評(píng)指正。
希望本書能夠成為您數(shù)據(jù)分析入門的領(lǐng)航者。
陳紅波 劉順祥
2019年1月11日
目錄
前言
第1章 數(shù)據(jù)分析入門1
1.1 什么是數(shù)據(jù)分析1
1.1.1 數(shù)據(jù)分析的含義1
1.1.2 數(shù)據(jù)分析的操作步驟2
1.1.3 數(shù)據(jù)分析的應(yīng)用場(chǎng)景5
1.1.4 數(shù)據(jù)分析的發(fā)展趨勢(shì)8
1.2 數(shù)據(jù)分析的職業(yè)發(fā)展及分類8
1.3 數(shù)據(jù)分析之道10
1.3.1 三類統(tǒng)計(jì)分析策略10
1.3.2 數(shù)據(jù)分析的常用方法17
1.4 數(shù)據(jù)分析之術(shù)22
1.4.1 必備的Excel處理方法22
1.4.2 高超的數(shù)據(jù)庫(kù)查詢技巧23
1.4.3 純熟的數(shù)據(jù)可視化技能23
1.4.4 高大上的統(tǒng)計(jì)編程技術(shù)26
第2章 數(shù)據(jù)分析從玩轉(zhuǎn)Excel開始28
2.1 Excel概述28
2.1.1 強(qiáng)大的數(shù)據(jù)處理技能28
2.1.2 實(shí)用的數(shù)據(jù)分析技巧29
2.1.3 豐富的數(shù)據(jù)可視化圖表30
2.1.4 便捷的自動(dòng)化數(shù)據(jù)處理30
2.1.5 快速實(shí)現(xiàn)業(yè)務(wù)報(bào)表開發(fā)32
2.2 高效處理數(shù)據(jù)的Excel函數(shù)家族34
2.2.1 常用的統(tǒng)計(jì)分析函數(shù)35
2.2.2 靈活的文本處理函數(shù)49
2.2.3 便捷的數(shù)值運(yùn)算函數(shù)59
2.2.4 經(jīng)典的邏輯判斷函數(shù)68
2.2.5 實(shí)用的日期計(jì)算函數(shù)74
2.2.6 高效的匹配查找函數(shù)80
2.3 十分有用的Excel數(shù)據(jù)分析技巧94
2.3.1 數(shù)據(jù)透視表實(shí)現(xiàn)統(tǒng)計(jì)分析95
2.3.2 描述性統(tǒng)計(jì)分析113
2.3.3 相關(guān)系數(shù)與協(xié)方差115
2.3.4 線性回歸模型預(yù)測(cè)118
2.3.5 移動(dòng)平均模型預(yù)測(cè)121
2.4 酷炫的Excel圖表可視化123
2.4.1 Excel基礎(chǔ)圖表123
2.4.2 高級(jí)可視化圖表135
2.5 讓你的Excel報(bào)表動(dòng)起來(lái)141
2.5.1 VBA基礎(chǔ)語(yǔ)法142
2.5.2 錄制宏,解放你的雙手152
2.5.3 VBA應(yīng)用:學(xué)生成績(jī)信息統(tǒng)計(jì)154
2.5.4 VBA應(yīng)用:報(bào)表發(fā)送前的一鍵優(yōu)化155
2.5.5 VBA應(yīng)用:數(shù)據(jù)庫(kù)字典的超鏈接156
2.5.6 VBA應(yīng)用:一鍵合并拆分工作簿158
2.5.7 VBA應(yīng)用:從數(shù)據(jù)庫(kù)獲取并更新數(shù)據(jù)163
第3章 海量數(shù)據(jù)管理拿MySQL說(shuō)事兒174
3.1 MySQL數(shù)據(jù)庫(kù)的安裝174
3.2 將數(shù)據(jù)寫入到數(shù)據(jù)庫(kù)中178
3.2.1 常用的數(shù)據(jù)類型178
3.2.2 手工建表181
3.2.3 數(shù)據(jù)插入183
3.2.4 外部數(shù)據(jù)的批量導(dǎo)入186
3.3 重要的單表查詢191
3.3.1 SQL查詢的7個(gè)核心關(guān)鍵詞以鏈家二手房數(shù)據(jù)為例192
3.3.2 基于CASE WHEN的常用查詢以電商交易數(shù)據(jù)為例201
3.3.3 幾種常見的嵌套查詢以學(xué)員考試成績(jī)?yōu)槔?05
3.3.4 基于分組排序的輔助列功能以銷售員業(yè)績(jī)數(shù)據(jù)為例210
3.4 復(fù)雜的多表查詢214
3.4.1 縱向表合并以超市交易數(shù)據(jù)為例215
3.4.2 表連接操作以校園一卡通記錄數(shù)據(jù)為例217
3.5 通過索引提高數(shù)據(jù)的查詢速度224
3.5.1 常見的索引類型224
3.5.2 索引的查詢和刪除229
3.5.3 關(guān)于索引的注意事項(xiàng)230
3.6 數(shù)據(jù)庫(kù)的增刪改操作231
3.6.1 數(shù)據(jù)庫(kù)的增操作231
3.6.2 數(shù)據(jù)庫(kù)的刪操作232
3.6.3 數(shù)據(jù)庫(kù)的改操作235
第4章 數(shù)據(jù)可視化Tableau的使用238
4.1 數(shù)據(jù)可視化概述238
4.1.1 什么是數(shù)據(jù)可視化238
4.1.2 為什么要實(shí)現(xiàn)數(shù)據(jù)可視化240
4.2 Tableau概述241
4.2.1 軟件安裝241
4.2.2 連接數(shù)據(jù)源243
4.2.3 數(shù)據(jù)源界面249
4.2.4 工作區(qū)界面251
4.2.5 高級(jí)操作259
4.2.6 保存結(jié)果264
4.3 數(shù)據(jù)可視化圖表265
4.3.1 條形圖266
4.3.2 柱形圖267
4.3.3 折線圖268
4.3.4 面積圖271
4.3.5 符號(hào)圖272
4.3.6 樹狀圖272
4.3.7 氣泡圖273
4.3.8 文字云273
4.3.9 餅圖274
4.3.10 熱圖274
4.3.11 盒須圖275
4.3.12 雙軸圖276
4.3.13 動(dòng)態(tài)圖表277
4.3.14 參數(shù)圖表279
4.3.15 漏斗圖282
4.4 儀表板的制作與發(fā)布286
4.4.1 儀表板的制作286
4.4.2 可視化成果發(fā)布288
第5章 數(shù)據(jù)分析進(jìn)階Python數(shù)據(jù)分析291
5.1 數(shù)據(jù)分析的利器Python291
5.1.1 AnocondaPython集成開發(fā)環(huán)境的安裝292
5.1.2 Python編程工具的選擇295
5.2 Jupyter的使用技巧297
5.2.1 代碼運(yùn)行組合鍵297
5.2.2 代碼框操作組合鍵297
5.2.3 注釋組合鍵297
5.2.4 幫助組合鍵298
5.2.5 代碼與筆記的切換組合鍵298
5.3 數(shù)據(jù)讀取從pandas開始299
5.3.1 文本文件的讀取299
5.3.2 電子表格的讀取301
5.3.3 數(shù)據(jù)庫(kù)數(shù)據(jù)的讀取303
5.4 常見的數(shù)據(jù)處理技術(shù)306
5.4.1 數(shù)據(jù)的概覽與清洗306
5.4.2 數(shù)據(jù)的引用312
5.4.3 多表合并與連接314
5.4.4 數(shù)據(jù)的匯總319
5.5 探索性數(shù)據(jù)分析324
5.5.1 異常數(shù)據(jù)的檢測(cè)與處理324
5.5.2 數(shù)據(jù)的描述331
5.5.3 數(shù)據(jù)的推斷348
5.6 線性回歸模型的應(yīng)用358
5.6.1 簡(jiǎn)單線性回歸模型剎車距離的研究359
5.6.2 多元線性回歸模型產(chǎn)品市場(chǎng)銷售額的研究363
5.6.3 模型的顯著性檢驗(yàn)F檢驗(yàn)365
5.6.4 回歸系數(shù)的顯著性檢驗(yàn)t檢驗(yàn)367
5.6.5 基于回歸模型識(shí)別異常點(diǎn)370
5.6.6 模型的預(yù)測(cè)372