在數(shù)據(jù)為主導(dǎo)的今天,對于一種已經(jīng)成型的模型,“怎么用”通常不是問題,用個軟件或者編幾行程序就能得到結(jié)果了,問題一般都出在模型“什么時(shí)候用”和“用完了,然后呢”!稊(shù)據(jù)分析師養(yǎng)成寶典》就集中討論后面兩件事情。
《數(shù)據(jù)分析師養(yǎng)成寶典》共27章,分為業(yè)務(wù)理解篇(第1~4章)、指標(biāo)設(shè)計(jì)篇(第5~7章)、數(shù)據(jù)建模篇(第8~16章)、價(jià)值展現(xiàn)篇(第17~19章)和實(shí)戰(zhàn)進(jìn)階篇(第20~27章)。業(yè)務(wù)理解篇的目的是讓讀者建立正確的思維觀,理解數(shù)據(jù),熟悉業(yè)務(wù);指標(biāo)設(shè)計(jì)篇學(xué)習(xí)把數(shù)據(jù)轉(zhuǎn)換為專家數(shù)據(jù)的一些技巧;數(shù)據(jù)建模篇以R語言為計(jì)算平臺實(shí)施數(shù)據(jù)分析全過程;價(jià)值展現(xiàn)篇主要討論如何撰寫有價(jià)值的數(shù)據(jù)分析報(bào)告;實(shí)戰(zhàn)進(jìn)階篇通過對8個經(jīng)典案例的分析,使讀者能夠把學(xué)到的思維方法、實(shí)施工具應(yīng)用到解決實(shí)際問題中,把數(shù)據(jù)變成價(jià)值。
本書可供數(shù)據(jù)科學(xué)相關(guān)技術(shù)人員閱讀,也可作為高等院校數(shù)據(jù)科學(xué)相關(guān)專業(yè)的教材或培訓(xùn)教材,以及數(shù)據(jù)分析愛好者的參考讀物。
只要學(xué)會數(shù)據(jù)思維,數(shù)據(jù)分析任你擺布
只要有想法肯動腦,有無基礎(chǔ)皆可學(xué)會
只要懂得指標(biāo)設(shè)計(jì),項(xiàng)目落地信手捏來
隨著大數(shù)據(jù)時(shí)代的到來,企業(yè)管理者對數(shù)據(jù)價(jià)值的重視程度越來越高,他們渴望從企業(yè)內(nèi)部數(shù)據(jù)、外部數(shù)據(jù)中獲得更多的信息財(cái)富,并以此為依據(jù),幫助自己做出正確的戰(zhàn)略決策。 如今在數(shù)據(jù)分析師的崗位上,大多數(shù)員工都是非統(tǒng)計(jì)專業(yè)出身,遠(yuǎn)遠(yuǎn)達(dá)不到專業(yè)數(shù)據(jù)分析要求,如何能夠快速找到突破口,幫助對數(shù)據(jù)分析有興趣的人員全面掌握數(shù)據(jù)分析技巧,基于此,《數(shù)據(jù)分析師養(yǎng)成寶典旨》在幫助讀者解決如下困惑:學(xué)習(xí)前的困惑學(xué)習(xí)后將收獲什么零基礎(chǔ)入門數(shù)據(jù)分析領(lǐng)域只要有數(shù)據(jù)思維,數(shù)據(jù)分析任你擺布不會編程只要有想法,R語言幫你搞定對行業(yè)業(yè)務(wù)流程不了解項(xiàng)目實(shí)際操作從業(yè)務(wù)思路到落地技能全掌握不會寫數(shù)據(jù)分析報(bào)告掌握了前三項(xiàng)技能,寫數(shù)據(jù)分析報(bào)告是小意思
全書分為5篇:業(yè)務(wù)理解篇、指標(biāo)設(shè)計(jì)篇、數(shù)據(jù)建模篇、價(jià)值展現(xiàn)篇和實(shí)戰(zhàn)進(jìn)階篇,從數(shù)據(jù)到價(jià)值的演化如下圖所示。
業(yè)務(wù)數(shù)據(jù)化是把數(shù)據(jù)變?yōu)閮r(jià)值的先決條件,目的是建立正確的思維觀,理解數(shù)據(jù),熟悉業(yè)務(wù);對數(shù)據(jù)描述、概括和分析是把數(shù)據(jù)變?yōu)閮r(jià)值的核心,是一個數(shù)據(jù)分析項(xiàng)目的實(shí)施過程;數(shù)據(jù)分析報(bào)告是數(shù)據(jù)價(jià)值的最終形態(tài),好的數(shù)據(jù)分析報(bào)告是企業(yè)決策的重要依據(jù),專業(yè)的數(shù)據(jù)分析報(bào)告能體現(xiàn)你的職場價(jià)值。
如果把整個數(shù)據(jù)分析過程比作開飯店,業(yè)務(wù)數(shù)據(jù)化相當(dāng)于菜譜,雖然是紙上談兵,但也是不可缺少的一環(huán);描述、概括和分析相當(dāng)于燒菜的廚藝,這是開飯店的先決條件,菜燒得好可以品嘗,不能保證盈利;撰寫數(shù)據(jù)分析報(bào)告相當(dāng)于開飯店的理由,關(guān)鍵是說清楚如何讓飯店盈利?盈利多少?菜譜、廚藝、開飯店理由三者相輔相成,缺少任何一環(huán),盈利的目標(biāo)都難以達(dá)成。
本書的特點(diǎn)如下:
1落地實(shí)用
全書分為5篇,共27章,每一章的內(nèi)容都從實(shí)際業(yè)務(wù)出發(fā),書中所提供的思維方法、分析框架、數(shù)據(jù)指標(biāo)設(shè)計(jì)與操作步驟都可以直接運(yùn)用到工作當(dāng)中。
2重道輕術(shù)
“術(shù)”是數(shù)據(jù)分析方法和工具,“道”強(qiáng)調(diào)了如何對數(shù)據(jù)敏感,如何把數(shù)據(jù)分析工作融入商業(yè)思考,彌補(bǔ)許多人只懂理論脫離實(shí)踐的不足。
3零距離接觸行業(yè)前沿
本書以R語言為計(jì)算平臺,無論你是什么專業(yè),無論你是否有編程基礎(chǔ),無論你是否學(xué)過統(tǒng)計(jì),要想成為一名數(shù)據(jù)分析師,本書能幫到你。
4體系完整
近年來,數(shù)據(jù)分析師可謂是大數(shù)據(jù)時(shí)代最熱門的職業(yè),相關(guān)的資料五花八門,讓讀者無所適從。從學(xué)科體系來看,無非包括三個層次:理論、工具和技巧。但由于數(shù)據(jù)分析的特殊性,依賴于思維和業(yè)務(wù),所以,市場上成體系的書籍并不多見,大多是講理論和工具,本書試圖在數(shù)據(jù)分析完整的體系上做些探索。
在本書的編寫過程,得到了許多人的支持,再次表示感謝:
感謝南通大學(xué)-南通智能信息技術(shù)聯(lián)合研究中心給予的資金資助。
感謝硅湖職業(yè)技術(shù)學(xué)院在培訓(xùn)、實(shí)驗(yàn)方面所給予的支持。
感謝南通大學(xué)教材建設(shè)資金資助。
感謝我的學(xué)生沈佳杰、謝璐、胡海濤、姚澤峰、周春瑜、孫麗麗、楊琴和趙麗敏在資料整理方面所做的貢獻(xiàn)。
其次,感謝我的妻子和兒女們,正是你們的鼓勵和支持,我才會走到今天,你們的鼓勵和陪伴永遠(yuǎn)是我前進(jìn)的動力。
最后,特別要感謝我的母親和已故的父親,感謝你們的養(yǎng)育之恩。僅以此書獻(xiàn)給健在的母親,希望母親健康,健康,更健康。
數(shù)據(jù)分析領(lǐng)域發(fā)展迅猛,對許多問題作者并未做深入研究,一些有價(jià)值的新內(nèi)容也來不及收入本書。加上作者知識水平和實(shí)踐經(jīng)驗(yàn)有限,書中難免存在不足之處,敬請讀者批評指正。
如何使用本書
第0章說在前面的話
0.1大數(shù)據(jù)分析案例
0.2數(shù)據(jù)分析
0.2.1數(shù)據(jù)分析不同于信息化系統(tǒng)
0.2.2數(shù)據(jù)分析不同于統(tǒng)計(jì)分析
0.2.3數(shù)據(jù)分析不同于數(shù)據(jù)挖掘
0.2.4數(shù)據(jù)分析不同于數(shù)據(jù)管理
0.2.5數(shù)據(jù)分析不同于商業(yè)智能
0.2.6數(shù)據(jù)分析的內(nèi)容
0.3數(shù)據(jù)分析師
0.3.1什么是數(shù)據(jù)分析師
0.3.2基本要求
0.4數(shù)據(jù)分析過程
0.4.1業(yè)務(wù)理解
0.4.2指標(biāo)設(shè)計(jì)
0.4.3數(shù)據(jù)建模
0.4.4分析報(bào)告
業(yè)務(wù)理解篇
第1章正確的思維觀
1.1數(shù)據(jù)思維
1.2統(tǒng)計(jì)思維
1.2.1統(tǒng)計(jì)學(xué)
1.2.2描述
1.2.3概括
1.2.4分析
1.3邏輯思維
1.3.1上取/下鉆思維
1.3.2求同/求異思維
1.3.3抽離/聯(lián)合思維
1.3.4離開/接近思維
1.3.5層次思維
第2章理解數(shù)據(jù)
2.1數(shù)據(jù)是什么
2.2數(shù)據(jù)所依存的背景
2.3數(shù)據(jù)維度
2.4數(shù)據(jù)敏感
2.5數(shù)據(jù)質(zhì)量
2.6理解數(shù)據(jù)要注意的問題
2.6.1不要對完美數(shù)據(jù)的盲目執(zhí)著
2.6.2小樣本數(shù)據(jù)也能做數(shù)據(jù)分析
第3章理解業(yè)務(wù)
3.1全局了解——業(yè)務(wù)模型
3.2動態(tài)了解——流程模型
3.3靜態(tài)了解——數(shù)據(jù)模型
3.4動靜結(jié)合——關(guān)鍵業(yè)務(wù)分析
3.5數(shù)據(jù)業(yè)務(wù)化
第4章理解用戶
4.1由粗到細(xì),從宏觀到微觀
4.2由少到多,收集不同層次的需求
4.3數(shù)據(jù)分析師對理解用戶需求的思考
4.3.1如何用需求分析明確產(chǎn)品目標(biāo)?
4.3.2數(shù)據(jù)分析師理解用戶需求應(yīng)該具備的基本素養(yǎng)
4.3.3如何根據(jù)用戶行為去驅(qū)動產(chǎn)品?
指標(biāo)設(shè)計(jì)篇
第5章數(shù)據(jù)準(zhǔn)備
5.1數(shù)據(jù)探索
5.1.1缺失值分析與處理
5.1.2異常值分析與處理
5.1.3不一致數(shù)據(jù)分析
5.2數(shù)據(jù)整理
5.2.1規(guī)范化
5.2.2數(shù)據(jù)選擇
5.2.3數(shù)據(jù)歸約
5.2.4數(shù)據(jù)變換
5.3數(shù)據(jù)集成
5.3.1通過向量化重構(gòu)數(shù)據(jù)
5.3.2為數(shù)據(jù)添加新變量
5.3.3數(shù)據(jù)透視表
5.3.4列聯(lián)表
5.3.5數(shù)據(jù)整合
5.3.6分組計(jì)算
第6章數(shù)據(jù)指標(biāo)
6.1指標(biāo)和維度
6.2特征工程
6.2.1特征工程作用
6.2.2特征設(shè)計(jì)
6.2.3特征選擇
6.2.4特征提取
6.3指標(biāo)設(shè)計(jì)基本方法
6.3.1生成用于判別的變量
6.3.2生成離散變量
6.3.3業(yè)務(wù)標(biāo)簽化
6.4典型業(yè)務(wù)指標(biāo)設(shè)計(jì)
6.4.1零售店鋪數(shù)據(jù)分析指標(biāo)
6.4.2電商數(shù)據(jù)分析指標(biāo)
第7章數(shù)據(jù)認(rèn)知
7.1認(rèn)知數(shù)據(jù)的平均水平和波動情況
7.2認(rèn)知數(shù)據(jù)的分布
7.3利用相關(guān)系數(shù)理解數(shù)據(jù)之間的關(guān)系
7.4通過對比認(rèn)知數(shù)據(jù)
7.5通過多維交叉來深入認(rèn)知數(shù)據(jù)
7.6周期性分析
7.7貢獻(xiàn)度分析
7.8因子分析
數(shù)據(jù)建模篇
第8章神經(jīng)網(wǎng)絡(luò)
8.1模型原理
8.2進(jìn)階指導(dǎo)
第9章回歸分析
9.1模型原理
9.2進(jìn)階指導(dǎo)
第10章聚類分析
10.1模型原理
10.2進(jìn)階指導(dǎo)
第11章關(guān)聯(lián)分析
11.1模型原理
11.2進(jìn)階指導(dǎo)
第12章決策樹
12.1模型原理
12.2進(jìn)階指導(dǎo)
第13章隨機(jī)森林決策樹
13.1模型原理
13.2進(jìn)階指導(dǎo)
第14章自適應(yīng)選擇決策樹
14.1模型原理
14.2進(jìn)階指導(dǎo)
第15章SVM
15.1模型原理
15.2進(jìn)階指導(dǎo)
第16章建模指導(dǎo)
16.1建模要注意的問題
16.2R語言中建模常用包
16.3數(shù)據(jù)分析模型的原理和應(yīng)用場景
價(jià)值展現(xiàn)篇
第17章如何寫好數(shù)據(jù)分析報(bào)告
17.1數(shù)據(jù)的價(jià)值
17.1.1收入
17.1.2支出
17.1.3風(fēng)險(xiǎn)
17.1.4參照系
17.2講故事
17.2.1數(shù)據(jù)講故事的四大要點(diǎn)
17.2.2阿里指數(shù)能告訴你……
17.3如何寫報(bào)告
17.3.1寫作原則
17.3.2報(bào)告的類型和分析能力
17.3.3報(bào)告的細(xì)節(jié)
17.4報(bào)告的結(jié)構(gòu)
17.4.1標(biāo)題
17.4.2背景與目標(biāo)
17.4.3項(xiàng)目說明
17.4.4分析思路
17.4.5分析主體
17.4.6總結(jié)與建議
17.5文字表達(dá)
17.5.1突出關(guān)鍵信息
17.5.2避免啰嗦的表達(dá)
17.5.3站在讀者角度
17.5.4不帶主觀臆斷
17.6分析過程
17.6.1樣本選擇
17.6.2方法實(shí)施
17.7注意事項(xiàng)
第18章數(shù)據(jù)可視化
18.1什么是數(shù)據(jù)可視化
18.2數(shù)據(jù)可視化的作用
18.3可視化建議
18.4科學(xué)與藝術(shù)的結(jié)合
18.5可視化細(xì)節(jié)
18.6R語言繪圖
18.6.1低水平繪圖命令
18.6.2高水平繪圖命令
18.6.3交互式繪圖命令
18.7圖形適用場景
第19章數(shù)據(jù)分析報(bào)告制作工具
19.1knitr包
19.1.1安裝knitr
19.1.2Markdown語法
19.1.3報(bào)告制作
19.2rmarkdown包
19.2.1創(chuàng)建R Markdown
19.2.2R Markdown文本處理
19.2.3插入代碼塊
19.2.4結(jié)果的輸出
實(shí)戰(zhàn)進(jìn)階篇
第20章校園網(wǎng)中推薦者的推薦價(jià)值分析
20.1業(yè)務(wù)理解
20.2指標(biāo)設(shè)計(jì)
20.3描述性分析
20.4模型分析
20.5分析報(bào)告
第21章上市企業(yè)財(cái)務(wù)報(bào)表分析與ST預(yù)測
21.1業(yè)務(wù)理解
21.2指標(biāo)設(shè)計(jì)
21.3描述性分析
21.4模型分析
21.5分析報(bào)告
第22章為什么銷售會減少——驗(yàn)證性分析
22.1業(yè)務(wù)理解
22.2指標(biāo)設(shè)計(jì)
22.3描述性分析
22.4結(jié)論與建議
第23章什么樣的顧客會選擇離開——探索性分析
23.1業(yè)務(wù)理解
23.2指標(biāo)設(shè)計(jì)
23.3描述性分析
23.4結(jié)論與建議
第24章哪種廣告的效果更好——假設(shè)檢驗(yàn)
24.1業(yè)務(wù)理解
24.2數(shù)據(jù)建模
24.3模型分析
24.4結(jié)論與建議
第25章如何獲得更多的用戶——多元回歸分析
25.1業(yè)務(wù)理解
25.2數(shù)據(jù)建模
25.3模型分析
25.4結(jié)論與建議
第26章航空公司顧客價(jià)值分析——聚類
26.1業(yè)務(wù)理解
26.2指標(biāo)設(shè)計(jì)
26.3模型構(gòu)建
26.4模型評價(jià)
26.5結(jié)論與建議
第27章竊電用戶行為分析——決策樹
27.1業(yè)務(wù)理解
27.2簡單指標(biāo)設(shè)計(jì)
27.3描述性分析
27.4復(fù)雜指標(biāo)設(shè)計(jì)