Python數(shù)據(jù)分析與數(shù)據(jù)化運(yùn)營 第2版
定 價(jià):129 元
叢書名:數(shù)據(jù)分析與決策技術(shù)叢書
- 作者:宋天龍
- 出版時(shí)間:2019/6/1
- ISBN:9787111627760
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP311.561
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
內(nèi)容簡介
這是一本將數(shù)據(jù)分析技術(shù)與數(shù)據(jù)使用場(chǎng)景深度結(jié)合的著作,從實(shí)戰(zhàn)角度講解了如何利用Python進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)化運(yùn)營。
暢銷書全新、大幅升級(jí),第1版近乎100%的好評(píng),第2版不僅將Python升級(jí)到了*新的版本,而且對(duì)具體內(nèi)容進(jìn)行了大幅度的補(bǔ)充和優(yōu)化。作者是有10余年數(shù)據(jù)分析與數(shù)據(jù)化運(yùn)營的大數(shù)據(jù)專家,書中對(duì)50余個(gè)數(shù)據(jù)工作流知識(shí)點(diǎn)、14個(gè)數(shù)據(jù)分析與挖掘主題、4個(gè)數(shù)據(jù)化運(yùn)營主題、8個(gè)綜合性案例進(jìn)行了全面的講解,能讓數(shù)據(jù)化運(yùn)營結(jié)合數(shù)據(jù)使用場(chǎng)景360落地。
全書一共9章,分為兩個(gè)部分:
第壹部分(第1-4章) Python數(shù)據(jù)分析與挖掘
首先介紹了Python和數(shù)據(jù)化運(yùn)營的基本知識(shí),然后詳細(xì)講解了Python數(shù)據(jù)獲。ńY(jié)構(gòu)化和非結(jié)構(gòu)化)、預(yù)處理、分析和挖掘的關(guān)鍵技術(shù)和經(jīng)驗(yàn),包含10大類預(yù)處理經(jīng)驗(yàn)、14個(gè)數(shù)據(jù)分析與挖掘主題,50余個(gè)知識(shí)點(diǎn)。
第二部分(第5~9章) Python數(shù)據(jù)化運(yùn)營
這是本書的核心,詳細(xì)講解了會(huì)員運(yùn)營、商品運(yùn)營、流量運(yùn)營和內(nèi)容運(yùn)營4大主題,以及提升數(shù)據(jù)化運(yùn)營價(jià)值的方法。每個(gè)運(yùn)營主題中都包含了基本知識(shí)、評(píng)估指標(biāo)、應(yīng)用場(chǎng)景、數(shù)據(jù)分析模型、數(shù)據(jù)分析小技巧、數(shù)據(jù)分析大實(shí)話以及2個(gè)綜合性的應(yīng)用案例。
------
添加作者微信(TonySong2013)可在線獲取實(shí)時(shí)解答,同時(shí)加入本書溝通群(作者拉入群),交流更多數(shù)據(jù)工作的感悟和心得并認(rèn)識(shí)更多同行從業(yè)者;本書提供案例數(shù)據(jù)和源代碼(中文注釋)下載,供讀者實(shí)操時(shí)使用。
(1)作者是有10余年數(shù)據(jù)分析與數(shù)據(jù)化運(yùn)營經(jīng)驗(yàn)的大數(shù)據(jù)專家,在國內(nèi)外企業(yè)都工作過,經(jīng)驗(yàn)豐富。
(2)作者善于總結(jié)和寫作,樂于分享,撰寫數(shù)據(jù)分析類 暢銷書3部。
(3)本書與同類書*大的不同在于,并不只有純粹的關(guān)于數(shù)據(jù)分析技術(shù)和工具的講解,而且還與數(shù)據(jù)使用場(chǎng)景深度結(jié)合,在業(yè)務(wù)上真正可指導(dǎo)落地。
(4)新版除了Python更新到了*新版外,具體內(nèi)容上做了大幅度的補(bǔ)充和優(yōu)化,整體篇幅超過30%,詳見前言。
(5)本書作者提供微信、郵箱等,可通過實(shí)時(shí)和離線兩種方式及時(shí)為讀者在線傳道、受業(yè)、解惑。
為什么要寫這本書
隨著商業(yè)競(jìng)爭(zhēng)形勢(shì)的日益嚴(yán)峻,企業(yè)需要不斷尋找提高利潤率、降低成本、提高產(chǎn)出價(jià)值的有效方法,而數(shù)據(jù)化運(yùn)營恰好是滿足企業(yè)這一需求的關(guān)鍵武器。數(shù)據(jù)化運(yùn)營包含了運(yùn)營和數(shù)據(jù)兩種要素,前者需要較多的業(yè)務(wù)經(jīng)驗(yàn),而后者對(duì)數(shù)據(jù)分析提出了更高的要求。只有把二者結(jié)合起來,在技能、經(jīng)驗(yàn)和技術(shù)的支持下,數(shù)據(jù)化運(yùn)營才能在企業(yè)內(nèi)部真正落地、生根、發(fā)芽。
對(duì)數(shù)據(jù)化運(yùn)營而言,各企業(yè)普遍關(guān)注的結(jié)構(gòu)化數(shù)據(jù)分析、挖掘的場(chǎng)景非常豐富,例如銷售預(yù)測(cè)、會(huì)員生命周期維護(hù)、商品結(jié)構(gòu)分析等,這些普遍的共同認(rèn)知為本書提供了接地氣的基礎(chǔ)。但除了這些傳統(tǒng)內(nèi)容外,還有很多非結(jié)構(gòu)化的數(shù)據(jù)主題,它們?cè)跀?shù)據(jù)化運(yùn)營過程中的作用越來越重要,例如主題挖掘、圖片分析、文本挖掘、圖像識(shí)別、語音識(shí)別等,這些內(nèi)容拓展了數(shù)據(jù)化運(yùn)營發(fā)揮價(jià)值的場(chǎng)景基礎(chǔ)。
Python作為數(shù)據(jù)工作領(lǐng)域的關(guān)鍵武器之一,具有開源、多場(chǎng)景應(yīng)用、快速上手、完善的生態(tài)和服務(wù)體系等特征,這些特征使其在數(shù)據(jù)分析與數(shù)據(jù)化運(yùn)營的任何場(chǎng)景中都能游刃有余;即使在其為數(shù)不多的短板功能上,Python仍然可以基于膠水的特征,引入對(duì)應(yīng)的第三方工具、庫、程序等來實(shí)現(xiàn)全場(chǎng)景、全應(yīng)用的覆蓋。在海量數(shù)據(jù)背景下,Python對(duì)超大數(shù)據(jù)規(guī)模的支持性能、數(shù)據(jù)分析處理能力、建模的專業(yè)程度及開發(fā)便捷性的綜合能力方面要遠(yuǎn)遠(yuǎn)高于其他工具。因此,Python幾乎是數(shù)據(jù)化運(yùn)營工作的不二之選。
縱觀整個(gè)國內(nèi)技術(shù)書籍市場(chǎng),有關(guān)Python的書籍不少,但普遍都是基于工具層面的介紹,且側(cè)重于工具本身的方法、參數(shù)、調(diào)用、實(shí)例,與真正實(shí)踐結(jié)合的較少;而有關(guān)數(shù)據(jù)化運(yùn)營的書籍,目前市場(chǎng)上還為數(shù)不多,現(xiàn)有的數(shù)據(jù)化運(yùn)營方面的書籍大多是基于Excel等工具的入門級(jí)別的分析類書籍。因此,本書結(jié)合Python和數(shù)據(jù)化運(yùn)營兩個(gè)方面,在數(shù)據(jù)分析工作流程和數(shù)據(jù)化運(yùn)營主題結(jié)合的基礎(chǔ)上,通過指標(biāo)、模型、方法、案例配合工具的形式,詳細(xì)介紹了如何使用Python來支持?jǐn)?shù)據(jù)化運(yùn)營,尤其是傳統(tǒng)工具無法滿足的應(yīng)用場(chǎng)景。
本書第1版上市后,得到來自各行各業(yè)很多好友和讀者的支持和反饋,在此致以感謝!第2版在第1版基礎(chǔ)上做了很多優(yōu)化甚至重寫,還新增了很多內(nèi)容。
優(yōu)化以及重寫的內(nèi)容
全部代碼基于Python 3做優(yōu)化或重寫,書中的Python版本是Python 3.7。
基于Jupyter做調(diào)試、分析和應(yīng)用,更適合數(shù)據(jù)分析師的應(yīng)用場(chǎng)景,包括探索性分析、數(shù)據(jù)預(yù)處理、結(jié)果可視化展示、交互式演示等。
網(wǎng)頁數(shù)據(jù)解析中基于Class做功能封裝和處理,便于以網(wǎng)頁對(duì)象為主體的數(shù)據(jù)工作。
PIL/Pollow的替換和方法應(yīng)用介紹,多用于圖像處理工作。
第4章數(shù)據(jù)挖掘的案例部分,每一個(gè)案例都經(jīng)過重寫,并增加了很多知識(shí)點(diǎn),以實(shí)際案例為需求,實(shí)際應(yīng)用數(shù)據(jù)挖掘算法做建模和分析應(yīng)用。
Matplotlib調(diào)用3D圖形展示多個(gè)維度的信息,并可通過拖曳展示不同角度下數(shù)據(jù)的分布情況。
第5章第1個(gè)案例是RFM代碼的重構(gòu),以及針對(duì)不同分組的精細(xì)化運(yùn)營策略的制定。
第5章第2個(gè)案例是基于嵌套Pipeline和FeatureUnion復(fù)合數(shù)據(jù)工作流的營銷響應(yīng)預(yù)測(cè),并基于復(fù)合(兩層管道)的Pipeline做數(shù)據(jù)工作流管理。
第6章第2個(gè)案例是基于集成算法GBDT和RandomForest的投票組合模型的異常檢測(cè),GBDT和RandomForest是兩個(gè)典型的代表模型準(zhǔn)確度和穩(wěn)定度的算法,這種兼顧準(zhǔn)和穩(wěn)的模型搭配更符合實(shí)際需求。
第7章基于自動(dòng)節(jié)點(diǎn)樹的數(shù)據(jù)異常原因來下探分析樹形圖的內(nèi)容和可視化,優(yōu)化了代碼和樣式,可視化效果更好,并能獲得更多信息,包括維度分解過程、主因子、其他因子和潛在因子等。
新增的內(nèi)容
基于Anaconda的Python環(huán)境的安裝和配置,更方便初學(xué)者快速搭建Python應(yīng)用環(huán)境。
Jupyter基礎(chǔ)工具的用法,包括安裝、啟動(dòng)、基礎(chǔ)操作、魔術(shù)命令、新內(nèi)核安裝和使用、執(zhí)行shell命令、擴(kuò)展和插件使用、系統(tǒng)基礎(chǔ)配置等。
基于Pandas的get_dummies做標(biāo)志轉(zhuǎn)換,即OneHotEncode轉(zhuǎn)換。
特征選擇的降維中新增feature_selection配合SelectPercentile、VarianceThreshold、RFE、SelectFromModel做特征選擇。
特征轉(zhuǎn)換的降維中新增PCA、LDA、FA、ICA這幾個(gè)數(shù)據(jù)轉(zhuǎn)換和降維的具體方法。
特征組合的降維中新增基于GBDT、PolynomialFeatures、gplearn的genetic方法做組合特征。
第4章的分類算法中新增使用XGboost做分類應(yīng)用,以及配合graphviz輸出矢量圖形。
pyecharts的數(shù)據(jù)可視化的應(yīng)用和操作,尤其是關(guān)聯(lián)關(guān)系圖的應(yīng)用。
Python通過rpy2調(diào)用R程序,實(shí)現(xiàn)關(guān)聯(lián)算法的挖掘,包括直接執(zhí)行程序文件、代碼段、變量使用等。
Python通過rpy2調(diào)用auto.airma實(shí)現(xiàn)自動(dòng)ARIMA的應(yīng)用,降低Python在時(shí)間序列算法應(yīng)用時(shí)的門檻。
自動(dòng)化學(xué)習(xí):增加了對(duì)于自動(dòng)化數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)的理論、流程、知識(shí)和應(yīng)用庫介紹,并基于TPOT做自動(dòng)化回歸和分類學(xué)習(xí)案例演示。
我希望能盡自己的微薄之力,將過往所學(xué)、所感、所知提煉出來供更多人了解。如果讀者能從本書中感悟一二,我將倍感欣慰;如果讀者能將其用于工作實(shí)踐,這將是本書以及數(shù)據(jù)工作之福!
讀者對(duì)象
本書旨在提供有關(guān)數(shù)據(jù)與運(yùn)營的綜合知識(shí)的介紹和應(yīng)用,雖然基礎(chǔ)工具是Python,但本書并沒有就Python基礎(chǔ)規(guī)則和語法做詳細(xì)介紹,因此希望讀者具有一定的Python基礎(chǔ)。相信我,只要你認(rèn)真看過Python教學(xué)視頻(網(wǎng)絡(luò)上有很多),只需大概2個(gè)小時(shí)就能具備這種基礎(chǔ)。
本書對(duì)讀者的知識(shí)背景沒有特定要求,書中的內(nèi)容都盡量言簡意賅、深入淺出。本書適合以下幾類讀者閱讀:
企業(yè)運(yùn)營人員。本書的核心命題就是運(yùn)營,其中涉及會(huì)員運(yùn)營、商品運(yùn)營、流量運(yùn)營和內(nèi)容運(yùn)營四大主題,無論運(yùn)營人員希望獲得運(yùn)營知識(shí),還是希望獲得數(shù)據(jù)分析和挖掘方法,都可以從書中找到。
數(shù)據(jù)分析師。毫無疑問,數(shù)據(jù)分析師是本書的核心受眾群體之一,書中介紹的數(shù)據(jù)抽取、預(yù)處理和分析挖掘經(jīng)驗(yàn)一定能為數(shù)據(jù)分析師帶來很多不一樣的收獲,每個(gè)運(yùn)營主題下的小技巧、模型和案例更能激發(fā)數(shù)據(jù)分析師的靈感原來數(shù)據(jù)工作還能這樣做。
Python工程師。坦白講,本書不是一本專門介紹Python語法、規(guī)則的書籍。但Python作為一種萬能工具,在數(shù)據(jù)分析和挖掘領(lǐng)域具有舉足輕重的地位,對(duì)于任何一位工作領(lǐng)域中涉及數(shù)據(jù)(或大數(shù)據(jù))的Python工程師來說,本書的價(jià)值會(huì)成倍增長。書中對(duì)Python數(shù)據(jù)處理、計(jì)算和挖掘庫的應(yīng)用介紹,以及對(duì)有關(guān)工具庫的用法、注意點(diǎn)和小知識(shí)的介紹一定會(huì)使Python工程師的工作和能力更上一層樓。
數(shù)據(jù)挖掘工程師。數(shù)據(jù)分析與挖掘在實(shí)際運(yùn)營中都是不分家的,本書沒有冠以挖掘之名,但并不意味著沒有挖掘(或機(jī)器學(xué)習(xí))算法。本書第4章基本都是圍繞常用算法展開的知識(shí)介紹,其中各個(gè)算法類的大坑都是筆者多年經(jīng)驗(yàn)的總結(jié);在運(yùn)營主題的案例中幾乎都用到了算法來解決實(shí)際問題。除了基本的數(shù)據(jù)挖掘以外,本書還涉及自然語言處理、日志處理、文本挖掘、圖像處理等相關(guān)知識(shí)。
如何閱讀本書
本書內(nèi)容從邏輯上共分為兩大部分,第一部分是有關(guān)數(shù)據(jù)分析類的主題,第二部分是有關(guān)數(shù)據(jù)化運(yùn)營的主題。
第一部分包括第1~4章和附錄,主要介紹了Python和數(shù)據(jù)化運(yùn)營的基本知識(shí)、數(shù)據(jù)來源獲取、數(shù)據(jù)預(yù)處理,以及數(shù)據(jù)分析和挖掘的關(guān)鍵經(jīng)驗(yàn)。其中:
第1章是Python和數(shù)據(jù)化運(yùn)營的基本知識(shí)介紹。
第2章對(duì)傳統(tǒng)的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)來源及獲取、讀取和解析進(jìn)行了介紹,包括數(shù)據(jù)文件、數(shù)據(jù)庫、API、流式數(shù)據(jù)、外部公開數(shù)據(jù)等,也提到了如何讀取網(wǎng)頁、文本、圖片、視頻、語音等類型的數(shù)據(jù)。
第3章總結(jié)了10個(gè)有關(guān)數(shù)據(jù)化運(yùn)營過程的數(shù)據(jù)預(yù)處理經(jīng)驗(yàn),涵蓋了常見的數(shù)據(jù)清洗、標(biāo)志轉(zhuǎn)換、數(shù)據(jù)降維、樣本不均衡、數(shù)據(jù)源沖突、抽樣、共線性、相關(guān)性分析、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)離散化等內(nèi)容,并在擴(kuò)展內(nèi)容中簡單介紹了有關(guān)網(wǎng)頁、日志、圖像、自然語言的文本預(yù)處理工作,作為拓展知識(shí)閱讀。
第4章總結(jié)了數(shù)據(jù)分析、挖掘和網(wǎng)站分析方法的8個(gè)主題類,內(nèi)容涵蓋聚類、回歸、分類、關(guān)聯(lián)、異常檢測(cè)、時(shí)間序列、路徑分析、漏斗分析、歸因分析、熱力圖分析及其他統(tǒng)計(jì)分析相關(guān)話題,各個(gè)類別中都以關(guān)鍵經(jīng)驗(yàn)為基礎(chǔ),圍繞應(yīng)用誤區(qū)、注意事項(xiàng)和應(yīng)用方法展開詳細(xì)介紹。
第二部分包括第5~9章,分別介紹了會(huì)員運(yùn)營、商品運(yùn)營、流量運(yùn)營和內(nèi)容運(yùn)營四大主題,以及提升數(shù)據(jù)化運(yùn)營價(jià)值的方法。在每個(gè)數(shù)據(jù)化運(yùn)營主題中都包含了基本知識(shí)、關(guān)鍵指標(biāo)、應(yīng)用場(chǎng)景、數(shù)據(jù)分析模型、數(shù)據(jù)分析小技巧、數(shù)據(jù)分析大實(shí)話及兩個(gè)應(yīng)用案例。
基本知識(shí):有關(guān)運(yùn)營主題的基本內(nèi)涵、價(jià)值、用途等方面的介紹。
關(guān)鍵指標(biāo):運(yùn)營主題的主要評(píng)估和矩陣指標(biāo),按類別拆分和歸納。
應(yīng)用場(chǎng)景:總結(jié)數(shù)據(jù)對(duì)于運(yùn)營的價(jià)值落地在哪些場(chǎng)景中。
數(shù)據(jù)分析模型:大型的數(shù)據(jù)分析方法,包括統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、網(wǎng)站分析、數(shù)學(xué)模型。
數(shù)據(jù)分析小技巧:小型的數(shù)據(jù)分析方法,看起來相對(duì)簡單但非常有效。
數(shù)據(jù)分析大實(shí)話:有關(guān)運(yùn)營或數(shù)據(jù)分析的潛在規(guī)律的解釋及介紹。
應(yīng)用案例:每個(gè)運(yùn)營主題都包含兩個(gè)應(yīng)用案例,基本上每個(gè)案例的應(yīng)用算法和技巧都不相同,目的是呈現(xiàn)不同算法在不同場(chǎng)景下的差異化應(yīng)用。
除了以上內(nèi)容外,以下信息是對(duì)本書中涉及特定內(nèi)容的解釋和說明。
漸進(jìn)式的內(nèi)容:本書的Python代碼和實(shí)現(xiàn)部分,在不同章節(jié)可能會(huì)具有不同的代碼風(fēng)格,包括定義規(guī)則、注釋、功能實(shí)現(xiàn)等,這是因?yàn)楣P者試圖遵循循序漸進(jìn)的原則,先介紹功能實(shí)現(xiàn),然后再介紹其他的備選方案,以及規(guī)范、原則等來輔助Python的實(shí)現(xiàn)。這樣做一方面是希望盡量多地展示解決同一類問題的不同方法,讓讀者能根據(jù)自身實(shí)際情況選擇最合適的用法示例;另一方面是因?yàn),考慮到可能有很多讀者不具備較強(qiáng)的Python基礎(chǔ)知識(shí),筆者不希望一上來就讓這些讀者感覺到使用Python會(huì)受到各種條條框框的限制,從而打擊他們使用Python的信心,畢竟,能實(shí)現(xiàn)功能需求是第一位的。
內(nèi)容延伸:本書第1~4章都有內(nèi)容延伸章節(jié),其內(nèi)容是有關(guān)非結(jié)構(gòu)化主題的讀取、分析、處理。由于每個(gè)主題展開來都能寫成一本書,因此僅在內(nèi)容延伸中拋磚引玉,有興趣的讀者可以了解和學(xué)習(xí)。
相關(guān)知識(shí)點(diǎn):本書很多章節(jié)中都有相關(guān)知識(shí)點(diǎn)部分,其內(nèi)容是關(guān)于特定工具、知識(shí)、算法、庫等方面的較為詳細(xì)的介紹,充當(dāng)了本書的知識(shí)堡壘。
本章小結(jié):每章的結(jié)尾都有本章小結(jié),在小結(jié)中包含4部分內(nèi)容。
內(nèi)容小結(jié):有關(guān)本章內(nèi)容
作者簡介
宋天龍(TonySong)
大數(shù)據(jù)技術(shù)專家,觸脈咨詢合伙人兼副總裁,前Webtrekk中國區(qū)技術(shù)和咨詢負(fù)責(zé)人(Webtrekk,德國*大的在線數(shù)據(jù)分析服務(wù)提供商)。
擅長數(shù)據(jù)挖掘、建模、分析與運(yùn)營,精通端到端數(shù)據(jù)價(jià)值場(chǎng)景設(shè)計(jì)、業(yè)務(wù)需求轉(zhuǎn)換、數(shù)據(jù)結(jié)構(gòu)梳理、數(shù)據(jù)建模與學(xué)習(xí)以及數(shù)據(jù)工程交付。在電子商務(wù)、零售、銀行、保險(xiǎn)等多個(gè)行業(yè)擁有豐富的數(shù)據(jù)項(xiàng)目工作經(jīng)驗(yàn),參與過集團(tuán)和企業(yè)級(jí)數(shù)據(jù)體系規(guī)劃、DMP與數(shù)據(jù)倉庫建設(shè)、大數(shù)據(jù)產(chǎn)品開發(fā)、網(wǎng)站流量系統(tǒng)建設(shè)、個(gè)性化智能推薦與精準(zhǔn)營銷、企業(yè)大數(shù)據(jù)智能等。參與實(shí)施客戶案例包括聯(lián)合利華、Webpower、德國OTTO集團(tuán)電子商務(wù)(中國)、Esprit中國、豬八戒網(wǎng)、順豐優(yōu)選、樂視商城、泰康人壽、酒仙網(wǎng)、國美在線、迪信通等。
著有多部暢銷書:
《Python數(shù)據(jù)分析與數(shù)據(jù)化運(yùn)營》
《網(wǎng)站數(shù)據(jù)挖掘與分析:系統(tǒng)方法與商業(yè)實(shí)踐》
《企業(yè)大數(shù)據(jù)系統(tǒng)構(gòu)建實(shí)戰(zhàn):技術(shù)、架構(gòu)、實(shí)施與應(yīng)用》
前言
第1章 Python和數(shù)據(jù)化運(yùn)營1
1.1 用Python做數(shù)據(jù)化運(yùn)營1
1.1.1 Python是什么1
1.1.2 數(shù)據(jù)化運(yùn)營是什么2
1.1.3 Python用于數(shù)據(jù)化運(yùn)營5
1.2 數(shù)據(jù)化運(yùn)營所需的Python相關(guān)工具和組件5
1.2.1 Python程序6
1.2.2 Python交互環(huán)境Jupyter7
1.2.3 Python第三方庫23
1.2.4 數(shù)據(jù)庫和客戶端29
1.2.5 SSH遠(yuǎn)程客戶端30
1.3 內(nèi)容延伸:Python的OCR和tensorflow31
1.3.1 OCR工具:Tesseract-ocr31
1.3.2 機(jī)器學(xué)習(xí)框架:TensorFlow31
1.4 第1個(gè)用Python實(shí)現(xiàn)的數(shù)據(jù)化運(yùn)營分析實(shí)例、銷售預(yù)測(cè)32
1.4.1 案例概述32
1.4.2 案例過程32
1.4.3 案例小結(jié)36
1.5 本章小結(jié)37
第2章 數(shù)據(jù)化運(yùn)營的數(shù)據(jù)來源40
2.1 數(shù)據(jù)化運(yùn)營的數(shù)據(jù)來源類型40
2.1.1 數(shù)據(jù)文件40
2.1.2 數(shù)據(jù)庫41
2.1.3 API42
2.1.4 流式數(shù)據(jù)43
2.1.5 外部公開數(shù)據(jù)43
2.1.6 其他來源44
2.2 使用Python獲取運(yùn)營數(shù)據(jù)44
2.2.1 從文本文件讀取運(yùn)營數(shù)據(jù)44
2.2.2 從Excel獲取運(yùn)營數(shù)據(jù)55
2.2.3 從關(guān)系型數(shù)據(jù)庫MySQL讀取運(yùn)營數(shù)據(jù)57
2.2.4 從非關(guān)系型數(shù)據(jù)庫MongoDB讀取運(yùn)營數(shù)據(jù)64
2.2.5 從API獲取運(yùn)營數(shù)據(jù)68
2.3 內(nèi)容延伸:讀取非結(jié)構(gòu)化網(wǎng)頁、文本、圖像、視頻、語音72
2.3.1 從網(wǎng)頁中獲取運(yùn)營數(shù)據(jù)72
2.3.2 讀取非結(jié)構(gòu)化文本數(shù)據(jù)73
2.3.3 讀取圖像數(shù)據(jù)74
2.3.4 讀取視頻數(shù)據(jù)78
2.3.5 讀取語音數(shù)據(jù)81
2.4 本章小結(jié)85
第3章 10條數(shù)據(jù)化運(yùn)營不得不知道的數(shù)據(jù)預(yù)處理經(jīng)驗(yàn)87
3.1 數(shù)據(jù)清洗:缺失值、異常值和重復(fù)值的處理87
3.1.1 數(shù)據(jù)列缺失的4種處理方法87
3.1.2 不要輕易拋棄異常數(shù)據(jù)89
3.1.3 數(shù)據(jù)重復(fù)就需要去重嗎90
3.1.4 代碼實(shí)操:Python數(shù)據(jù)清洗92
3.2 將分類數(shù)據(jù)和順序數(shù)據(jù)轉(zhuǎn)換為標(biāo)志變量100
3.2.1 分類數(shù)據(jù)和順序數(shù)據(jù)是什么100
3.2.2 運(yùn)用標(biāo)志方法處理分類和順序變量101
3.2.3 代碼實(shí)操:Python標(biāo)志轉(zhuǎn)換101
3.3 大數(shù)據(jù)時(shí)代的數(shù)據(jù)降維104
3.3.1 需要數(shù)據(jù)降維的情況104
3.3.2 基于特征選擇的降維105
3.3.3 基于特征轉(zhuǎn)換的降維106
3.3.4 基于特征組合的降維112
3.3.5 代碼實(shí)操:Python數(shù)據(jù)降維114
3.4 解決樣本類別分布不均衡的問題123
3.4.1 哪些運(yùn)營場(chǎng)景中容易出現(xiàn)樣本不均衡124
3.4.2 通過過抽樣和欠抽樣解決樣本不均衡124
3.4.3 通過正負(fù)樣本的懲罰權(quán)重解決樣本不均衡124
3.4.4 通過組合/集成方法解決樣本不均衡125
3.4.5 通過特征選擇解決樣本不均衡125
3.4.6 代碼實(shí)操:Python處理樣本不均衡125
3.5 數(shù)據(jù)化運(yùn)營要抽樣還是全量數(shù)據(jù)128
3.5.1 什么時(shí)候需要抽樣128
3.5.2 如何進(jìn)行抽樣129
3.5.3 抽樣需要注意的幾個(gè)問題130
3.5.4 代碼實(shí)操:Python數(shù)據(jù)抽樣131
3.6 解決運(yùn)營數(shù)據(jù)的共線性問題135
3.6.1 如何檢驗(yàn)共線性135
3.6.2 解決共線性的5種常用方法136
3.6.3 代碼實(shí)操:Python處理共線性問題137
3.7 有關(guān)相關(guān)性分析的混沌139
3.7.1 相關(guān)和因果是一回事嗎139
3.7.2 相關(guān)系數(shù)低就是不相關(guān)嗎139
3.7.3 代碼實(shí)操:Python相關(guān)性分析140
3.8 標(biāo)準(zhǔn)化,讓運(yùn)營數(shù)據(jù)落入相同的范圍141
3.8.1 實(shí)現(xiàn)中心化和正態(tài)分布的Z-Score141
3.8.2 實(shí)現(xiàn)歸一化的Max-Min142
3.8.3 用于稀疏數(shù)據(jù)的MaxAbs142
3.8.4 針對(duì)離群點(diǎn)的RobustScaler142
3.8.5 代碼實(shí)操:Python數(shù)據(jù)標(biāo)準(zhǔn)化處理142
3.9 離散化,對(duì)運(yùn)營數(shù)據(jù)做邏輯分層145
3.9.1 針對(duì)時(shí)間數(shù)據(jù)的離散化145
3.9.2 針對(duì)多值離散數(shù)據(jù)的離散化146
3.9.3 針對(duì)連續(xù)數(shù)據(jù)的離散化146
3.9.4 針對(duì)連續(xù)數(shù)據(jù)的二值化147
3.9.5 代碼實(shí)操:Python數(shù)據(jù)離散化處理147
3.10 內(nèi)容延伸:非結(jié)構(gòu)化數(shù)據(jù)的預(yù)處理151
3.10.1 網(wǎng)頁數(shù)據(jù)解析151
3.10.2 網(wǎng)絡(luò)用戶日志解析159
3.10.3 圖像的基本預(yù)處理164
3.10.4 自然語言文本預(yù)處理169
3.11 本章小結(jié)172
第4章 跳過運(yùn)營數(shù)據(jù)分析和挖掘的大坑174
4.1 聚類分析174
4.1.1 當(dāng)心數(shù)據(jù)異常對(duì)聚類結(jié)果的影響175
4.1.2 超大數(shù)據(jù)量時(shí)應(yīng)該放棄K均值算法175
4.1.3 聚類不僅是建模的終點(diǎn),更是重要的中間預(yù)處理過程177
4.1.4 高維數(shù)據(jù)上無法應(yīng)用聚類嗎178
4.1.5 如何選擇聚類分析算法179
4.1.6 案例:客戶特征的聚類與探索性分析179
4.2 回歸分析196
4.2.1 注意回歸自變量之間的共線性問題197
4.2.2 相關(guān)系數(shù)、判定系數(shù)和回歸系數(shù)之間是什么關(guān)系197
4.2.3 判定系數(shù)是否意味著相應(yīng)的因果聯(lián)系197
4.2.4 注意應(yīng)用回歸模型時(shí)研究自變量是否產(chǎn)生變化198
4.2.5 如何選擇回歸分析算法198
4.2.6 案例:大型促銷活動(dòng)前的銷售預(yù)測(cè)199
4.3 分類分析206
4.3.1 防止分類模型的過擬合問題207
4.3.2 使用關(guān)聯(lián)算法做分類分析207
4.3.3 用分類分析來提煉規(guī)則、提取變量、處理缺失值208
4.3.4 類別劃分:分類算法和聚類算法都是好手209
4.3.5 如何選擇分類分析算法210
4.3.6 案例:用戶流失預(yù)測(cè)分析與應(yīng)用210
4.4 關(guān)聯(lián)分析221
4.4.1 頻繁規(guī)則不一定是有效規(guī)則221
4.4.2 不要被啤酒尿布的故事禁錮你的思維222
4.4.3 被忽略的負(fù)相關(guān)模式真的毫無用武之地嗎223
4.4.4 頻繁規(guī)則只能打包組合應(yīng)用嗎2