前 言
當(dāng)一個觀點不能被洞察和理解時,這種觀點就會變得危險。
—馬歇爾·麥克盧漢
本書是為產(chǎn)品分析從業(yè)者設(shè)計的一本從業(yè)指南,主要講解如何基于消費者數(shù)據(jù)生成可實踐的洞見。這些“可實踐的洞見”源自曾經(jīng)在Web產(chǎn)品、移動產(chǎn)品或整個組織中驅(qū)動過變革的實踐。很多組織都曾從其Web產(chǎn)品或內(nèi)部組織獲得了TB級的用戶數(shù)據(jù),然而這些數(shù)據(jù)都未曾被使用過。怎樣使用這些數(shù)據(jù)促進(jìn)用戶增長,增加收入,提升用戶參與度并提高組織效率,組織并沒有認(rèn)真思考過。
本書將教你逐步地從用戶數(shù)據(jù)中收獲洞見。通過精心分析基于用戶數(shù)據(jù)理論曲線構(gòu)建的高峰和低谷,觀察不同實驗設(shè)計產(chǎn)生的實驗效果,再在復(fù)雜的開發(fā)模式上實現(xiàn),最終將這些結(jié)果轉(zhuǎn)化為可實踐的洞見。本書是一個產(chǎn)品數(shù)據(jù)科學(xué)工具包的入門級教程。
數(shù)據(jù)科學(xué)是一個多學(xué)科交叉領(lǐng)域,其目標(biāo)就是從數(shù)據(jù)中收獲洞見。數(shù)據(jù)科學(xué)產(chǎn)品的重心是利用用戶數(shù)據(jù)來驅(qū)動產(chǎn)品和組織變革,以實現(xiàn)核心業(yè)務(wù)目標(biāo)。它強調(diào)使用先進(jìn)的分析策略來理解用戶并改變用戶,從而幫助初創(chuàng)企業(yè)和大型公司構(gòu)建符合市場的產(chǎn)品,并超額完成銷售目標(biāo)。注意,本書不涉及其他數(shù)據(jù)科學(xué)工作流程,例如構(gòu)建可擴展的推薦系統(tǒng)、計算機視覺和圖像識別或其他類型的應(yīng)用程序。
數(shù)據(jù)科學(xué)中涉及的分析數(shù)據(jù)來源非常多。通常情況下,這些數(shù)據(jù)可能是來自Web產(chǎn)品的用戶數(shù)據(jù),也可能是電子郵件或郵寄廣告類的數(shù)據(jù)、調(diào)查數(shù)據(jù)、公司內(nèi)部數(shù)據(jù)或營銷綜合數(shù)據(jù),還可能是人口統(tǒng)計或普查數(shù)據(jù),以及各種其他類型的數(shù)據(jù)等。
讀者對象
本書的目標(biāo)讀者包括企業(yè)家、數(shù)據(jù)科學(xué)家、分析師,以及所有利用用戶數(shù)據(jù)來推動Web產(chǎn)品或移動產(chǎn)品的用戶增長、收入增加、效率或用戶參與度提高的從業(yè)人員。如果你想成為產(chǎn)品數(shù)據(jù)科學(xué)家、產(chǎn)品數(shù)據(jù)分析師、建立企業(yè)網(wǎng)站或Web產(chǎn)品的企業(yè)家,又或者對處理Web上可用的TB級行為數(shù)據(jù)感興趣,那么這本書很適合你。這本書是為從業(yè)者編寫的,不適合學(xué)術(shù)讀者。如果你想了解現(xiàn)實世界中的產(chǎn)品數(shù)據(jù),那么本書就再合適不過了。
產(chǎn)品數(shù)據(jù)科學(xué)要從用戶行為中獲取洞見,這依賴于多門學(xué)科知識。雖然分析工具包更現(xiàn)代化,但它仍然依賴計算方法和統(tǒng)計方法,會涉及一些新的機器學(xué)習(xí)和因果推斷技術(shù)。在過去的400年,社會科學(xué)家一直在研究人類行為,“可實踐的洞見”還需要充分整合社會科學(xué)方法和分析工具才能得以生成。
通常,從業(yè)人員只使用一種工具包,不會同時使用多個工具包。許多數(shù)據(jù)科學(xué)家精通最新的機器學(xué)習(xí)技術(shù),但是缺乏用戶專業(yè)知識和定性技能,導(dǎo)致不能使用這些技術(shù)從用戶數(shù)據(jù)中提取“可實踐的洞見”。當(dāng)面臨開發(fā)大量社會過程理論和將概念落實到具體實踐時,他們常常會陷入困境。
相比之下,許多對人類行為有充分了解的用戶專家,由于缺乏統(tǒng)計和機器學(xué)習(xí)的知識,因此無法充分測試他們的想法和模型數(shù)據(jù)。本書的目標(biāo)是為主題專家和機器學(xué)習(xí)專家架起一座橋梁,將主題專家的上下文洞察力與機器學(xué)習(xí)專家的復(fù)雜方法相結(jié)合,從而在Web或移動分析領(lǐng)域生成有意義的洞見。
本書內(nèi)容
本書結(jié)合Web分析領(lǐng)域的實際案例介紹 :
如何像社會科學(xué)家一樣思考,將社會環(huán)境中的個人行為情景化,探索人類行為的發(fā)展方式,并為改變行為創(chuàng)造條件;
如何為Web產(chǎn)品定制核心指標(biāo)和用戶分析的關(guān)鍵績效指標(biāo);
如何理解統(tǒng)計推斷、相關(guān)性和因果關(guān)系間的差異,以及在何時應(yīng)用這些技術(shù);
如何進(jìn)行更有效的A/B 測試;
如何構(gòu)建直觀的預(yù)測模型,幫助捕獲產(chǎn)品中的用戶行為;
如何使用準(zhǔn)實驗設(shè)計技術(shù)和統(tǒng)計匹配技術(shù),從觀察數(shù)據(jù)中梳理出因果關(guān)系;
如何實施復(fù)雜的目標(biāo)定位方法,例如針對營銷活動的增益建模;
如何使用高級人口預(yù)測方法,預(yù)測業(yè)務(wù)成本和人口子群體之間的變化關(guān)系。
本書主題
本書包含3個主題:
(1)將社會學(xué)、心理學(xué)和人口統(tǒng)計學(xué)的定性工具與統(tǒng)計學(xué)、機器學(xué)習(xí)和計算機科學(xué)的定量工具進(jìn)行整合,應(yīng)用于Web分析領(lǐng)域。
(2)因果推斷(不是預(yù)測)方法,它對于改變?nèi)祟愋袨椴豢苫蛉薄?br />
(3)以非數(shù)學(xué)解釋和R語言演示應(yīng)用程序的方式討論機器學(xué)習(xí)和因果推斷主題。因為這些領(lǐng)域的大多數(shù)著作都不是為從業(yè)者編寫的。
主題1:定性工具與定量工具
第一個主題是本書的核心。該部分的目標(biāo)不僅是為讀者提供分析工具,還為讀者提供應(yīng)用這些分析工具和示例所需的資源。這些工具和示例最適合用于Web應(yīng)用程序。數(shù)據(jù)科學(xué)或機器學(xué)習(xí)領(lǐng)域中的許多書籍都只是簡單地介紹了底層算法。盡管這些算法確實發(fā)揮了重要的作用,但我的腦海不禁浮現(xiàn)出“垃圾進(jìn),垃圾出”這句話。沒有適當(dāng)?shù)臄?shù)據(jù),算法將毫無用處。將錯誤的算法應(yīng)用于錯誤的問題可能會導(dǎo)致一大堆問題。
要正確應(yīng)用算法或設(shè)計實驗,我們需要回顧一下整個過程:理論構(gòu)建、概念化、操作化、指標(biāo)構(gòu)建、假設(shè)檢驗、證偽等。我們可以使用大量定性工具來準(zhǔn)確地模擬人類行為和社會過程。如果不使用這些工具,就會丟失大量的信息、細(xì)微差別和洞見,還可能完全誤解用戶在我們的Web產(chǎn)品中的行為。第1~3章主要向讀者介紹那些用來理解和建模用戶行為的定性工具。
獲得可實踐的洞見需要了解上下文和每個變量中存儲的信息。如果無法清楚地將概念想法與分析結(jié)果關(guān)聯(lián)起來,那么什么結(jié)論也獲取不到。我的一個好朋友擁有物理學(xué)博士學(xué)位,他目前在一家女裝公司擔(dān)任數(shù)據(jù)科學(xué)家,正好面臨這樣的情況。他熱愛物理學(xué),也喜歡將物理學(xué)算法應(yīng)用于各種數(shù)據(jù)集,但他很難將結(jié)果與具體的商業(yè)環(huán)境聯(lián)系起來。我經(jīng)常會問他對女裝業(yè)務(wù)有何見解,但他總是回答說,他通過“一些極其復(fù)雜的調(diào)整”應(yīng)用了最新的“ X”模型。盡管將復(fù)雜的、經(jīng)過優(yōu)化的算法應(yīng)用于正確的上下文非常棒,但這些算法也有可能被應(yīng)用于錯誤的數(shù)據(jù)集,還可能被人們用來掩蓋自己對于某個主題缺乏真正洞見的事實。
“可實踐的洞見”實際上并不依賴于人們是否使用最新的算法。通常來說,好的算法的確能稍微改善結(jié)果,但是一旦使用錯誤的數(shù)據(jù),獲得有價值洞見的希望將會徹底破滅。還有一個問題是人們對準(zhǔn)確數(shù)據(jù)的誤解,這在行業(yè)中非常普遍。
因此,在開始數(shù)據(jù)分析之前,選一個好的定性方法是非常重要的,這樣就可以避免以
“垃圾出”告終。不過,由于原始數(shù)據(jù)通常不容易被記錄,因此由變量測量或統(tǒng)計的內(nèi)容就很容易被誤解。我們必須準(zhǔn)確理解用戶采取哪些必要步驟才能獲得特定變量,以及用戶完成哪些操作后才能獲得特定的變量結(jié)果。如果用變量代表一個概念復(fù)雜的想法,那么這個變量實際上測量的是這個概念的哪些部分呢?適當(dāng)?shù)鼐邆湎嚓P(guān)的理論知識和正確的定性框架知識,便能對數(shù)據(jù)進(jìn)行更合理的解釋和更正確的使用。
主題2:因果推斷
第二個主題更偏重于因果推斷,而不是預(yù)測。許多數(shù)據(jù)科學(xué)書籍都專注于預(yù)測算法。本書提供了由以下算法組成的基本預(yù)測工具包:k均值、主成分分析(PCA)、線性回歸、邏輯回歸、決策樹、支持向量機以及一些時間序列建模技術(shù)。更高級的主題(例如雙重差分模型、統(tǒng)計匹配和增益模型)都與因果推斷相關(guān)。
不過,我們在第9章中提到了先進(jìn)預(yù)測技術(shù),即人口統(tǒng)計學(xué)中的人口預(yù)測技術(shù)。在第9章中,我們通過一種比較新穎的方式使用預(yù)測建模技術(shù)來創(chuàng)建更好的核心用戶指標(biāo)(例如留存指標(biāo)),以此了解Web產(chǎn)品中不同子群體的變化,從而預(yù)測未來用戶的變化。通常,對于用戶行為的分析,因果推斷優(yōu)于預(yù)測。
主題3:產(chǎn)品分析的入門指南
之所以撰寫這本書,是因為我發(fā)現(xiàn)大多數(shù)有關(guān)數(shù)據(jù)科學(xué)、因果推斷統(tǒng)計或人口統(tǒng)計學(xué)的書籍都非常學(xué)術(shù)化,需要很強的論證思維。盡管這些知識在某些情況下很重要,但是這超出了普通人在數(shù)學(xué)領(lǐng)域的認(rèn)知。因果推斷工具的使用大多數(shù)時候不需要過多的數(shù)學(xué)知識,在對R語言不了解的情況下,也可以非常容易地使用。統(tǒng)計數(shù)據(jù)科學(xué)和因果推斷工具在許多業(yè)務(wù)環(huán)境中都很有用,但由于缺乏數(shù)學(xué)領(lǐng)域的復(fù)雜知識,往往無法在實際中應(yīng)用。
本書的目標(biāo)就是讓所有完成高中數(shù)學(xué)和統(tǒng)計學(xué)的人都可以學(xué)習(xí)和掌握數(shù)據(jù)分析的方法。這可能有些樂觀,因為某些主題(例如統(tǒng)計匹配、增益建模和人口預(yù)測)在數(shù)學(xué)上的確非常復(fù)雜。所以,我們首先要使它們在概念上易于理解。數(shù)學(xué)知識比較缺乏的讀者需要先了解一些算法的工作原理和應(yīng)用場景。閱讀本書后,讀者需要找到符合設(shè)計或者能應(yīng)用到自己的特定案例的模型來進(jìn)行練習(xí)。在確定正確的設(shè)置和算法后,讀者應(yīng)該能夠在 R中運行自己的分析程序。本書的核心目標(biāo)是向讀者介紹這些算法的工作原理,在哪些情況下應(yīng)該在用戶或Web分析上下文中應(yīng)用特定的算法,以及可以應(yīng)用 R 中的哪些工具來獲得正在尋找的答案。
在本書中,我們很少使用數(shù)學(xué)符號,因為這會讓很多讀者沒有閱讀下去的興趣。第1~6章將盡可能少地使用數(shù)學(xué)符號,只從文字上描述一下方程式。第6章之后可能會依賴一些數(shù)學(xué)素材,所以隨后的章節(jié)將偶爾使用數(shù)學(xué)符號。
本書結(jié)構(gòu)
本書的目標(biāo)是更好地建模、理解和改變Web產(chǎn)品和移動產(chǎn)品中的用戶行為。本書將按如下結(jié)構(gòu)分五大部分進(jìn)行闡述 :
第1~3章講解用來建模用戶行為的定性工具及理論;
第4~6章介紹入門級的產(chǎn)品分析中的統(tǒng)計方法;
第 7~9 章探討預(yù)測建模和預(yù)測方法;
第 10~13 章介紹真實世界中數(shù)據(jù)的因果推斷方法;
第 14~16 章用R實現(xiàn)定量方法。
第 1 章是一個介紹性章節(jié),通過晚宴的比喻向讀者闡述不利于理解用戶行為的常見陷阱,例如將社交數(shù)據(jù)視為一個“過程”而不是一個問題。社交數(shù)據(jù)往往信息非常不完整,沒有明確的結(jié)果,而且還有大量相互關(guān)聯(lián)的變量,是一個容易被擾亂的系統(tǒng),因此我們很難推斷因果關(guān)系。
第2章回顧科學(xué)方法,并介紹量化人類行為的社會學(xué)工具。在探索概念化想法的同時,我們也在思考“量化”這個詞,包括它代表著什么,以及在量化過程中會丟失什么。當(dāng)今,一切量化都在朝著指標(biāo)發(fā)展。人們嘗試用一些定量指標(biāo)來替換復(fù)雜的定性指標(biāo),這是一件非常困難的事情,因為這些指標(biāo)很少能捕捉到原始人類在探索過程中的一些高級行為或一些出乎專家預(yù)料的復(fù)雜行為。從業(yè)者很少深入研究所使用指標(biāo)的缺點,這導(dǎo)致了更多的誤導(dǎo)策略。
第 3 章介紹人類行為改變。用戶分析已從人口統(tǒng)計分析的形式轉(zhuǎn)變?yōu)楦鼜?fù)雜的形式,即在Web產(chǎn)品中定位用戶和改變