這是一本將數(shù)據(jù)科學(xué)三要素商業(yè)理解、量化模型、數(shù)據(jù)技術(shù)全面打通的實(shí)戰(zhàn)性著作,是來(lái)自騰訊、滴滴、快手等一線互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師和算法工程師的經(jīng)驗(yàn)總結(jié),得到了SQLFlow創(chuàng)始人以及騰訊、網(wǎng)易、快手、貝殼找房、谷歌等企業(yè)的專(zhuān)家一致好評(píng)和推薦。
全書(shū)三個(gè)部分,內(nèi)容相對(duì)獨(dú)立,既能幫助初學(xué)者建立知識(shí)體系,又能幫助從業(yè)者解決商業(yè)中的實(shí)際問(wèn)題,還能幫助有經(jīng)驗(yàn)的專(zhuān)家快速掌握數(shù)據(jù)科學(xué)的技術(shù)和發(fā)展動(dòng)向。內(nèi)容圍繞非實(shí)驗(yàn)環(huán)境下的觀測(cè)數(shù)據(jù)的分析、實(shí)驗(yàn)的設(shè)計(jì)和分析、自助式數(shù)據(jù)科學(xué)平臺(tái)3大主題展開(kāi),涉及統(tǒng)計(jì)學(xué)、經(jīng)濟(jì)學(xué)、機(jī)器學(xué)習(xí)、實(shí)驗(yàn)科學(xué)等多個(gè)領(lǐng)域,包含大量常用的數(shù)據(jù)科學(xué)方法、簡(jiǎn)潔的代碼實(shí)現(xiàn)和經(jīng)典的實(shí)戰(zhàn)案例。
部分(第 1~6 章) 觀測(cè)數(shù)據(jù)的分析技術(shù)
講解了非實(shí)驗(yàn)環(huán)境下不同觀測(cè)數(shù)據(jù)分析場(chǎng)景所對(duì)應(yīng)的分析框架、原理及實(shí)際操作,包括消費(fèi)者選擇偏好分析、消費(fèi)者在時(shí)間維度上的行為分析、基于機(jī)器學(xué)習(xí)的用戶(hù)生命周期價(jià)值預(yù)測(cè)、基于可解釋模型技術(shù)的商業(yè)場(chǎng)景挖掘、基于矩陣分解技術(shù)的用戶(hù)行為規(guī)律發(fā)現(xiàn)與挖掘,以及在不能進(jìn)行實(shí)驗(yàn)分析時(shí)如何更科學(xué)地進(jìn)行全量評(píng)估等內(nèi)容。
第二部分(第7~9章)實(shí)驗(yàn)設(shè)計(jì)和分析技術(shù)
從 A/B 實(shí)驗(yàn)的基本原理出發(fā),深入淺出地介紹了各種商業(yè)場(chǎng)景下進(jìn)行實(shí)驗(yàn)設(shè)計(jì)需要參考的原則和運(yùn)用的方法,尤其是在有樣本量約束條件下提升實(shí)驗(yàn)效能的方法及商業(yè)場(chǎng)景限制導(dǎo)致的非傳統(tǒng)實(shí)驗(yàn)設(shè)計(jì)。
第三部分(第10~12章) 自助式數(shù)據(jù)科學(xué)平臺(tái)SQLFlow
針對(duì)性的講解了開(kāi)源的工程化的自助式數(shù)據(jù)科學(xué)平臺(tái)SQLFlow,并通過(guò)系統(tǒng)配置、黑盒模型的解讀器應(yīng)用、聚類(lèi)分析場(chǎng)景等案例幫助讀者快速了解這一面向未來(lái)的數(shù)據(jù)科學(xué)技術(shù)。
(1)豪華作者陣容:作者全部是自騰訊、滴滴、快手等一線互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師和算法工程師,經(jīng)驗(yàn)極為豐富。
(2)三維度深融合:將數(shù)據(jù)科學(xué)的3個(gè)維度商業(yè)理解、量化模型、數(shù)據(jù)技術(shù)全面打通,涵蓋數(shù)據(jù)科學(xué)的應(yīng)用場(chǎng)景、理論支撐和技術(shù)底座。
(3)應(yīng)用場(chǎng)景面廣:本書(shū)所有數(shù)據(jù)科學(xué)應(yīng)用場(chǎng)景均來(lái)自商業(yè)環(huán)境,強(qiáng)調(diào)實(shí)用、可操作性強(qiáng)。
(4)方法論與案例:圍繞3大主題給出了大量方法論和實(shí)踐,方法論與案例的背景、代碼、解讀等模塊深度融合。
為什么要寫(xiě)這本書(shū)
2011年,《哈佛商業(yè)評(píng)論》將數(shù)據(jù)科學(xué)稱(chēng)作21世紀(jì)吸引人的行業(yè),隨后,數(shù)據(jù)科學(xué)這個(gè)概念開(kāi)始從互聯(lián)網(wǎng)漫延到各行各業(yè)。但是人們對(duì)這個(gè)概念的內(nèi)涵和外延并無(wú)統(tǒng)一的認(rèn)知,同時(shí),數(shù)據(jù)科學(xué)也不像軟件工程、市場(chǎng)營(yíng)銷(xiāo)等方向有較為明確的教育體系作為支撐,開(kāi)設(shè)數(shù)據(jù)科學(xué)學(xué)科和課程的學(xué)校都是2011年之后才開(kāi)始探索的,并且大多沒(méi)有一個(gè)適用于工業(yè)應(yīng)用的課程體系。從業(yè)人員普遍反映需要一個(gè)系統(tǒng)的框架來(lái)搭建自己的技術(shù)棧和知識(shí)體系,從而提升專(zhuān)業(yè)化的能力。因此,市場(chǎng)上迫切需要一本覆蓋面廣、應(yīng)用性強(qiáng)、深入淺出的數(shù)據(jù)科學(xué)手冊(cè)。
本書(shū)的作者是國(guó)內(nèi)數(shù)據(jù)科學(xué)一線的從業(yè)者,創(chuàng)作目的主要有以下三個(gè)。
1)提供一個(gè)以商業(yè)場(chǎng)景為導(dǎo)向的實(shí)用量化方法論。數(shù)據(jù)科學(xué)是為商業(yè)服務(wù)的,重要的能力是收斂開(kāi)放的商業(yè)問(wèn)題,并有針對(duì)性地選擇適當(dāng)?shù)牧炕蚣苓M(jìn)行后驗(yàn)數(shù)據(jù)分析。這是一個(gè)相輔相成的過(guò)程,收斂的過(guò)程既依賴(lài)對(duì)業(yè)務(wù)的深刻理解,又需要充分理解各種分析框架的假設(shè)和抽象原理。
2)提供一個(gè)入門(mén)的臺(tái)階,供讀者按圖索驥、深入研究。數(shù)據(jù)科學(xué)領(lǐng)域知識(shí)面廣,又有一定的深度,需要長(zhǎng)期的學(xué)習(xí)和經(jīng)驗(yàn)的積累。一本書(shū)很難涵蓋數(shù)據(jù)科學(xué)的所有知識(shí)點(diǎn),但是本書(shū)可以點(diǎn)明關(guān)鍵節(jié)點(diǎn),起到引導(dǎo)作用,幫助讀者進(jìn)行后續(xù)的進(jìn)階學(xué)習(xí)。
3)展示數(shù)據(jù)科學(xué)所需的專(zhuān)業(yè)能力和門(mén)檻,為讀者在求職過(guò)程中找準(zhǔn)定位、為人事部門(mén)進(jìn)行職能設(shè)計(jì)提供范例。現(xiàn)在數(shù)據(jù)科學(xué)領(lǐng)域的就業(yè)和招聘十分熱門(mén),但是能說(shuō)清數(shù)據(jù)科學(xué)專(zhuān)家到底需要什么樣的技能、需要達(dá)到什么樣的程度,以及這個(gè)行業(yè)有什么典型成功案例的人卻非常少。
讀者對(duì)象
本書(shū)適合以下讀者:
初入職場(chǎng)的數(shù)據(jù)分析師,用于升級(jí)個(gè)人專(zhuān)業(yè)分析技能;
從業(yè)多年的數(shù)據(jù)科學(xué)管理者,用于梳理、整合知識(shí)體系,提升團(tuán)隊(duì)能力;
數(shù)據(jù)科學(xué)、商業(yè)分析等專(zhuān)業(yè)的師生,用于延展閱讀;
數(shù)據(jù)科學(xué)行業(yè)的人力專(zhuān)家和獵頭,用于標(biāo)定潛在候選人能力。
本書(shū)特色
相比于市面上其他數(shù)據(jù)科學(xué)相關(guān)圖書(shū),本書(shū)有以下特色。
1)將技術(shù)與商業(yè)場(chǎng)景緊密結(jié)合,強(qiáng)調(diào)開(kāi)放性商業(yè)問(wèn)題在量化分析上的收斂。市場(chǎng)上不乏純技術(shù)類(lèi)的數(shù)據(jù)科學(xué)圖書(shū)和各種機(jī)器學(xué)習(xí)建模、統(tǒng)計(jì)計(jì)算的圖書(shū),但是這些書(shū)都跳過(guò)了對(duì)開(kāi)放式商業(yè)問(wèn)題的思考,直接針對(duì)已經(jīng)非常明確的建模本身進(jìn)行介紹。本書(shū)則將重心放在案例分析的全流程上,既講解量化模型的理論,又解釋商業(yè)到數(shù)理模型的映射過(guò)程,還強(qiáng)調(diào)了對(duì)模型結(jié)果的解讀和應(yīng)用,實(shí)用性非常強(qiáng)。
2)這是國(guó)內(nèi)本系統(tǒng)介紹統(tǒng)計(jì)實(shí)驗(yàn)在多種復(fù)雜商業(yè)場(chǎng)景下具體應(yīng)用的書(shū)。統(tǒng)計(jì)實(shí)驗(yàn)相關(guān)的圖書(shū)通常分為三類(lèi):類(lèi)側(cè)重理論研究,對(duì)于已經(jīng)工作的讀者來(lái)說(shuō)實(shí)踐意義不大,且學(xué)習(xí)難度高;第二類(lèi)是將生物醫(yī)學(xué)領(lǐng)域的理論和案例相結(jié)合,這類(lèi)書(shū)的應(yīng)用場(chǎng)景和背景與互聯(lián)網(wǎng)行業(yè)相差較大,不容易做到舉一反三;第三類(lèi)是少部分互聯(lián)網(wǎng)領(lǐng)域統(tǒng)計(jì)實(shí)驗(yàn)的書(shū),這類(lèi)書(shū)多是外文,知識(shí)較新,閱讀門(mén)檻較高,通常針對(duì)互聯(lián)網(wǎng)廣告和搜索領(lǐng)域,在不理解理論背景的情況下也難以遷移到其他場(chǎng)景。
3)本書(shū)應(yīng)用場(chǎng)景覆蓋面廣,強(qiáng)調(diào)實(shí)用,可操作性強(qiáng),將方法論與配套案例的背景、代碼、解讀等模塊結(jié)合在一起,讓讀者學(xué)習(xí)后即可運(yùn)用在實(shí)踐中。
如何閱讀本書(shū)
這是一本將數(shù)據(jù)科學(xué)三要素商業(yè)理解、量化模型、數(shù)據(jù)技術(shù)全面打通的實(shí)戰(zhàn)性著作,是來(lái)自騰訊、滴滴、快手等一線互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師和算法工程師的經(jīng)驗(yàn)總結(jié),得到了SQLFlow創(chuàng)始人以及騰訊、網(wǎng)易、快手、貝殼找房、谷歌等企業(yè)的專(zhuān)家一致好評(píng)和推薦。
全書(shū)三個(gè)部分,內(nèi)容相對(duì)獨(dú)立,既能幫助初學(xué)者建立知識(shí)體系,又能幫助從業(yè)者解決商業(yè)中的實(shí)際問(wèn)題,還能幫助有經(jīng)驗(yàn)的專(zhuān)家快速掌握數(shù)據(jù)科學(xué)的技術(shù)和發(fā)展動(dòng)向。內(nèi)容圍繞非實(shí)驗(yàn)環(huán)境下的觀測(cè)數(shù)據(jù)的分析、實(shí)驗(yàn)的設(shè)計(jì)和分析、自助式數(shù)據(jù)科學(xué)平臺(tái)3大主題展開(kāi),涉及統(tǒng)計(jì)學(xué)、經(jīng)濟(jì)學(xué)、機(jī)器學(xué)習(xí)、實(shí)驗(yàn)科學(xué)等多個(gè)領(lǐng)域,包含大量常用的數(shù)據(jù)科學(xué)方法、簡(jiǎn)潔的代碼實(shí)現(xiàn)和經(jīng)典的實(shí)戰(zhàn)案例。
部分(第1~6章)觀測(cè)數(shù)據(jù)的分析技術(shù)
講解了非實(shí)驗(yàn)環(huán)境下不同觀測(cè)數(shù)據(jù)分析場(chǎng)景所對(duì)應(yīng)的分析框架、原理及實(shí)際操作,包括消費(fèi)者選擇偏好分析、消費(fèi)者在時(shí)間維度上的行為分析、基于機(jī)器學(xué)習(xí)的用戶(hù)生命周期價(jià)值預(yù)測(cè)、基于可解釋模型技術(shù)的商業(yè)場(chǎng)景挖掘、基于矩陣分解技術(shù)的用戶(hù)行為規(guī)律發(fā)現(xiàn)與挖掘,以及在不能進(jìn)行實(shí)驗(yàn)分析時(shí)如何更科學(xué)地進(jìn)行全量評(píng)估等內(nèi)容。
第二部分(第7~9章)實(shí)驗(yàn)設(shè)計(jì)和分析技術(shù)
從A/B實(shí)驗(yàn)的基本原理出發(fā),深入淺出地介紹了各種商業(yè)場(chǎng)景下進(jìn)行實(shí)驗(yàn)設(shè)計(jì)需要參考的原則和運(yùn)用的方法,尤其是在有樣本量約束條件下提升實(shí)驗(yàn)效能的方法及商業(yè)場(chǎng)景限制導(dǎo)致的非傳統(tǒng)實(shí)驗(yàn)設(shè)計(jì)。
第三部分(第10~12章) 自助式數(shù)據(jù)科學(xué)平臺(tái)SQLFlow
針對(duì)性地講解了開(kāi)源的工程化的自助式數(shù)據(jù)科學(xué)平臺(tái)SQLFlow,并通過(guò)系統(tǒng)配置、黑盒模型的解讀器應(yīng)用、聚類(lèi)分析場(chǎng)景等案例幫助讀者快速了解這一面向未來(lái)的數(shù)據(jù)科學(xué)技術(shù)。
勘誤和支持
除封面署名外,參與本書(shū)編寫(xiě)工作的還有:周銀河、丁芬、蘇濤、王禹、吳君涵、楊驍捷、劉沖、王玉璽、劉未名、楊凱迪、李依諾、陳祥、朱文靜。由于作者的水平有限,編寫(xiě)時(shí)間倉(cāng)促,書(shū)中難免會(huì)出現(xiàn)一些錯(cuò)誤或者不準(zhǔn)確的地方,懇請(qǐng)讀者批評(píng)指正。為此,我們特意創(chuàng)建了一個(gè)GitHub倉(cāng)庫(kù)(https://github.com/xieliaing/Data_Science_Industrial_Practice)。讀者可以將發(fā)現(xiàn)的代碼Bug、文字問(wèn)題以及疑惑,在Issue中提出,我們會(huì)將修改后的內(nèi)容及解答通過(guò)Pull Request合并進(jìn)主干。書(shū)中的全部源文件除可以從華章網(wǎng)站下載外,還可以從這個(gè)GitHub倉(cāng)庫(kù)下載,期待能夠得到你們的真摯反饋。
致謝
首先要感謝C. F. Jeff Wu、Williaw S. Cleveland、LinkedIn的DJ Patil及Facebook的Jeff Hammerbacher等先驅(qū),他們成功地開(kāi)創(chuàng)了數(shù)據(jù)科學(xué)這一個(gè)行業(yè),影響和激勵(lì)了無(wú)數(shù)人投身其中。
感謝快手科技副總裁、數(shù)據(jù)分析部負(fù)責(zé)人宋世君把數(shù)據(jù)科學(xué)的理念引入國(guó)內(nèi),實(shí)現(xiàn)了從0到1的跨越。感謝我原來(lái)統(tǒng)計(jì)科學(xué)團(tuán)隊(duì)的同事們,他們是國(guó)內(nèi)數(shù)據(jù)科學(xué)的開(kāi)拓者,通過(guò)實(shí)踐讓數(shù)據(jù)科學(xué)的理念在國(guó)內(nèi)萌芽發(fā)展、完善進(jìn)步并得到認(rèn)可。
感謝發(fā)起并維護(hù)SQLFlow開(kāi)源社區(qū)的王益博士、劉勇峰老師及其開(kāi)發(fā)團(tuán)隊(duì)。
感謝機(jī)械工業(yè)出版社華章公司的楊福川老師和韓蕊老師,在這一年多的時(shí)間里始終支持我們寫(xiě)作,保障了本書(shū)順利完成。
謹(jǐn)以此書(shū)獻(xiàn)給我親愛(ài)的家人以及眾多熱愛(ài)并投身數(shù)據(jù)科學(xué)的朋友們!
謝梁
2021年2月8日
謝梁 經(jīng)濟(jì)學(xué)博士,騰訊QQ瀏覽器副總經(jīng)理、QQ瀏覽器數(shù)據(jù)負(fù)責(zé)人。CCF數(shù)據(jù)科學(xué)專(zhuān)委會(huì)創(chuàng)始委員,入選財(cái)經(jīng)數(shù)據(jù)科學(xué)50人,清華大學(xué)商學(xué)院及香港大學(xué)商學(xué)院商業(yè)分析碩士項(xiàng)目指導(dǎo)嘉賓。曾任滴滴杰出數(shù)據(jù)科學(xué)家、美國(guó)微軟云存儲(chǔ)核心工程部首席數(shù)據(jù)科學(xué)家。
繆瑩瑩 浙江大學(xué)碩士,曾任滴滴首席數(shù)據(jù)科學(xué)家,CCF數(shù)據(jù)科學(xué)專(zhuān)委會(huì)委員。擁有十余項(xiàng)國(guó)家發(fā)明專(zhuān)利及國(guó)際發(fā)明專(zhuān)利,具有豐富的數(shù)據(jù)倉(cāng)庫(kù)建設(shè)、數(shù)據(jù)挖掘建模、實(shí)驗(yàn)科學(xué)與戰(zhàn)略分析的經(jīng)驗(yàn)。帶領(lǐng)團(tuán)隊(duì)用數(shù)據(jù)的方式驅(qū)動(dòng)從0到1的初創(chuàng)形態(tài)的業(yè)務(wù)和成熟形態(tài)業(yè)務(wù)的增長(zhǎng),善于發(fā)現(xiàn)業(yè)務(wù)機(jī)會(huì)和風(fēng)險(xiǎn),給業(yè)務(wù)帶來(lái)巨大價(jià)值。
高梓堯 快手?jǐn)?shù)據(jù)分析總監(jiān),長(zhǎng)期在美國(guó)硅谷和中國(guó)多家互聯(lián)網(wǎng)科技公司從事用戶(hù)分析、實(shí)驗(yàn)設(shè)計(jì)等相關(guān)工作。曾帶領(lǐng)滴滴數(shù)據(jù)科學(xué)團(tuán)隊(duì)與螞蟻金服聯(lián)合開(kāi)源共建一站式機(jī)器學(xué)習(xí)工具SQLFlow。擁有多項(xiàng)國(guó)家發(fā)明專(zhuān)利。清華大學(xué)商學(xué)院及哥倫比亞大學(xué)商學(xué)院商業(yè)分析碩士項(xiàng)目指導(dǎo)嘉賓、泛華統(tǒng)計(jì)協(xié)會(huì)演講嘉賓。
王子玲 上海交通大學(xué)計(jì)算數(shù)學(xué)碩士,曾任滴滴高級(jí)數(shù)據(jù)科學(xué)家、高級(jí)模型專(zhuān)家、高級(jí)風(fēng)控專(zhuān)家。先后任職于日企MTI、人人網(wǎng)、滴滴出行、愛(ài)奇藝等知名互聯(lián)網(wǎng)企業(yè),在網(wǎng)約車(chē)出行、互聯(lián)網(wǎng)金融、在線音樂(lè)、短視頻、網(wǎng)游等領(lǐng)域積累了豐富的大數(shù)據(jù)分析、策略、挖掘、建模、研究、應(yīng)用經(jīng)驗(yàn)。負(fù)責(zé)過(guò)兩段公司級(jí)重點(diǎn)項(xiàng)目從0到1增長(zhǎng)的整體數(shù)據(jù)驅(qū)動(dòng)體系設(shè)計(jì)及落地。申請(qǐng)平臺(tái)智能定價(jià)及優(yōu)化算法系統(tǒng)等十余項(xiàng)國(guó)家發(fā)明專(zhuān)利及國(guó)際發(fā)明專(zhuān)利。
周銀河 現(xiàn)任騰訊數(shù)據(jù)科學(xué)家,曾任滴滴數(shù)據(jù)科學(xué)家,清華大學(xué)商學(xué)院及哥倫比亞大學(xué)商學(xué)院商業(yè)分析碩士項(xiàng)目指導(dǎo)嘉賓。擁有豐富的數(shù)據(jù)分析、統(tǒng)計(jì)建模及實(shí)驗(yàn)設(shè)計(jì)經(jīng)驗(yàn)。
丁芬 曾任滴滴數(shù)據(jù)科學(xué)家,曾就職于美團(tuán)、滴滴等國(guó)內(nèi)知名互聯(lián)網(wǎng)公司,工作經(jīng)歷涉及市場(chǎng)咨詢(xún)、信貸風(fēng)控、網(wǎng)約車(chē)交易及信息流等領(lǐng)域。
蘇濤 物理學(xué)博士,美國(guó)生物物理學(xué)會(huì)會(huì)員。曾任中國(guó)科學(xué)院研究助理,研究量子計(jì)算和主動(dòng)流體。后任喬治華盛頓大學(xué)計(jì)算物理研究員,從事細(xì)胞模擬、生物領(lǐng)域機(jī)器學(xué)習(xí)、高性能計(jì)算等方向的研究。2017年進(jìn)入互聯(lián)網(wǎng)行業(yè),先后在Elex 和滴滴進(jìn)行數(shù)學(xué)模型、算法和數(shù)據(jù)科學(xué)方向的研究,熟悉復(fù)雜網(wǎng)絡(luò)、流形幾何嵌入、時(shí)頻分析以及相關(guān)的機(jī)器學(xué)習(xí)和優(yōu)化方法。
王禹 曾任滴滴高級(jí)數(shù)據(jù)分析師,主要負(fù)責(zé)滴滴分單引擎和調(diào)度引擎的實(shí)驗(yàn)設(shè)計(jì)、評(píng)估、數(shù)據(jù)分析以及成交率等核心指標(biāo)的預(yù)測(cè)、異常診斷歸因等工作,F(xiàn)任某短視頻科技企業(yè)算法工程師,主要負(fù)責(zé)LBS定位、POI挖掘等相關(guān)場(chǎng)景的策略算法開(kāi)發(fā)。
吳君涵 曾任滴滴資深數(shù)據(jù)分析師,擅長(zhǎng)用戶(hù)增長(zhǎng)分析和體驗(yàn)量化建模。具有豐富的大數(shù)據(jù)挖掘建模、產(chǎn)出數(shù)據(jù)驅(qū)動(dòng)洞察并通過(guò)洞察影響決策的實(shí)戰(zhàn)經(jīng)驗(yàn)。
楊驍捷 曾任滴滴高級(jí)數(shù)據(jù)分析師,擅長(zhǎng)雙邊平臺(tái)的供需匹配效率分析,在出行、電商等不同業(yè)務(wù)場(chǎng)景中靈活運(yùn)用因果推斷,評(píng)估業(yè)務(wù)收益,F(xiàn)任快手資深數(shù)據(jù)分析師。
劉沖 曾任滴滴高級(jí)數(shù)據(jù)分析師,主要負(fù)責(zé)流量運(yùn)營(yíng)的實(shí)驗(yàn)設(shè)計(jì)、評(píng)估、數(shù)據(jù)分析以及優(yōu)化司機(jī)行為和提高司機(jī)收入等相關(guān)分析,現(xiàn)任快手?jǐn)?shù)據(jù)分析師。
王玉璽 中國(guó)人民大學(xué)商學(xué)院博士,美國(guó)密歇根大學(xué)訪問(wèn)學(xué)者,曾任滴滴數(shù)據(jù)科學(xué)部研究員,主要研究方向?yàn)槎▋r(jià)策略?xún)?yōu)化、消費(fèi)者行為分析等。參與多項(xiàng)國(guó)家自然科學(xué)基金及社會(huì)科學(xué)基金研究項(xiàng)目,在Expert System、Information Systems Research、《管理評(píng)論》等期刊發(fā)表多篇論文。
劉未名 曾任滴滴數(shù)據(jù)科學(xué)家,擁有金融、互聯(lián)網(wǎng)等領(lǐng)域的數(shù)據(jù)分析經(jīng)驗(yàn),擅長(zhǎng)利用實(shí)驗(yàn)、量化模型解決業(yè)務(wù)問(wèn)題,多次參與公司級(jí)重點(diǎn)項(xiàng)目的數(shù)據(jù)分析,幫助公司搭建數(shù)據(jù)驅(qū)動(dòng)工業(yè)化體系,擁有國(guó)內(nèi)、國(guó)際多項(xiàng)發(fā)明專(zhuān)利。
楊凱迪 現(xiàn)任快手?jǐn)?shù)據(jù)分析部數(shù)據(jù)科學(xué)家。長(zhǎng)期就職于國(guó)內(nèi)頭部互聯(lián)網(wǎng)企業(yè),對(duì)于出行定價(jià)補(bǔ)貼以及短視頻行業(yè)用戶(hù)畫(huà)像挖掘、策略分析等有豐富經(jīng)驗(yàn)。工作期間累計(jì)發(fā)表三篇國(guó)家發(fā)明專(zhuān)利論文。
李依諾 騰訊數(shù)據(jù)科學(xué)家,本碩先后畢業(yè)于美國(guó)印第安納大學(xué)數(shù)學(xué)專(zhuān)業(yè)和美國(guó)喬治華盛頓大學(xué)生物統(tǒng)計(jì)學(xué)專(zhuān)業(yè)。在在線視頻、網(wǎng)約車(chē)、網(wǎng)絡(luò)游戲領(lǐng)域積累了豐富的數(shù)據(jù)科學(xué)實(shí)戰(zhàn)經(jīng)驗(yàn),從0 到1 參與過(guò)騰訊、滴滴的實(shí)驗(yàn)工業(yè)化進(jìn)程。
陳祥 資深算法工程師,碩士畢業(yè)于愛(ài)丁堡大學(xué)計(jì)算機(jī)科學(xué)專(zhuān)業(yè)。先后從事異常檢測(cè)、強(qiáng)化學(xué)習(xí)、自然語(yǔ)言處理、領(lǐng)域知識(shí)圖譜建設(shè)及應(yīng)用等相關(guān)工作。曾就職于愛(ài)奇藝、滴滴。SQLFlow 貢獻(xiàn)者之一,F(xiàn)從事用戶(hù)畫(huà)像、廣告系統(tǒng)和推薦相關(guān)工作。
朱文靜 曾任滴滴高級(jí)數(shù)據(jù)分析師,主要從事基于業(yè)務(wù)數(shù)據(jù)進(jìn)行的分析、建模、挖掘等工作。SQLFlow項(xiàng)目重要成員之一,SQLFlow開(kāi)源社區(qū)貢獻(xiàn)者,參與貢獻(xiàn)了多個(gè)SQLFlow模型,其中包括可解釋黑盒模型、深度學(xué)習(xí)聚類(lèi)模型、時(shí)間序列模型等。
第1章:如何分析用戶(hù)的選擇 1
1.1選擇行為的經(jīng)濟(jì)學(xué)理論 1
1.1.1 選擇無(wú)處不在 1
1.1.2 選擇行為的經(jīng)濟(jì)學(xué)理論 2
1.2 用戶(hù)選擇行為計(jì)量分析框架:DCM 4
1.2.1 從經(jīng)濟(jì)模型到計(jì)量模型 4
1.2.2 常用的DCM模型及應(yīng)用場(chǎng)景 8
1.3 DCM模型的Python實(shí)踐 11
1.3.1?軟件包?&?數(shù)據(jù)格式 11
1.3.2 使用Logistics Regression分析自駕選擇問(wèn)題 15
1.3.3 使用 Multinomial Logit Model 分析完整交通方式選擇問(wèn)題 21
1.3.4 使用 Nested Logit Model 分析完整交通方式選擇問(wèn)題 25
1.4 本章小節(jié) 27
第二章:隨時(shí)間可變的行為分析 27
2.1 從如何給二手車(chē)定價(jià)案例說(shuō)起 27
2.1.1 二手車(chē)定價(jià)背景 27
2.1.2 為什么不選擇一般回歸模型? 28
2.1.3 為什么選擇生存分析? 29
2.2 生存分析的理論框架 29
2.2.2 生存函數(shù)及風(fēng)險(xiǎn)函數(shù)刻畫(huà) 34
2.2.3 生存函數(shù)回歸及生存概率的預(yù)測(cè) 36
2.3 生存分析在二手車(chē)定價(jià)案例中的應(yīng)用實(shí)踐 38
2.3.1 軟件包&數(shù)據(jù)格式&數(shù)據(jù)入讀 40
2.3.2 生存分析基礎(chǔ)操作:二手車(chē)銷(xiāo)售生存曲線繪制及差異對(duì)比 42
第三章 洞察消費(fèi)者長(zhǎng)期價(jià)值:基于神經(jīng)網(wǎng)絡(luò)的LTV建模 44
3.1 LTV的概念和商業(yè)應(yīng)用 44
3.1.1 LTV用戶(hù)終生(長(zhǎng)期)價(jià)值 45
3.1.2 用戶(hù)生命周期和用戶(hù)終生價(jià)值 45
3.1.3 LTV的特點(diǎn) 46
3.1.4 LTV分析能幫助我們回答的問(wèn)題 46
3.1.5 LTV的計(jì)算方法 47
3.2 神經(jīng)網(wǎng)絡(luò)的基本原理 49
3.2.1 神經(jīng)網(wǎng)絡(luò)的歷史 49
3.2.2 本章所涉及的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) 50
3.3 基于Keras的LTV模型實(shí)踐 56
3.3.1 Keras介紹 56
3.3.2 數(shù)據(jù)的加載和預(yù)處理 56
3.3.3 輸入數(shù)據(jù)的準(zhǔn)備 59
3.3.4 模型搭建和訓(xùn)練 65
3.3.5 模型分析 68
3.4 本章總結(jié) 68
第4章 使用體系化分析方法進(jìn)行場(chǎng)景挖掘 69
4.1. 選擇經(jīng)驗(yàn)化分析還是體系化分析 69
4.1.1經(jīng)驗(yàn)化分析的局限性 69
4.1.2體系化方法的手段和優(yōu)勢(shì) 70
4.2. 體系化分析常用工具 71
4.2.1黑盒模型與白盒模型 71
4.2.2可解釋模型決策樹(shù) 71
4.2.3全局代理模型 76
4.2.4場(chǎng)景挖掘模型分析方法框架 77
4.3. 場(chǎng)景挖掘分析實(shí)踐 78
4.3.1數(shù)據(jù)背景及數(shù)據(jù)處理 78
4.3.2經(jīng)驗(yàn)化分析 80
4.3.3場(chǎng)景挖掘模型的Python實(shí)現(xiàn)與模型解讀 80
4.4. 本章小結(jié) 86
第5章 行為規(guī)律的發(fā)現(xiàn)與挖掘 86
概述 86
5.1對(duì)包含有順序關(guān)系數(shù)據(jù)的規(guī)律分析 87
5.1.1有序數(shù)據(jù)及SVD方法概述 87
5.1.2SVD原理及推導(dǎo) 88
5.1.3SVD聚類(lèi)建模Python實(shí)戰(zhàn) 93
5.2對(duì)無(wú)序稀疏數(shù)據(jù)的規(guī)律分析 98
5.2.1稀疏數(shù)據(jù)及NMF方法概述 98
5.2.2NMF原理及推導(dǎo) 99
5.2.3NMF聚類(lèi)建模Python實(shí)戰(zhàn) 100
第6章 對(duì)觀測(cè)到的事件進(jìn)行因果推斷 104
6.1 使用全量評(píng)估分析已發(fā)生的事件 104
6.1.1 為什么要進(jìn)行全量評(píng)估 104
6.1.2 全量評(píng)估應(yīng)用 105
6.2 全量評(píng)估主要方法 105
6.2.1 回歸分析 105
6.2.2 DID方法 114
6.2.3 合成控制 116
6.2.4 Causal Impact 119
6.3 全量評(píng)估方法的應(yīng)用 123
6.3.1 關(guān)于物流單量的全量評(píng)估應(yīng)用(回歸模型) 123
6.3.2 恐怖主義對(duì)經(jīng)濟(jì)影響評(píng)估(DID) 128
6.3.3 恐怖主義對(duì)經(jīng)濟(jì)影響評(píng)估(合成控制) 130
6.3.4 天氣情況的評(píng)估(Causal Impact) 133
6.4 本章小結(jié) 147
第7章 如何比較兩個(gè)策略的效果 147
7.1如何才能正確推斷因果關(guān)系? 147
7.1.1 什么是相關(guān)性謬誤 147
7.1.2 潛在結(jié)果和因果效果 148
7.2運(yùn)用A/B實(shí)驗(yàn)進(jìn)行兩策略比較 149
7.2.1 什么是A/B實(shí)驗(yàn) 149
7.2.2 為什么應(yīng)用A/B實(shí)驗(yàn) 150
7.2.3 A/B實(shí)驗(yàn)的基本原理 150
7.3 A/B實(shí)驗(yàn)應(yīng)用步驟(實(shí)驗(yàn)方法具體實(shí)施步驟) 151
7.3.1 明確實(shí)驗(yàn)要素 151
7.3.2 實(shí)驗(yàn)設(shè)計(jì) 153
7.3.3實(shí)驗(yàn)過(guò)程監(jiān)控 155
7.4 A/B實(shí)驗(yàn)案例介紹 156
7.4.1 實(shí)驗(yàn)場(chǎng)景介紹 156
7.4.3實(shí)驗(yàn)效果評(píng)估 158
7.5 本章小結(jié) 159
第8章 如何提高實(shí)驗(yàn)效能 160
8.1 控制實(shí)驗(yàn)指標(biāo)方差的必要性和手段 160
8.2 用隨機(jī)區(qū)組設(shè)計(jì)控制實(shí)驗(yàn)指標(biāo)方差 161
8.2.1 利用隨機(jī)區(qū)組實(shí)驗(yàn)實(shí)驗(yàn)設(shè)計(jì)降低方差 161
8.2.2 隨機(jī)區(qū)組實(shí)驗(yàn)的特征選擇 162
8.3 隨機(jī)區(qū)組實(shí)驗(yàn)應(yīng)用步驟 163
8.3.1 明確實(shí)驗(yàn)?zāi)繕?biāo)及背景: 163
8.3.2 實(shí)驗(yàn)設(shè)計(jì): 163
8.3.3 實(shí)驗(yàn)過(guò)程監(jiān)控: 163
8.3.4 實(shí)驗(yàn)評(píng)估中用到的方差分析的基本原理: 163
8.4 隨機(jī)區(qū)組實(shí)驗(yàn)案例介紹 168
8.4.1 背景介紹: 168
8.4.2 基本設(shè)計(jì): 169
8.4.3 隨機(jī)區(qū)組實(shí)驗(yàn)相關(guān)的設(shè)計(jì): 169
8.4.4 效果評(píng)估 170
8.5 隨機(jī)區(qū)組實(shí)驗(yàn)常見(jiàn)問(wèn)題 172
8.5.1 方差分析的使用前提是什么 172
8.5.2 隨機(jī)區(qū)組的個(gè)數(shù)是越多越好嗎? 172
8.5.3 隨機(jī)區(qū)組實(shí)驗(yàn)的回歸方程的$R^2$是越高越好嗎,是否證明策略有效果? 173
8.6 本章小節(jié) 173
第9章 特殊場(chǎng)景下的實(shí)驗(yàn)設(shè)計(jì)和分析方法 173
9.1 分流的實(shí)驗(yàn)對(duì)象間有干擾怎么辦 174
9.2 如果實(shí)驗(yàn)不能簡(jiǎn)單分流怎么辦(Switchback實(shí)驗(yàn)設(shè)計(jì)和評(píng)估方法) 181
9.3 如果實(shí)驗(yàn)不能簡(jiǎn)單分流且時(shí)間效率要求高怎么辦?(交叉實(shí)驗(yàn)設(shè)計(jì)) 186
9.4 如果不能分流的實(shí)驗(yàn)且策略不能輪轉(zhuǎn)怎么辦? 199
9.5 本章總結(jié) 205
10.1 SQLFlow簡(jiǎn)介 206
10.1.1 什么是SQLFlow 206
10.1.2 SQLFlow的定位和目標(biāo) 207
10.1.3 SQLFlow工作原理 209
10.2 SQLFLow 運(yùn)行環(huán)境的設(shè)置 210
SQLFlow in Docker 210
環(huán)境配置 215
交互 224
Jupyter Notebook 225
REPL 225
10.3 將分析模型固化到 SQLFlow 中的流程 226
10.4 總結(jié) 232
11.1.1 模型可解釋的重要性和必要性 233
模型解釋的重要性 233
模型解釋的必要性 233
11.1.2 常見(jiàn)的可解釋性模型 234
(1)線性回歸 235
(2)邏輯回歸 238
(3) 決策樹(shù) 242
(4)KNN 243
(5)樸素貝葉斯分類(lèi)器 245
(6)模型比較 246
11.2 黑盒模型的解釋性 247
11.2.1 如何對(duì)黑盒模型進(jìn)行解釋 247
11.2.2 代理模型 248
11.2.3 Shapley 250
11.2.4 基于SQLFLow的黑盒模型解釋的案例 251
11.3 本章小結(jié) 255
第12章 基于LSTM-autoencoder的無(wú)監(jiān)督聚類(lèi)模型 255
12.1 聚類(lèi)的廣泛應(yīng)用 256
12.1.1 什么是聚類(lèi)或模式識(shí)別 256
12.2 聚類(lèi)模型的應(yīng)用案例 257
12.2.1 k-means clustering -- 司機(jī)服務(wù)站點(diǎn)選址規(guī)劃 257
12.2.2 Hierarchical Clustering -- 超市采購(gòu)商分組 260
12.3 SQLFlow中基于深度學(xué)習(xí)的聚類(lèi)模型 265
12.3.1 基于深度學(xué)習(xí)的聚類(lèi)模型原理 265
12.3.2 Case study - 如何使用SQLFlow對(duì)城市道路交通狀況進(jìn)行分層 272
12.4 本章小結(jié) 275