數(shù)據(jù)科學的主要目標就是通過數(shù)據(jù)分析來改進決策,它與數(shù)據(jù)挖掘、機器學習等領(lǐng)域緊密相關(guān),但范圍更廣。本書簡要介紹了該領(lǐng)域的發(fā)展、基礎(chǔ)知識,并闡釋了數(shù)據(jù)科學項目的各個階段。書中既考慮數(shù)據(jù)基礎(chǔ)架構(gòu)和集成多個數(shù)據(jù)源數(shù)據(jù)所面臨的挑戰(zhàn),又介紹機器學習基礎(chǔ)并探討如何應(yīng)用機器學習專業(yè)技術(shù)解決現(xiàn)實問題。還綜述了倫理和法律問題、數(shù)據(jù)法規(guī)的發(fā)展以及保護隱私的計算方法。*后探討了數(shù)據(jù)科學的未來影響,并給出數(shù)據(jù)科學項目成功的原則。
數(shù)據(jù)科學推動了現(xiàn)代社會幾乎所有領(lǐng)域決策的發(fā)展,正在影響著人們?nèi)粘I畹姆椒矫婷。本書旨在闡述理解數(shù)據(jù)科學所需的基本思想和概念,幫助你理解什么是數(shù)據(jù)科學,它是如何工作的,以及它能(和不能)做什么。本書從數(shù)據(jù)科學發(fā)展演化史,數(shù)據(jù)科學定義,數(shù)據(jù)、數(shù)據(jù)集,數(shù)據(jù)科學生態(tài)系統(tǒng),機器學習,數(shù)據(jù)科學標準任務(wù),隱私與道德,發(fā)展趨勢等角度,對數(shù)據(jù)科學展開了精彩的闡述。
數(shù)據(jù)科學的目標是通過將決策建立在從大數(shù)據(jù)集中提取洞察力的基礎(chǔ)上來改進決策。作為一個活動領(lǐng)域,數(shù)據(jù)科學由一系列原理、問題定義、算法和過程組成,用于從大型數(shù)據(jù)集中提取有用但不顯眼的模式。數(shù)據(jù)科學與數(shù)據(jù)挖掘和機器學習領(lǐng)域密切相關(guān),但它涉及的范圍更廣。如今,數(shù)據(jù)科學推動了現(xiàn)代社會幾乎所有領(lǐng)域決策的發(fā)展。數(shù)據(jù)科學可能影響人們?nèi)粘I畹姆椒矫婷,如確定在線廣告的呈現(xiàn),向用戶推薦電影、書籍、朋友,過濾垃圾郵件,用戶續(xù)訂手機合約時向他們提供合適的優(yōu)惠套餐,降低醫(yī)保成本,規(guī)劃轄區(qū)內(nèi)交通信號燈的布局及通行時間,藥品設(shè)計,警力部署規(guī)劃等。
大數(shù)據(jù)和社交媒體的出現(xiàn)、計算能力的加速、計算機內(nèi)存成本的大幅降低以及更強大的數(shù)據(jù)分析和建模方法的發(fā)展推動了當代社會對數(shù)據(jù)科學需求的增長,其中典型的技術(shù)有深度學習。這些因素共同作用意味著組織收集、存儲和處理數(shù)據(jù)將比以前簡單。與此同時,這些技術(shù)創(chuàng)新和數(shù)據(jù)科學的廣泛應(yīng)用意味著與數(shù)據(jù)使用和個人隱私相關(guān)的道德挑戰(zhàn)從未如此迫切。本書的目的是提供數(shù)據(jù)科學的介紹,涵蓋該領(lǐng)域的基本要素,并提供對該領(lǐng)域深刻的原則性見解。
本書第1章介紹了數(shù)據(jù)科學領(lǐng)域,簡要回顧了數(shù)據(jù)科學的發(fā)展演化歷史,還探討了如今數(shù)據(jù)科學為什么那么重要,以及推動采用數(shù)據(jù)科學的一些因素。在這一章的最后,回顧并揭穿了與數(shù)據(jù)科學相關(guān)的一些神話。第2章介紹了與數(shù)據(jù)相關(guān)的基本概念,描述了數(shù)據(jù)科學項目的標準流程:業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準備、建模、評估和部署。第3章重點介紹了數(shù)據(jù)基礎(chǔ)設(shè)施以及大數(shù)據(jù)和多源數(shù)據(jù)集成帶來的挑戰(zhàn)。數(shù)據(jù)基礎(chǔ)設(shè)施的一個可能具有挑戰(zhàn)性的典型方面是,數(shù)據(jù)庫和數(shù)據(jù)倉庫中的數(shù)據(jù)通常駐留在與用于數(shù)據(jù)分析的服務(wù)器不同的服務(wù)器上。因此,當處理大型數(shù)據(jù)集時,可能要花費大量時間在數(shù)據(jù)庫或數(shù)據(jù)倉庫所依賴的服務(wù)器與進行數(shù)據(jù)分析和機器學習處理的服務(wù)器之間移動數(shù)據(jù)。第3章首先描述組織中典型的數(shù)據(jù)科學基礎(chǔ)設(shè)施,以及在數(shù)據(jù)科學基礎(chǔ)設(shè)施中移動大型數(shù)據(jù)集的挑戰(zhàn)的一些新興解決方案,其中包括使用數(shù)據(jù)庫內(nèi)置機器學習算法,使用Hadoop進行數(shù)據(jù)存儲和處理,以及混合數(shù)據(jù)庫系統(tǒng)的開發(fā),這些系統(tǒng)無縫地結(jié)合了傳統(tǒng)的數(shù)據(jù)庫軟件和類似Hadoop的解決方案。這一章的最后強調(diào)了將整個組織的數(shù)據(jù)整合到適合機器學習的統(tǒng)一表示中的一些挑戰(zhàn)。第4章介紹了機器學習領(lǐng)域,并解釋了一些最流行的機器學習算法和模型,包括神經(jīng)網(wǎng)絡(luò)、深度學習和決策樹模型。第5章聚焦于通過審視一系列標準業(yè)務(wù)問題,描述了機器學習解決方案如何解決這些問題來將機器學習專業(yè)知識與現(xiàn)實問題聯(lián)系起來。第6章回顧了數(shù)據(jù)科學的道德含義、數(shù)據(jù)監(jiān)管的最新發(fā)展,以及在數(shù)據(jù)科學過程中保護個人隱私的一些新的計算方法。最后,第7章描述了數(shù)據(jù)科學在不久的將來會產(chǎn)生重大影響的一些領(lǐng)域,并列出了確定數(shù)據(jù)科學項目是否會成功的一些重要原則。
約翰· D.凱萊赫(John D. Kelleher) 是都柏林理工學院計算機科學學院的教授以及信息、通信和娛樂研究所的學術(shù)負責人。他的研究得到了ADAPT中心的支持,該中心由愛爾蘭科學基金會(Grant 13 / RC / 2106)資助,同時也接受歐洲區(qū)域發(fā)展基金的資助。 他還是《Fundamentals of Machine Learning for Predictive Data Analytics》的作者之一。
布倫丹·蒂爾尼(Brendan Tierney)是都柏林理工學院計算機科學學院的講師,同時也是Oracle ACE 主任,還著有多本基于Oracle技術(shù)的數(shù)據(jù)挖掘類著作。
譯者序
前言
致謝
作者簡介
第1章 什么是數(shù)據(jù)科學 …… 1
1.1 數(shù)據(jù)科學簡史 …… 5
1.1.1 數(shù)據(jù)收集簡史 …… 5
1.1.2 數(shù)據(jù)分析簡史 …… 9
1.1.3 數(shù)據(jù)科學的產(chǎn)生與發(fā)展 …… 14
1.2 數(shù)據(jù)科學用于何處 …… 20
1.2.1 銷售和營銷中的數(shù)據(jù)科學 …… 21
1.2.2 數(shù)據(jù)科學在政府中的應(yīng)用 …… 22
1.2.3 數(shù)據(jù)科學在競技體育中的應(yīng)用 …… 23
1.3 為什么是現(xiàn)在 …… 25
1.4 關(guān)于數(shù)據(jù)科學的神話 …… 28
第2章 什么是數(shù)據(jù),什么是數(shù)據(jù)集 …… 31
2.1 關(guān)于數(shù)據(jù)的觀點 …… 38
2.2 數(shù)據(jù)可以積累,而智慧不能 …… 43
2.3 CRISP-DM …… 45
第3章 數(shù)據(jù)科學生態(tài)系統(tǒng) …… 54
3.1 將算法遷移至數(shù)據(jù) …… 61
3.1.1 傳統(tǒng)數(shù)據(jù)庫與現(xiàn)代的傳統(tǒng)數(shù)據(jù)庫 …… 64
3.1.2 大數(shù)據(jù)架構(gòu) …… 67
3.1.3 混合數(shù)據(jù)庫世界 …… 69
3.2 數(shù)據(jù)準備和集成 …… 72
第4章 機器學習 …… 77
4.1 有監(jiān)督學習與無監(jiān)督學習 …… 78
4.2 學習預(yù)測模型 …… 83
4.2.1 相關(guān)性不等同于因果,但它有時非常有用 …… 84
4.2.2 線性回歸 …… 90
4.2.3 神經(jīng)網(wǎng)絡(luò)與深度學習 …… 96
4.2.4 決策樹 …… 108
4.3 數(shù)據(jù)科學中的偏差 …… 114
4.4 評估模型:泛化而不是記憶 …… 116
4.5 摘要 …… 119
第5章 標準的數(shù)據(jù)科學任務(wù) …… 121
5.1 誰是我們的目標客戶(聚類) …… 122
5.2 這是欺詐嗎(異常值檢測) …… 128
5.3 你要配份炸薯條嗎(關(guān)聯(lián)規(guī)則挖掘) …… 131
5.4 流失還是不流失,這是一個問題(分類) …… 136
5.5 它價值幾何(回歸) …… 141
第6章 隱私與道德 …… 143
6.1 商業(yè)利益與個人隱私 …… 145
6.1.1 數(shù)據(jù)科學的道德啟示:畫像與歧視 …… 148
6.1.2 數(shù)據(jù)科學的道德含義:創(chuàng)建一個全景監(jiān)獄 …… 154
6.2 隱私保護 …… 157
6.2.1 保護隱私的計算方法 …… 159
6.2.2 規(guī)范數(shù)據(jù)使用和保護隱私的法律框架 …… 161
6.3 通往道德的數(shù)據(jù)科學之路 …… 164
第7章 未來趨勢與成功準則 …… 172
7.1 醫(yī)療數(shù)據(jù)科學 …… 172
7.2 智慧城市 …… 174
7.3 數(shù)據(jù)科學項目準則:為什么會成功或失敗 …… 177
7.4 終極思考 …… 185
術(shù)語表 …… 188
延伸閱讀 …… 201
參考文獻 …… 203