目錄
第1章基礎理論
如何開始學習
1.1術語定義
1.2研究目的
1.3研究視角
1.4發(fā)展簡史
1.5理論體系
1.6基本原則
1.7相關理論
1.8人才類型
如何繼續(xù)學習
習題
參考文獻
第2章理論基礎
如何開始學習
2.1數(shù)據(jù)科學的學科地位
2.2統(tǒng)計學
2.3機器學習
2.4數(shù)據(jù)可視化
如何繼續(xù)學習
習題
參考文獻
第3章流程與方法
如何開始學習
3.1基本流程
3.2數(shù)據(jù)加工
3.3數(shù)據(jù)審計
3.4數(shù)據(jù)分析
3.5數(shù)據(jù)可視化
3.6數(shù)據(jù)故事化
3.7數(shù)據(jù)科學項目管理
3.8數(shù)據(jù)科學中的常見錯誤
如何繼續(xù)學習
習題
參考文獻
第4章技術與工具
如何開始學習
4.1數(shù)據(jù)科學的技術體系
4.2MapReduce
4.3Hadoop
4.4Spark
4.5NoSQL與NewSQL
4.6R與Python
4.7發(fā)展趨勢
如何繼續(xù)學習
習題
參考文獻
第5章數(shù)據(jù)產品及開發(fā)
如何開始學習
5.1定義
5.2主要特征
5.3關鍵活動
5.4數(shù)據(jù)柔術
5.5數(shù)據(jù)能力
5.6數(shù)據(jù)戰(zhàn)略
5.7數(shù)據(jù)治理
5.8數(shù)據(jù)安全、隱私、道德與倫理
如何繼續(xù)學習
習題
參考文獻
第6章典型案例及實踐
如何開始學習
6.1統(tǒng)計分析
6.2機器學習
6.3數(shù)據(jù)可視化
6.4Spark編程
6.52012年美國總統(tǒng)大選
如何繼續(xù)學習
習題
參考文獻
附錄A本書例題的R語言版代碼
附錄B數(shù)據(jù)科學的重要資源
附錄C術語索引
后記
圖目錄
圖11DIKW金字塔模型3
圖12數(shù)據(jù)與數(shù)值的區(qū)別4
圖13數(shù)字信號與模擬信號4
圖1420082015年全球數(shù)據(jù)規(guī)模及類型的估計6
圖15大數(shù)據(jù)的特征7
圖16大數(shù)據(jù)的本質8
圖17人工智能、機器學習和深度學習的區(qū)別與聯(lián)系10
圖18DIKUW模型及應用11
圖19數(shù)據(jù)洞見12
圖110業(yè)務數(shù)據(jù)化與數(shù)據(jù)業(yè)務化12
圖111常用驅動方式13
圖112數(shù)據(jù)的層次性13
圖113大數(shù)據(jù)生態(tài)系統(tǒng)示意圖14
圖114數(shù)據(jù)科學的新研究視角15
圖115Gartner技術成熟度曲線16
圖116數(shù)據(jù)科學的萌芽期(19742009年)17
圖117數(shù)據(jù)科學的快速發(fā)展期(20102013年)18
圖118數(shù)據(jù)科學的逐漸成熟期(2014年至今)19
圖119數(shù)據(jù)科學的理論體系20
圖120數(shù)據(jù)科學的主要內容20
圖121數(shù)據(jù)科學的三世界原則22
圖122數(shù)據(jù)科學的三個要素及3C精神23
圖123計算密集型應用與數(shù)據(jù)密集型應用的區(qū)別24
圖124數(shù)據(jù)范式與知識范式的區(qū)別25
圖125數(shù)據(jù)管理范式的變化25
圖126數(shù)據(jù)的資產屬性26
圖127常用驅動方式28
圖128CAPTCHA方法的應用28
圖129ReCAPTCHA項目29
圖130數(shù)據(jù)與算法之間的關系30
圖131BellKors Pragmatic Chaos團隊獲得Netflix獎30
圖132Netflix獎公測結果31
圖133數(shù)據(jù)科學與商務智能的區(qū)別與聯(lián)系32
圖134數(shù)據(jù)科學與數(shù)據(jù)工程在企業(yè)應用中的區(qū)別與聯(lián)系33
圖135數(shù)據(jù)科學人才類型及其收入33
圖136RStudio中編輯Markdown的窗口35
圖137數(shù)據(jù)科學家團隊38
圖138大數(shù)據(jù)人才應具備的不同知識結構40
圖139學習數(shù)據(jù)科學的四則原則43
圖21數(shù)據(jù)科學的理論基礎50
圖22統(tǒng)計方法的分類(行為目的與思路方式視角)52
圖23統(tǒng)計學中的數(shù)據(jù)推斷53
圖24數(shù)據(jù)統(tǒng)計方法的類型(方法論視角)53
圖25數(shù)據(jù)統(tǒng)計基本方法54
圖26元分析與基本分析54
圖27GFT預測與美國疾病控制中心數(shù)據(jù)的對比55
圖28GFT估計與實際數(shù)據(jù)的誤差(2013年2月)56
圖29大數(shù)據(jù)時代的思維模式的轉變58
圖210西洋雙陸棋58
圖211機器人駕駛58
圖212機器學習的基本思路59
圖213機器學習的三要素61
圖214機器學習的類型62
圖215KNN算法的基本步驟63
圖216決策樹示例識別鳥類65
圖217感知器示例67
圖218前向神經網絡67
圖219歸納學習與分析學習70
圖220增強學習70
圖221機器學習的類型71
圖222IBM Watson72
圖223Pepper機器人73
圖224機器學習中的數(shù)據(jù)73
圖225Anscombe四組數(shù)據(jù)的可視化77
圖226John Snow的鬼地圖(Ghost Map)78
圖227在Tableau中加利福尼亞州政府收入來源數(shù)據(jù)的可視化79
圖31數(shù)據(jù)科學的基本流程83
圖32量化自我84
圖33規(guī)整數(shù)據(jù)與干凈數(shù)據(jù)的區(qū)別85
圖34規(guī)整數(shù)據(jù)示意圖86
圖35殘差89
圖36數(shù)據(jù)分析的類型90
圖37Analytics 1.0~3.091
圖38數(shù)據(jù)加工方法92
圖39數(shù)據(jù)審計與數(shù)據(jù)清洗93
圖310缺失數(shù)據(jù)處理的步驟94
圖311冗余數(shù)據(jù)處理的方法94
圖312數(shù)據(jù)分箱處理的步驟與類型96
圖313均值平滑與邊界值平滑96
圖314內容集成98
圖315結構集成99
圖316數(shù)據(jù)脫敏處理100
圖317數(shù)據(jù)連續(xù)性的定義及重要性104
圖318可視化審計示例106
圖319Gartner分析學價值扶梯模型106
圖320冰激凌的銷售量與謀殺案的發(fā)生數(shù)量108
圖321數(shù)據(jù)分析的類型110
圖322拿破侖進軍俄國慘敗而歸的歷史事件的可視化111
圖323可視分析學的相關學科111
圖324可視分析學模型112
圖325數(shù)據(jù)可視化的方法體系113
圖326視覺圖形元素與視覺通道113
圖327雷達圖示例114
圖328齊美爾連帶114
圖329視覺隱喻的示例美國政府機構的設置114
圖330地鐵路線圖的創(chuàng)始人Henry Beck115
圖331Henry Beck的倫敦地鐵線路圖116
圖332視覺突出的示例116
圖333完圖法則的示例117
圖334視覺通道的選擇與展示119
圖335視覺通道的精確度對比119
圖336視覺通道的可辨認性某公司產品銷售示意圖120
圖337視覺通道的可分離性差120
圖338上下文導致視覺假象1121
圖339上下文導致視覺假象2121
圖340對亮度和顏色的相對判斷容易造成視覺假象的示例121
圖341數(shù)據(jù)可視化表達與數(shù)據(jù)故事化描述126
圖342數(shù)據(jù)的故事化描述及故事的展現(xiàn)127
圖343項目管理的主要內容130
圖344數(shù)據(jù)科學項目的基本流程131
圖412017大數(shù)據(jù)產業(yè)全景圖140
圖42大數(shù)據(jù)參考架構142
圖43MapReduce執(zhí)行過程144
圖44MapReduce對中間數(shù)據(jù)的處理148
圖45以MapReduce為核心和以YARN為核心的軟件棧對比150
圖46下一代MapReduce框架151
圖47Apache的Hadoop項目151
圖48Hadoop生態(tài)系統(tǒng)152
圖49Hadoop MapReduce數(shù)據(jù)處理過程153
圖410Apache Hive官方網站155
圖411Apache Pig官方網站156
圖412Apache Mahout官方網站157
圖413Apache HBase官方網站157
圖414HBase與Hadoop項目158
圖415HBase的邏輯模型159
圖416Apache ZooKeeper官方網站160
圖417Apache Flume官方網站161
圖418Apache Sqoop官方網站162
圖419Spark 技術架構163
圖420Spark的基本流程164
圖421Spark的執(zhí)行步驟169
圖422Lambda 架構的主要組成部分171
圖423傳統(tǒng)關系數(shù)據(jù)庫的優(yōu)點與缺點172
圖424關系數(shù)據(jù)庫技術與NoSQL技術之間的關系174
圖425NoSQL數(shù)據(jù)分布的兩個基本途徑175
圖426分片處理176
圖427主從復制177
圖428對等復制178
圖429數(shù)據(jù)不一致性179
圖430CAP理論180
圖431Memcached官方網站183
圖432一致性散列的分配方式184
圖433服務器增加時的變化184
圖434云計算的演變過程188
圖435數(shù)據(jù)管理的新變化190
圖43620162018年數(shù)據(jù)科學相關項目中軟件產品的使用率(%)192
圖4372019年Gartner數(shù)據(jù)科學和機器學習平臺魔力194
圖51數(shù)據(jù)產品開發(fā)中的數(shù)據(jù)與數(shù)據(jù)柔術201
圖52知識范式與數(shù)據(jù)范式203
圖53數(shù)據(jù)產品的多樣性204
圖54數(shù)據(jù)產品的層次性205
圖55Google全球商機洞察(Google Global Market Finder)206
圖56數(shù)據(jù)產品鏈207
圖57傳統(tǒng)產品開發(fā)與數(shù)據(jù)產品開發(fā)的區(qū)別208
圖58D.J.Patil209
圖59UI(User Interface)設計方案與設計思維210
圖510Google搜索的用戶體驗211
圖511人與計算機圖像內容識別能力的不同211
圖512Amazon Mechanical Turk平臺213
圖513一個HIT的生命周期213
圖514基于人與計算機的數(shù)據(jù)處理成本曲線214
圖515亞馬遜的數(shù)據(jù)產品其他商家(Other Sellers)215
圖516LinkedIn的數(shù)據(jù)產品你可能認識的人們(People you may know)216
圖517LinkedIn的數(shù)據(jù)產品你的觀眾是誰216
圖518逆向交互定律217
圖519LinkedIn數(shù)據(jù)產品崗位推薦219
圖520LinkedIn的數(shù)據(jù)產品幫助你的朋友找到工作220
圖521Facebook的良好用戶體驗220
圖522DMM模型基本思路222
圖523CMM基本思想222
圖524CMM成熟度等級224
圖525DMM關鍵過程域225
圖526DMM層級劃分及描述227
圖527IDEAL模型229
圖528組織機構數(shù)據(jù)管理能力成熟度評估結果的可視化229
圖529數(shù)據(jù)戰(zhàn)略與數(shù)據(jù)管理目標的區(qū)別230
圖530數(shù)據(jù)戰(zhàn)略的目標231
圖531數(shù)據(jù)戰(zhàn)略的側重點231
圖532數(shù)據(jù)戰(zhàn)略的范疇231
圖533數(shù)據(jù)管理與數(shù)據(jù)治理的區(qū)別233
圖534IBM提出的企業(yè)數(shù)據(jù)管理的范疇233
圖535數(shù)據(jù)治理的PDCA模型234
圖536DGI數(shù)據(jù)治理框架235
圖537P2DR模型237
圖538從歐洲大陸的空戰(zhàn)中返回的轟炸機238
圖61KMeans算法的基本步驟267
圖62奧巴馬2012年總統(tǒng)競選芝加哥總部287
圖63George Clooney288
圖64Sarah Jessica Parker288
圖65奧巴馬及快速捐贈計劃290
圖66奧巴馬通過Reddit與選民互動291
圖672012年美國總統(tǒng)競選財務數(shù)據(jù)官方網站292
圖A1女性體重與身高的線性回歸分析314
圖A2工資數(shù)據(jù)的可視化327
圖A3起飛延誤時間339
圖A4到達延誤時間339
圖A5捐助人職業(yè)、黨派及捐助額度分析352
圖A6分箱處理后的捐款數(shù)據(jù)可視化353
圖A7捐款日期與金額的可視化354
圖A8捐款月份與金額變化分析355
圖A9投票結果的可視化357
表目錄
表11結構化數(shù)據(jù)、非結構化數(shù)據(jù)與半結構化數(shù)據(jù)的區(qū)別與聯(lián)系5
表12某數(shù)據(jù)科學家的畫像(Profile)37
表21參數(shù)估計與假設檢驗的主要區(qū)別53
表22統(tǒng)計學與機器學習的術語對照表57
表23機器學習的相關學科61
表24已知6部電影的類型及其中出現(xiàn)的接吻次數(shù)和打斗次數(shù)64
表25已知電影與未知電影的距離64
表26分析學習和歸納學習的比較70
表27Anscombe的四組數(shù)據(jù)(Anscombes Quartet)76
表31測試數(shù)據(jù)A86
表32測試數(shù)據(jù)B86
表33測試數(shù)據(jù)C86
表34Pew論壇部分人員信仰與收入數(shù)據(jù)統(tǒng)計(規(guī)整化處理之前)87
表35Pew論壇部分人員信仰與收入數(shù)據(jù)統(tǒng)計(規(guī)整化處理之后)87
表36探索性統(tǒng)計中常用的集中趨勢統(tǒng)計量89
表37探索性統(tǒng)計中常用的離散程度統(tǒng)計量89
表38探索性統(tǒng)計中常用的數(shù)據(jù)分布統(tǒng)計量89
表39常見的數(shù)據(jù)變換策略97
表310十進制第一數(shù)字的使用概率103
表311數(shù)據(jù)分析中常見錯誤109
表312數(shù)據(jù)類型及所支持的操作類型118
表313數(shù)據(jù)類型與視覺通道的對應關系118
表314數(shù)據(jù)故事化描述應遵循的基本原則128
表315數(shù)據(jù)科學項目中的主要角色及其任務130
表41Transformation常用函數(shù)166
表42Action常用函數(shù)166
表43RDD的存儲級別167
表44Spark數(shù)據(jù)類型和R數(shù)據(jù)類型之間的映射關系170
表45較有代表性的云數(shù)據(jù)庫產品174
表46NoSQL數(shù)據(jù)庫中常用的數(shù)據(jù)模型175
表47R與Python對比186
表48云計算的基本類型189
表49排名前10位數(shù)據(jù)科學產品的使用率及變化情況/4
表51數(shù)據(jù)轉換與數(shù)據(jù)加工的區(qū)別202
表52Google公司的十大產品與服務202
表53數(shù)據(jù)管理成熟度模型的過程域分類226
表54信息系統(tǒng)安全等級及保護基本要求237
表55腎結石治療數(shù)據(jù)分析兩種治療方案的分別統(tǒng)計240
表56兩種治療方案的匯總統(tǒng)計240
表61數(shù)據(jù)集women248
表62Protein數(shù)據(jù)集266
表63工資信息274
表64各字段的名稱及含義292
表A1Spark版本差異性331
表A2Spark與R的數(shù)據(jù)類型對比332
表A3SparkR與sparklyr比較340