本書是面向商業(yè)和技術專業(yè)人員的大數據權威指南,清楚地介紹了大數據相關的概念、理論、術語與基礎技術,并使用真實連貫的商業(yè)案例以及簡單的圖表,幫助讀者更清晰地理解大數據技術。本書可作為高等院校相關專業(yè)“大數據基礎”、“大數據道路”等課程的教材,也可供有一定實踐經驗的軟件開發(fā)人員、管理人員和所有對大數據感興趣的人士閱讀。
譯者序現今,“大數據”已經成為全球科技界和企業(yè)界關注的熱點。數據為王的時代已經到來,各行各業(yè)高度關注大數據的研究和應用。企業(yè)關注的重點從追求計算機的計算速度轉變?yōu)樽非蟠髷祿幚砟芰Γ瑥囊攒浖幊虨橹鬓D變?yōu)橐詳祿䴙橹行。在云計算技術和海量數據存儲技術的助力下,大數據已經成為當前學術界、工業(yè)界的熱點和焦點。大數據的出現將會對社會各個領域產生深刻影響。從公司戰(zhàn)略到產業(yè)生態(tài),從學術研究到生產實踐,從城鎮(zhèn)管理到國家治理,都將發(fā)生本質的變化,大數據將成為時代變革的力量!坝脭祿䜩碚f話、用數據來管理、用數據來決策、用數據來創(chuàng)新”的文化氛圍與時代特征愈發(fā)鮮明。大數據時代需要一大批具備大數據知識的專業(yè)人才,他們應能有效地將數據科學和各行各業(yè)的應用相結合,推動新技術和新應用的發(fā)展。因此,掌握大數據核心技術且擁有專業(yè)領域知識的人才儲備成為國家大數據戰(zhàn)略布局的重中之重。
在本書中,IT暢銷書作者ThomasErl和他的團隊清楚地解釋了關鍵的大數據概念、理論和術語,以及基本的大數據技術和方法。本書分兩部分:第一部分主要從商業(yè)相關問題的討論引出大數據的驅動力,解釋了如何通過大數據推動企業(yè)的發(fā)展,介紹了大數據的應用背景和基本概念;第二部分主要是大數據技術相關問題的討論,重點介紹了大數據的存儲技術和分析方法。本書的特色在于每一章后都有案例學習,用一家大型的保險公司ETI對大數據的應用案例貫穿始終,為相關章節(jié)的知識應用提供了現實場景,以加深讀者對大數據實際應用的認識。另外,本書大量應用了簡單的圖表說明。這些都使得本書非常實用且通俗易懂,因此,本書特別適合作為了解大數據基本知識和相關技術的入門教材,也可以作為高校的通識課教材來使用。
在本書翻譯過程中,武漢大學計算機學院的劉歆文、李卓、史成良、陳洪洋、賀瀟雅、萬言歷、陳昊等同學做了大量輔助性工作,在此,向這些同學的辛勤工作表示衷心的感謝。
由于譯者能力有限,譯稿難免存在疏漏及不足之處,望廣大讀者不吝賜教。
?ThomasErlThomasErl是IT暢銷書作者,Arcitura教育公司的創(chuàng)始人,PrenticeHall出版社“ThomasErl的服務技術叢書”的編輯。他的書發(fā)行量超過200000冊,成為國際暢銷書,并且已經獲得多個重要IT組織成員的正式認可,例如,IBM、Microsoft、Oracle、Intel、Accenture、IEEE、HL7、MITRE、SAP、CISCO、HP等。作為Arcitura公司的CEO,Thomas領導研發(fā)了國際公認的大數據科學專家認證(BDSCP)、云專家認證(CCP)與SOA專家認證(SOACP)的課程大綱,設立了一系列正式的、與廠商無關的工業(yè)認證,全球已有數千IT從業(yè)人員獲得了這些認證。Thomas還作為演講家與教育家,在20多個國家進行過巡回演講。Thomas已經在諸多出刊物上發(fā)表過100多篇文章和訪談,包括《華爾街日報》與《CIO雜志》。
WajidKhattakWajidKhattak是Arcitura教育公司的大數據研究者與教育者。他的研究領域包括大數據工程與架構、數據科學、機器學習、分析學與SOA。此外,他在商務智能報告解決方案與GIS方面有著豐富的.NET軟件開發(fā)經驗。
Wajid于2003年在英國伯明翰城市大學獲得軟件工程學士學位,于2008年在該校以杰出的成績獲得軟件工程與安全碩士學位。另外,Wajid還獲得了MCAD&MCTS(Microsoft)、SOA架構師、大數據科學家、大數據工程師以及大數據研究顧問(Arcitura)認證。
PaulBuhlerPaulBuhler博士是一位經驗豐富的IT專家,他在商業(yè)公司、政府機構和學校均有過從業(yè)經驗。在面向服務的計算概念、技術和實現方法領域,他是一位受人尊敬的研究者、實踐者與教育者。他在XaaS領域的研究已經延伸到了云、大數據與萬物互聯(lián)網(IoE)。目前他的研究興趣是通過權衡響應式設計原則與基于目標的執(zhí)行方式,減少業(yè)務策略與流程執(zhí)行之間的差距。
作為Modus21的首席科學家,PaulBuhler博士根據當前業(yè)務架構與流程執(zhí)行框架的發(fā)展趨勢調整企業(yè)的戰(zhàn)略布局。目前,他還是查爾斯頓學院的合作教授,負責本科生與碩士生計算機科學課程的教學工作。PaulBuhler博士在南卡羅來納大學獲得計算機工程博士學位,在約翰霍普金斯大學獲得計算機科學碩士學位,在塞特多大學獲得計算機科學學士學位。
目 錄
譯者序
致謝
作者簡介
第一部分 大數據基礎
第1章 理解大數據3
1.1 概念與術語4
1.1.1 數據集4
1.1.2 數據分析5
1.1.3 數據分析學5
1.1.4 商務智能11
1.1.5 關鍵績效指標11
1.2 大數據特征12
1.2.1 容量12
1.2.2 速率13
1.2.3 多樣性13
1.2.4 真實性14
1.2.5 價值14
1.3 不同數據類型15
1.3.1 結構化數據16
1.3.2 非結構化數據17
1.3.3 半結構化數據17
1.3.4 元數據18
1.4 案例學習背景18
1.4.1 歷史背景18
1.4.2 技術基礎和自動化環(huán)境19
1.4.3 商業(yè)目標和障礙20
1.5 案例學習21
1.5.1 確定數據特征22
1.5.2 確定數據類型24
第2章 采用大數據的商業(yè)動機與驅動25
2.1 市場動態(tài)25
2.2 業(yè)務架構27
2.3 業(yè)務流程管理30
2.4 信息與通信技術31
2.4.1 數據分析與數據科學31
2.4.2 數字化31
2.4.3 開源技術與商用硬件32
2.4.4 社交媒體33
2.4.5 超連通社區(qū)與設備33
2.4.6 云計算34
2.5 萬物互聯(lián)網35
2.6 案例學習35
第3章 大數據采用及規(guī)劃考慮39
3.1 組織的先決條件40
3.2 數據獲取40
3.3 隱私性40
3.4 安全性41
3.5 數據來源42
3.6 有限的實時支持43
3.7 不同的性能挑戰(zhàn)43
3.8 不同的管理需求43
3.9 不同的方法論44
3.10 云44
3.11 大數據分析的生命周期45
3.11.1 商業(yè)案例評估45
3.11.2 數據標識47
3.11.3 數據獲取與過濾47
3.11.4 數據提取48
3.11.5 數據驗證與清理49
3.11.6 數據聚合與表示50
3.11.7 數據分析52
3.11.8 數據可視化52
3.11.9 分析結果的使用53
3.12 案例學習54
3.12.1 大數據分析的生命周期55
3.12.2 商業(yè)案例評估55
3.12.3 數據標識56
3.12.4 數據獲取與過濾56
3.12.5 數據提取57
3.12.6 數據驗證與清理57
3.12.7 數據聚合與表示57
3.12.8 數據分析57
3.12.9 數據可視化58
3.12.10 分析結果的使用58
第4章 企業(yè)級技術與大數據商務智能59
4.1 聯(lián)機事務處理60
4.2 聯(lián)機分析處理60
4.3 抽取、轉換和加載技術61
4.4 數據倉庫61
4.5 數據集市62
4.6 傳統(tǒng)商務智能62
4.6.1 即席報表63
4.6.2 儀表板63
4.7 大數據商務智能65
4.7.1 傳統(tǒng)數據可視化65
4.7.2 大數據的數據可視化66
4.8 案例學習67
4.8.1 企業(yè)技術67
4.8.2 大數據商務智能68
第二部分 存儲和分析大數據
第5章 大數據存儲的概念71
5.1 集群72
5.2 文件系統(tǒng)和分布式文件系統(tǒng)72
5.3 NoSQL73
5.4 分片74
5.5 復制75
5.5.1 主從式復制76
5.5.2 對等式復制77
5.6 分片和復制80
5.6.1 結合分片和主從式復制80
5.6.2 結合分片和對等式復制81
5.7 CAP定理82
5.8 ACID85
5.9 BASE88
5.10 案例學習91
第6章 大數據處理的概念93
6.1 并行數據處理93
6.2 分布式數據處理94
6.3 Hadoop94
6.4 處理工作量95
6.4.1 批處理型95
6.4.2 事務型95
6.5 集群96
6.6 批處理模式97
6.6.1 MapReduce批處理97
6.6.2 Map和Reduce任務98
6.6.3 MapReduce的簡單實例103
6.6.4 理解MapReduce算法104
6.7 實時模式處理107
6.7.1 SCV原則107
6.7.2 事件流處理110
6.7.3 復雜事件處理110
6.7.4 大數據實時處理與SCV110
6.7.5 大數據實時處理與MapReduce111
6.8 案例學習112
6.8.1 處理工作量112
6.8.2 批處理模式處理112
6.8.3 實時模式處理113
第7章 大數據存儲技術115
7.1 磁盤存儲設備115
7.1.1 分布式文件系統(tǒng)116
7.1.2 RDBMS數據庫117
7.1.3 NoSQL數據庫119
7.1.4 NewSQL數據庫128
7.2 內存存儲設備129
7.2.1 內存數據網格131
7.2.2 內存數據庫138
7.3 案例學習141
第8章 大數據分析技術143
8.1 定量分析144
8.2 定性分析145
8.3 數據挖掘145
8.4 統(tǒng)計分析146
8.4.1 A/B測試146
8.4.2 相關性分析147
8.4.3 回歸性分析149
8.5 機器學習150
8.5.1 分類(有監(jiān)督的機器學習)151
8.5.2 聚類(無監(jiān)督的機器學習)152
8.5.3 異常檢測152
8.5.4 過濾153
8.6 語義分析154
8.6.1 自然語言處理155
8.6.2 文本分析155
8.6.3 情感分析156
8.7 視覺分析157
8.7.1 熱點圖157
8.7.2 時間序列圖159
8.7.3 網絡圖160
8.7.4 空間數據制圖161
8.8 案例學習162
8.8.1 相關性分析162
8.8.2 回歸性分析162
8.8.3 時間序列圖163
8.8.4 聚類163
8.8.5 分類163
附錄A 案例結論165
索引167