關(guān)于我們
書單推薦
新書推薦
|
大數(shù)據(jù)技術(shù)基礎(chǔ)(第2版) 本書系統(tǒng)介紹了大數(shù)據(jù)基礎(chǔ)知識(shí)和相關(guān)技術(shù),全書分為大數(shù)據(jù)基礎(chǔ)、大數(shù)據(jù)存儲(chǔ)與管理篇、大數(shù)據(jù)采集與預(yù)處理、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)平臺(tái)Hadoop實(shí)踐與應(yīng)用案例5篇,共17章,主要內(nèi)容包括大數(shù)據(jù)基本概念、大數(shù)據(jù)平臺(tái)Hadoop基礎(chǔ)、大數(shù)據(jù)存儲(chǔ)與管理基本概念、大數(shù)據(jù)分布式文件系統(tǒng)HDFS、大數(shù)據(jù)分布式數(shù)據(jù)庫(kù)系統(tǒng)HBase、大數(shù)據(jù)分布式數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)Hive、大數(shù)據(jù)采集與預(yù)處理技術(shù)、大數(shù)據(jù)采集工具、大數(shù)據(jù)計(jì)算模式、大數(shù)據(jù)MapReduce計(jì)算模型、大數(shù)據(jù)Spark計(jì)算模型、大數(shù)據(jù)Flink計(jì)算模型、大數(shù)據(jù)MapReduce基礎(chǔ)算法、大數(shù)據(jù)挖掘算法、Hadoop大數(shù)據(jù)平臺(tái)實(shí)踐、開敞式碼頭系泊纜力預(yù)測(cè)應(yīng)用案例以及曙光XData大數(shù)據(jù)平臺(tái)及應(yīng)用案例。全書提供了大量應(yīng)用實(shí)例,且大多章后附有習(xí)題。本書特色在于融會(huì)貫通大數(shù)據(jù)基本概念與大數(shù)據(jù)技術(shù)及應(yīng)用,很好地將大數(shù)據(jù)概念、技術(shù)及應(yīng)用融合在一起,便于讀者更好地理解大數(shù)據(jù)基本概念,更快掌握大數(shù)據(jù)前沿技術(shù)及其應(yīng)用。 本書適合作為高等院校計(jì)算機(jī)、軟件工程、信息管理等相關(guān)專業(yè)的本科生及研究生大數(shù)據(jù)技術(shù)課程的教學(xué)用書,也可作為相關(guān)IT工程技術(shù)人員的參考用書。 本書全面系統(tǒng)地介紹了大數(shù)據(jù)基礎(chǔ)知識(shí)和相關(guān)技術(shù)。 《大數(shù)據(jù)技術(shù)基礎(chǔ)》第1版于2019年8月完成,距今已有4年多的時(shí)間。在過(guò)去的4年時(shí)間里,一方面,大數(shù)據(jù)技術(shù)發(fā)展迅猛,諸如Flink流計(jì)算等新技術(shù)迅速崛起,為大數(shù)據(jù)采集、存儲(chǔ)、處理和計(jì)算帶來(lái)眾多新概念、新框架和新方法。因此,我們對(duì)第1版內(nèi)容進(jìn)行了補(bǔ)充和修訂,例如,有關(guān)Kafka消息隊(duì)列、Flink流計(jì)算模型等內(nèi)容,以適應(yīng)大數(shù)據(jù)技術(shù)的快速發(fā)展,保持本書的先進(jìn)性。另一方面,我們結(jié)合廣大一線教師在使用本教材進(jìn)行教學(xué)過(guò)程中的收獲與體會(huì),以及提出的寶貴意見和修改建議,對(duì)第1版中有關(guān)大數(shù)據(jù)HBase數(shù)據(jù)庫(kù)和大數(shù)據(jù)Hive數(shù)據(jù)倉(cāng)庫(kù)操作實(shí)踐等內(nèi)容進(jìn)行了補(bǔ)充和修訂,以適應(yīng)廣大師生實(shí)踐大數(shù)據(jù)操作需求,保持本書的實(shí)用性。 本書依然保持融會(huì)貫通大數(shù)據(jù)概念與大數(shù)據(jù)技術(shù)及應(yīng)用特色,很好地將大數(shù)據(jù)概念、技術(shù)及應(yīng)用融合在一起,便于讀者更好地理解大數(shù)據(jù)基本概念,更快掌握大數(shù)據(jù)前沿技術(shù)及其應(yīng)用。本書依然沿用第1版的篇幅設(shè)計(jì),全書分為5篇: 大數(shù)據(jù)基礎(chǔ)、大數(shù)據(jù)存儲(chǔ)與管理、大數(shù)據(jù)采集與預(yù)處理、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)平臺(tái)Hadoop實(shí)踐與應(yīng)用案例。
修訂后,全書共17章,主要內(nèi)容包括大數(shù)據(jù)基本概念、大數(shù)據(jù)平臺(tái)Hadoop基礎(chǔ)、大數(shù)據(jù)存儲(chǔ)與管理基本概念、大數(shù)據(jù)分布式文件系統(tǒng)HDFS、大數(shù)據(jù)分布式數(shù)據(jù)庫(kù)系統(tǒng)HBase、大數(shù)據(jù)分布式數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)Hive、大數(shù)據(jù)采集與預(yù)處理技術(shù)、大數(shù)據(jù)采集工具、大數(shù)據(jù)計(jì)算模式、大數(shù)據(jù)MapReduce計(jì)算模型、大數(shù)據(jù)Spark計(jì)算模型、大數(shù)據(jù)Flink計(jì)算模型、大數(shù)據(jù)MapReduce基礎(chǔ)算法、大數(shù)據(jù)挖掘算法、Hadoop大數(shù)據(jù)平臺(tái)實(shí)踐、開敞式碼頭系泊纜力預(yù)測(cè)應(yīng)用案例以及曙光XData大數(shù)據(jù)平臺(tái)及應(yīng)用案例。全書提供了大量應(yīng)用實(shí)例,每章后附有習(xí)題。 本書適合作為高等院校計(jì)算機(jī)、軟件工程、信息管理等相關(guān)專業(yè)的本科生及研究生學(xué)習(xí)大數(shù)據(jù)技術(shù)的教學(xué)用書,也可作為相關(guān)IT工程技術(shù)人員的參考用書。 本書修訂由大連交通大學(xué)宋旭東擔(dān)任主編,劉月凡、宋亮、王立娟、李修飛擔(dān)任副主編,路文靜、路旭明、王春爽、于林林參編完成。在本書撰寫過(guò)程中,陳煜、李帥陽(yáng)、許翰文等做了大量輔助工作。在此,衷心感謝上述編寫參與人員在本書寫作過(guò)程中的共同努力和辛苦付出!
前言(第1版) 為滿足相關(guān)技術(shù)人員學(xué)習(xí)大數(shù)據(jù)相關(guān)技術(shù)的需求,我們?cè)诳偨Y(jié)近幾年在大數(shù)據(jù)技術(shù)課程教學(xué)經(jīng)驗(yàn)和項(xiàng)目成果的基礎(chǔ)上,同時(shí)引入中科曙光XData大數(shù)據(jù)相關(guān)技術(shù)及應(yīng)用案例,從理論結(jié)合實(shí)踐的角度,將大數(shù)據(jù)基本概念與大數(shù)據(jù)技術(shù)相結(jié)合,精心組織設(shè)計(jì)完成了本書。 本書全面系統(tǒng)地介紹了大數(shù)據(jù)基礎(chǔ)知識(shí)和相關(guān)技術(shù),全書分為: 大數(shù)據(jù)基礎(chǔ)、大數(shù)據(jù)存儲(chǔ)與管理、大數(shù)據(jù)采集與預(yù)處理、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)平臺(tái)Hadoop實(shí)踐與應(yīng)用案例5篇,共16章,主要內(nèi)容包括大數(shù)據(jù)基本概念、大數(shù)據(jù)存儲(chǔ)與管理概念及技術(shù)、大數(shù)據(jù)采集及預(yù)處理技術(shù)、大數(shù)據(jù)計(jì)算模式、大數(shù)據(jù)分布式并行處理框架Hadoop、大數(shù)據(jù)分布式文件系統(tǒng)HDFS、大數(shù)據(jù)分布式數(shù)據(jù)庫(kù)系統(tǒng)HBase、大數(shù)據(jù)分布式數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)Hive、大數(shù)據(jù)MapReduce分布式并行計(jì)算模型、大數(shù)據(jù)Spark內(nèi)存計(jì)算模型、大數(shù)據(jù)處理基礎(chǔ)算法、大數(shù)據(jù)關(guān)聯(lián)分析、分類、聚類典型數(shù)據(jù)挖掘算法、大數(shù)據(jù)Hadoop平臺(tái)操作實(shí)踐、大數(shù)據(jù)預(yù)測(cè)應(yīng)用案例分析以及中科曙光XData大數(shù)據(jù)平臺(tái)架構(gòu)、關(guān)鍵技術(shù)及其應(yīng)用案例。全書提供了大量應(yīng)用實(shí)例,每章后附有習(xí)題。本書特色在于融會(huì)貫通大數(shù)據(jù)基本概念與大數(shù)據(jù)技術(shù)及應(yīng)用,很好地將大數(shù)據(jù)概念、技術(shù)及應(yīng)用融合在一起,便于讀者更好地理解大數(shù)據(jù)基本概念,更快掌握大數(shù)據(jù)前沿技術(shù)及其應(yīng)用。 第一篇大數(shù)據(jù)基礎(chǔ): 本篇著重介紹大數(shù)據(jù)基本概念和大數(shù)據(jù)Hadoop平臺(tái)組件,旨在幫助讀者正確理解大數(shù)據(jù)的核心概念及其應(yīng)用技術(shù),為讀者后續(xù)章節(jié)的學(xué)習(xí)奠定基礎(chǔ)。本篇包括2章: 第1章主要介紹了大數(shù)據(jù)產(chǎn)生的背景及其發(fā)展歷程,大數(shù)據(jù)給我們科學(xué)研究及思維模式帶來(lái)的影響,大數(shù)據(jù)的4V特征及在科研、交通、通信、醫(yī)療、金融、制造、體育、個(gè)性化生活、安全等領(lǐng)域的應(yīng)用。同時(shí)也簡(jiǎn)要介紹了大數(shù)據(jù)框架體系和關(guān)鍵技術(shù),包括數(shù)據(jù)采集與預(yù)處理技術(shù)、數(shù)據(jù)存儲(chǔ)和管理技術(shù)、數(shù)據(jù)分析與挖掘技術(shù)、數(shù)據(jù)可視化技術(shù)、數(shù)據(jù)安全保護(hù)技術(shù)、云計(jì)算、物聯(lián)網(wǎng)和機(jī)器學(xué)習(xí)等技術(shù)。 第2章主要介紹了大數(shù)據(jù)并行計(jì)算框架Hadoop平臺(tái),包括Hadoop的項(xiàng)目來(lái)源、發(fā)展歷程、主要用途、分布式存儲(chǔ)和并行計(jì)算基本原理,以及對(duì)Hadoop平臺(tái)核心組件(HDFS、MapReduce、ZooKeeper、Yarn、HBase、Hive、Spark、Mahout等)的簡(jiǎn)要描述。 第二篇大數(shù)據(jù)存儲(chǔ)與管理: 本篇著重介紹大數(shù)據(jù)存儲(chǔ)與管理基本概念和常用的大數(shù)據(jù)分布式文件系統(tǒng)HDFS、大數(shù)據(jù)分布式數(shù)據(jù)庫(kù)系統(tǒng)HBase、大數(shù)據(jù)分布式數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)Hive,旨在幫助讀者正確理解大數(shù)據(jù)存儲(chǔ)與管理的核心概念及其相關(guān)軟件技術(shù)。本篇包括4章: 第3章主要介紹了大數(shù)據(jù)存儲(chǔ)與管理的基本概念和技術(shù),包括數(shù)據(jù)管理技術(shù)發(fā)展回顧,大數(shù)據(jù)數(shù)據(jù)類型,大數(shù)據(jù)分布式系統(tǒng)基礎(chǔ)理論,NoSQL數(shù)據(jù)庫(kù)的興起,以及與大數(shù)據(jù)存儲(chǔ)和管理密切相關(guān)的分布式存儲(chǔ)技術(shù)、虛擬化技術(shù)和云存儲(chǔ)技術(shù)。 第4章主要介紹了大數(shù)據(jù)分布式文件系統(tǒng)HDFS,包括HDFS的設(shè)計(jì)特點(diǎn),體系結(jié)構(gòu)和工作組件,闡述了HDFS工作流程,分析了在HDFS下讀寫數(shù)據(jù)的過(guò)程,圍繞HDFS基本操作,詳細(xì)介紹了HDFS文件操作命令,并對(duì)HDFS API主要編程接口進(jìn)行介紹,給出了編程實(shí)例。 第5章主要介紹了大數(shù)據(jù)分布式數(shù)據(jù)庫(kù)系統(tǒng)HBase,重點(diǎn)描述了HBase列式數(shù)據(jù)庫(kù)的邏輯模型和物理模型的基本概念,給出了HBase體系結(jié)構(gòu)及其工作原理。結(jié)合實(shí)例介紹了操作HBase表及其數(shù)據(jù)的操作命令,并對(duì)HBase API主要編程接口進(jìn)行介紹,給出了編程實(shí)例。
第三篇大數(shù)據(jù)采集與預(yù)處理: 本篇著重介紹大數(shù)據(jù)采集與預(yù)處理技術(shù),對(duì)常用大數(shù)據(jù)采集工具進(jìn)行了簡(jiǎn)單介紹。本篇包括2章: 第7章主要介紹了大數(shù)據(jù)采集與預(yù)處理相關(guān)技術(shù),包括數(shù)據(jù)抽取、轉(zhuǎn)換和加載技術(shù),數(shù)據(jù)爬蟲技術(shù)、數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約的方法和技術(shù)。 第8章主要介紹了幾個(gè)常用的大數(shù)據(jù)采集工具,包括Sqoop關(guān)系型大數(shù)據(jù)采集工具,F(xiàn)lume日志大數(shù)據(jù)采集工具和分布式大數(shù)據(jù)Nutch爬蟲系統(tǒng)。 第四篇大數(shù)據(jù)分析與挖掘: 本篇著重介紹了大數(shù)據(jù)計(jì)算模式,大數(shù)據(jù)MapReduce計(jì)算模型,大數(shù)據(jù)Spark內(nèi)存計(jì)算模型,以及大數(shù)據(jù)MapReduce基礎(chǔ)算法和挖掘算法,旨在幫助讀者全面理解大數(shù)據(jù)分析與挖掘的核心思想與編程技術(shù)。本篇包括5章: 第9章主要介紹了5種大數(shù)據(jù)計(jì)算模式,包括大數(shù)據(jù)批處理、大數(shù)據(jù)查詢分析計(jì)算、大數(shù)據(jù)流計(jì)算、大數(shù)據(jù)迭代計(jì)算、大數(shù)據(jù)圖計(jì)算。 第10章主要介紹了大數(shù)據(jù)MapReduce計(jì)算模型,包括MapReduce的由來(lái)、主要功能、技術(shù)特征,MapReduce的模型框架和數(shù)據(jù)處理過(guò)程,MapReduce程序執(zhí)行過(guò)程,以及MapReduce主要編程接口及WordCount實(shí)例分析。 第11章主要介紹了大數(shù)據(jù)Spark計(jì)算模型,包括Spark的產(chǎn)生、技術(shù)特征,Spark的工作流程與運(yùn)行模式,以及Spark主要訪問(wèn)接口并給出了三種WordCount編程實(shí)現(xiàn)。 第12章主要介紹了大數(shù)據(jù)MapReduce基礎(chǔ)算法,包括關(guān)系代數(shù)運(yùn)算的MapReduce設(shè)計(jì)與實(shí)現(xiàn),矩陣乘法的MapReduce設(shè)計(jì)與實(shí)現(xiàn)。 第13章主要介紹了大數(shù)據(jù)MapReduce挖掘算法,包括大數(shù)據(jù)關(guān)聯(lián)規(guī)則Apriori算法的MapReduce設(shè)計(jì)與實(shí)現(xiàn),大數(shù)據(jù)KNN分類算法的MapReduce設(shè)計(jì)與實(shí)現(xiàn),大數(shù)據(jù)KMeans聚類算法的MapReduce設(shè)計(jì)與實(shí)現(xiàn)。 第五篇大數(shù)據(jù)平臺(tái)Hadoop實(shí)踐與應(yīng)用案例: 本篇著重介紹大數(shù)據(jù)Hadoop平臺(tái)的實(shí)踐操作,給出了大數(shù)據(jù)技術(shù)在開敞式碼頭系泊纜力預(yù)測(cè)中的應(yīng)用,以及中科曙光XData大數(shù)據(jù)平臺(tái)架構(gòu)、關(guān)鍵技術(shù)及其應(yīng)用案例,旨在幫助讀者理解如何將大數(shù)據(jù)的方法和技術(shù)運(yùn)用到實(shí)際項(xiàng)目需求中,促進(jìn)大數(shù)據(jù)技術(shù)在各領(lǐng)域行業(yè)中的應(yīng)用。本篇包括3章: 第14章主要介紹了Hadoop大數(shù)據(jù)平臺(tái)操作實(shí)踐,包括Hadoop系統(tǒng)的安裝與配置詳細(xì)操作,Hadoop平臺(tái)文件操作及程序運(yùn)行命令,以及Hadoop平臺(tái)下程序開發(fā)方法和過(guò)程。 第15章主要介紹了大數(shù)據(jù)方法和技術(shù)在開敞式碼頭系泊纜力預(yù)測(cè)中的應(yīng)用,給出了大數(shù)據(jù)系泊纜力相似性查詢預(yù)測(cè)方法,并基于Hadoop大數(shù)據(jù)平臺(tái)完成了系泊纜力預(yù)測(cè)的相似性查詢方法MapReduce設(shè)計(jì)與實(shí)現(xiàn)。 第16章主要介紹了中科曙光XData大數(shù)據(jù)方法的架構(gòu)及關(guān)鍵技術(shù),包括曙光XData大數(shù)據(jù)集成與數(shù)據(jù)治理組件、大數(shù)據(jù)存儲(chǔ)與數(shù)據(jù)計(jì)算組件、大數(shù)據(jù)分析與數(shù)據(jù)智能組件、大數(shù)據(jù)可視化分析組件、大數(shù)據(jù)安全管控與管理運(yùn)維組件,并給出了基于曙光XData大數(shù)據(jù)平臺(tái)的智能交通應(yīng)用案例。 本書適合作為高等院校計(jì)算機(jī)、軟件工程、信息管理等相關(guān)專業(yè)的本科生及研究生大數(shù)據(jù)技術(shù)課程的教材,也可作為相關(guān)IT工程技術(shù)人員的參考用書。 本書由大連交通大學(xué)宋旭東教授擔(dān)任主編、并輔助全書內(nèi)容的組織和編審。宋亮、王立娟、張鵬擔(dān)任副主編。本書第一篇、第四篇、第五篇由宋旭東編寫,第二篇由宋亮編寫,第7章由王立娟編寫,第8章由張鵬編寫。在本書撰寫過(guò)程中,叢郁洋、楊杰、朱大杰等研究生做了大量輔助工作。中科曙光大數(shù)據(jù)部副總經(jīng)理郭慶先生、曙光大數(shù)據(jù)團(tuán)隊(duì)工程師參編了第16章工作。張旗教授對(duì)全書進(jìn)行了審閱!在此,衷心感謝上述著作編寫參與人員在本書寫作過(guò)程中的共同努力和辛苦付出!感謝中科曙光公司對(duì)本書出版給予的大力支持和幫助! 在本書撰寫過(guò)程中,參考了大量國(guó)內(nèi)外教材、論文、技術(shù)論壇等相關(guān)資料。由于作者水平有限,書中不足之處在所難免,敬請(qǐng)廣大讀者批評(píng)指正。
第1篇大數(shù)據(jù)基礎(chǔ) 第1章大數(shù)據(jù)基本概念
1.1.1大數(shù)據(jù)有多大 1.1.2大數(shù)據(jù)的產(chǎn)生 1.1.3大數(shù)據(jù)的發(fā)展歷程 1.1.4大數(shù)據(jù)對(duì)科學(xué)研究的影響 1.1.5大數(shù)據(jù)對(duì)思維模式的影響 1.2大數(shù)據(jù)的定義與特征 1.2.1大數(shù)據(jù)的定義 1.2.2大數(shù)據(jù)的數(shù)據(jù)特征 1.3大數(shù)據(jù)的應(yīng)用 1.3.1大數(shù)據(jù)在科研領(lǐng)域的應(yīng)用 1.3.2大數(shù)據(jù)在交通領(lǐng)域的應(yīng)用 1.3.3大數(shù)據(jù)在通信領(lǐng)域的應(yīng)用 1.3.4大數(shù)據(jù)在醫(yī)療領(lǐng)域的應(yīng)用 1.3.5大數(shù)據(jù)在金融領(lǐng)域的應(yīng)用 1.3.6大數(shù)據(jù)在制造領(lǐng)域的應(yīng)用 1.3.7大數(shù)據(jù)在體育領(lǐng)域的應(yīng)用 1.3.8大數(shù)據(jù)在個(gè)性化生活領(lǐng)域的應(yīng)用 1.3.9大數(shù)據(jù)在安全領(lǐng)域的應(yīng)用 1.4大數(shù)據(jù)框架體系 1.4.1大數(shù)據(jù)基礎(chǔ)設(shè)施層 1.4.2大數(shù)據(jù)采集層 1.4.3大數(shù)據(jù)存儲(chǔ)層 1.4.4大數(shù)據(jù)處理層 1.4.5大數(shù)據(jù)交互展示層 1.4.6大數(shù)據(jù)應(yīng)用層
1.5.1數(shù)據(jù)采集與預(yù)處理技術(shù) 1.5.2數(shù)據(jù)存儲(chǔ)和管理技術(shù) 1.5.3數(shù)據(jù)分析與挖掘技術(shù) 1.5.4數(shù)據(jù)可視化技術(shù) 1.5.5數(shù)據(jù)安全和隱私保護(hù)技術(shù) 1.6大數(shù)據(jù)支撐技術(shù) 1.6.1云計(jì)算 1.6.2物聯(lián)網(wǎng) 1.6.3人工智能 習(xí)題
2.1大數(shù)據(jù)平臺(tái)Hadoop概述 2.1.1Hadoop簡(jiǎn)介 2.1.2Hadoop項(xiàng)目起源 2.1.3Hadoop發(fā)展歷程 2.1.4Hadoop特性 2.1.5Hadoop主要用途 2.2大數(shù)據(jù)平臺(tái)Hadoop原理 2.2.1分布式計(jì)算原理 2.2.2MapReduce原理 2.2.3Yarn原理 2.3大數(shù)據(jù)平臺(tái)Hadoop組件 2.3.1HDFS組件 2.3.2MapReduce組件 2.3.3ZooKeeper組件 2.3.4Yarn組件 2.3.5HBase組件 2.3.6Hive組件 2.3.7Spark組件 2.3.8Mahout組件 2.3.9Flume組件 2.3.10Sqoop組件 2.3.11Kafka組件 2.3.12Pig組件 2.3.13Ambari組件 2.3.14Tez組件 2.3.15Common組件 習(xí)題 第2篇大數(shù)據(jù)存儲(chǔ)與管理 第3章大數(shù)據(jù)存儲(chǔ)與管理基本概念 3.1大數(shù)據(jù)的數(shù)據(jù)類型 3.1.1結(jié)構(gòu)化數(shù)據(jù) 3.1.2半結(jié)構(gòu)化數(shù)據(jù) 3.1.3非結(jié)構(gòu)化數(shù)據(jù) 3.2數(shù)據(jù)管理技術(shù)的發(fā)展 3.2.1文件系統(tǒng)階段 3.2.2數(shù)據(jù)庫(kù)系統(tǒng)階段 3.2.3數(shù)據(jù)倉(cāng)庫(kù)階段 3.2.4分布式系統(tǒng)階段 3.3分布式系統(tǒng)基礎(chǔ)理論 3.3.1CAP理論 3.3.2BASE思想 3.4NoSQL數(shù)據(jù)庫(kù) 3.4.1NoSQL數(shù)據(jù)庫(kù)的興起 3.4.2NoSQL數(shù)據(jù)庫(kù)與關(guān)系數(shù)據(jù)庫(kù)的比較 3.4.3NoSQL數(shù)據(jù)庫(kù)的4大類型 3.5大數(shù)據(jù)存儲(chǔ)與管理技術(shù) 3.5.1分布式存儲(chǔ)技術(shù) 3.5.2虛擬化技術(shù) 3.5.3云存儲(chǔ)技術(shù) 習(xí)題 第4章大數(shù)據(jù)分布式文件系統(tǒng)HDFS 4.1HDFS概述 4.1.1HDFS簡(jiǎn)介 4.1.2HDFS設(shè)計(jì)特點(diǎn) 4.2HDFS工作原理 4.2.1HDFS體系結(jié)構(gòu) 4.2.2HDFS工作組件 4.3HDFS工作流程 4.3.1讀數(shù)據(jù)的過(guò)程 4.3.2寫數(shù)據(jù)的過(guò)程 4.4HDFS基本操作 4.4.1HDFS文件操作 4.4.2HDFS管理命令 4.5HDFS編程接口 4.5.1HDFS常用Java API 4.5.2HDFS API編程實(shí)例 習(xí)題 第5章大數(shù)據(jù)分布式數(shù)據(jù)庫(kù)系統(tǒng)HBase 5.1HBase概述 5.1.1HBase簡(jiǎn)介 5.1.2HBase特性 5.1.3HBase與傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)對(duì)比 5.1.4HBase應(yīng)用場(chǎng)景 5.2HBase數(shù)據(jù)模型 5.2.1HBase數(shù)據(jù)模型術(shù)語(yǔ) 5.2.2HBase數(shù)據(jù)邏輯模型 5.2.3HBase數(shù)據(jù)物理模型 5.3HBase工作原理 5.3.1HBase體系結(jié)構(gòu) 5.3.2HBase工作組件 5.4HBase安裝 5.4.1下載HBase 5.4.2安裝HBase 5.4.3啟動(dòng)HBase 5.4.4關(guān)閉HBase 5.5HBase操作命令 5.5.1HBase表操作 5.5.2HBase數(shù)據(jù)操作 5.6HBase編程接口 5.6.1HBase常用Java API 5.6.2HBase API編程實(shí)例 習(xí)題 第6章大數(shù)據(jù)分布式數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)Hive 6.1Hive概述 6.1.1Hive特性 6.1.2Hive工作原理 6.1.3Hive執(zhí)行流程 6.2Hive數(shù)據(jù)類型及數(shù)據(jù)模型 6.2.1Hive數(shù)據(jù)類型 6.2.2Hive數(shù)據(jù)模型 6.3安裝Hive 6.3.1下載Hive 6.3.2安裝配置Hive 6.3.3安裝MySQL 6.3.4配置MySQL允許Hive接入 6.3.5啟動(dòng)Hive 6.3.6關(guān)閉Hive 6.4Hive SQL 6.4.1DDL語(yǔ)句 6.4.2DML語(yǔ)句 6.4.3DQL語(yǔ)句 6.4.4Hive操作實(shí)例 6.5Hive訪問(wèn)接口 6.5.1Hive CLI訪問(wèn)接口 6.5.2JDBC訪問(wèn)接口 習(xí)題 第3篇大數(shù)據(jù)采集與預(yù)處理 第7章大數(shù)據(jù)采集與預(yù)處理技術(shù) 7.1數(shù)據(jù)抽取、轉(zhuǎn)換、加載技術(shù) 7.1.1ETL概述 7.1.2數(shù)據(jù)抽取 7.1.3數(shù)據(jù)轉(zhuǎn)換 7.1.4數(shù)據(jù)加載 7.1.5ETL工具 7.2數(shù)據(jù)爬蟲技術(shù) 7.2.1爬蟲流程 7.2.2爬蟲分類 7.2.3大數(shù)據(jù)爬蟲技術(shù) 7.3數(shù)據(jù)預(yù)處理技術(shù) 7.3.1數(shù)據(jù)清理 7.3.2數(shù)據(jù)集成 7.3.3數(shù)據(jù)變換 7.3.4數(shù)據(jù)歸約 習(xí)題 第8章大數(shù)據(jù)采集工具 8.1Sqoop關(guān)系型大數(shù)據(jù)采集系統(tǒng) 8.1.1Sqoop簡(jiǎn)介 8.1.2Sqoop工作原理 8.2Flume日志大數(shù)據(jù)采集系統(tǒng) 8.2.1Flume簡(jiǎn)介 8.2.2Flume工作原理 8.2.3Flume的配置與啟動(dòng) 8.3Kafka消息隊(duì)列大數(shù)據(jù)采集系統(tǒng) 8.3.1Kafka簡(jiǎn)介 8.3.2Kafka工作原理 8.3.3Kafka的配置與啟動(dòng)
8.4.1Nutch簡(jiǎn)介 8.4.2Nutch工作原理 習(xí)題 第4篇大數(shù)據(jù)分析與挖掘 第9章大數(shù)據(jù)計(jì)算模式 9.1大數(shù)據(jù)批處理 9.1.1大數(shù)據(jù)批處理概述 9.1.2大數(shù)據(jù)批處理常用組件 9.2大數(shù)據(jù)查詢分析計(jì)算 9.2.1大數(shù)據(jù)查詢分析計(jì)算概述 9.2.2大數(shù)據(jù)查詢分析計(jì)算組件 9.3大數(shù)據(jù)流計(jì)算 9.3.1大數(shù)據(jù)流計(jì)算概述 9.3.2大數(shù)據(jù)流計(jì)算組件 9.4大數(shù)據(jù)迭代計(jì)算 9.4.1大數(shù)據(jù)迭代計(jì)算概述 9.4.2迭代計(jì)算組件 9.5大數(shù)據(jù)圖計(jì)算 9.5.1大數(shù)據(jù)圖計(jì)算概述 9.5.2圖計(jì)算組件 習(xí)題
10.1MapReduce概述 10.1.1MapReduce簡(jiǎn)介 10.1.2MapReduce由來(lái) 10.1.3MapReduce主要功能 10.1.4MapReduce技術(shù)特征 10.2MapReduce模型框架 10.2.1MapReduce設(shè)計(jì)思想 10.2.2MapReduce模型架構(gòu) 10.3MapReduce數(shù)據(jù)處理過(guò)程 10.3.1MapReduce運(yùn)行原理 10.3.2數(shù)據(jù)輸入輸出流程 10.4MapReduce程序執(zhí)行過(guò)程 10.4.1作業(yè)提交 10.4.2作業(yè)初始化 10.4.3作業(yè)分配 10.4.4任務(wù)執(zhí)行 10.4.5過(guò)程和狀態(tài)更新 10.4.6作業(yè)完成 10.5MapReduce編程接口 10.5.1數(shù)據(jù)讀入 10.5.2Mapper類和Reducer類 10.5.3數(shù)據(jù)處理 10.5.4數(shù)據(jù)輸出 10.6MapReduce實(shí)例分析 10.6.1WordCount MapReduce設(shè)計(jì) 10.6.2WordCount編程實(shí)現(xiàn) 習(xí)題 第11章大數(shù)據(jù)Spark計(jì)算模型 11.1Spark概述 11.1.1Spark產(chǎn)生 11.1.2Spark的相關(guān)概念及其組件 11.1.3Spark特性 11.2Spark工作原理 11.2.1RDD原理 11.2.2Spark工作流程 11.2.3Spark集群架構(gòu)及運(yùn)行模式 11.2.4Spark Streaming工作原理 11.3Spark訪問(wèn)接口 11.3.1Spark訪問(wèn)接口概述 11.3.2SparkContext 訪問(wèn)接口 11.3.3RDD 訪問(wèn)接口 11.4Spark實(shí)例分析 11.4.1Spark Shell WordCount編程實(shí)現(xiàn) 11.4.2Scala WordCount編程實(shí)現(xiàn) 11.4.3Java WordCount編程實(shí)現(xiàn) 習(xí)題 第12章大數(shù)據(jù)Flink計(jì)算模型 12.1Flink概述 12.1.1Flink簡(jiǎn)介 12.1.2Flink的由來(lái) 12.1.3Flink流處理 12.1.4Flink的核心特性 12.2Flink工作原理 12.2.1Flink的計(jì)算框架 12.2.2Flink的體系結(jié)構(gòu) 12.2.3Flink的運(yùn)行架構(gòu) 12.3Flink編程接口 12.3.1Flink的編程模型 12.3.2Flink的編程結(jié)構(gòu) 12.4Flink實(shí)例分析 12.4.1Scala WordCount編程實(shí)現(xiàn) 12.4.2Java WordCount編程實(shí)現(xiàn) 習(xí)題 第13章大數(shù)據(jù)MapReduce基礎(chǔ)算法 13.1關(guān)系代數(shù)運(yùn)算 13.1.1關(guān)系代數(shù)運(yùn)算規(guī)則 13.1.2關(guān)系代數(shù)運(yùn)算的MapReduce設(shè)計(jì)與實(shí)現(xiàn) 13.2矩陣乘法 13.2.1矩陣乘法原理 13.2.2矩陣乘法MapReduce設(shè)計(jì) 13.2.3矩陣乘法MapReduce實(shí)現(xiàn) 習(xí)題 第14章大數(shù)據(jù)挖掘算法 14.1大數(shù)據(jù)關(guān)聯(lián)分析算法 14.1.1Apriori算法簡(jiǎn)介 14.1.2Apriori算法MapReduce設(shè)計(jì) 14.1.3Apriori算法MapReduce實(shí)現(xiàn) 14.2大數(shù)據(jù)KNN分類算法 14.2.1KNN分類算法簡(jiǎn)介 14.2.2KNN算法MapReduce設(shè)計(jì) 14.2.3KNN算法MapReduce實(shí)現(xiàn) 14.3大數(shù)據(jù)KMeans聚類算法 14.3.1KMeans聚類算法簡(jiǎn)介 14.3.2基于MapReduce的KMeans算法的設(shè)計(jì) 14.3.3基于MapReduce的KMeans算法的實(shí)現(xiàn) 14.4大數(shù)據(jù)回歸分析算法 14.4.1大數(shù)據(jù)回歸分析算法簡(jiǎn)介 14.4.2基于MapReduce的多元回歸分析算法設(shè)計(jì) 14.4.3基于MapReduce的多元回歸分析算法的實(shí)現(xiàn) 習(xí)題
第15章Hadoop大數(shù)據(jù)平臺(tái)實(shí)踐 15.1Hadoop系統(tǒng)的安裝與配置 15.1.1安裝前的準(zhǔn)備工作 15.1.2Linux虛擬機(jī)的安裝 15.1.3安裝和配置JDK 15.1.4下載安裝Hadoop 15.1.5SSH免密登錄 15.1.6虛擬機(jī)克隆 15.1.7Hadoop運(yùn)行 15.1.8查看集群狀態(tài) 15.2Hadoop平臺(tái)基本操作 15.2.1Hadoop啟動(dòng)與關(guān)閉命令 15.2.2Hadoop文件操作 15.2.3Hadoop程序運(yùn)行命令 15.3Hadoop平臺(tái)程序開發(fā)過(guò)程 15.3.1開發(fā)環(huán)境配置 15.3.2程序開發(fā)流程 習(xí)題
16.1開敞式碼頭系泊纜力預(yù)測(cè)背景描述 16.1.1開敞式碼頭系泊作業(yè)背景描述 16.1.2開敞式碼頭系泊纜力預(yù)測(cè)背景 16.2大數(shù)據(jù)系泊纜力相似性查詢預(yù)測(cè)方法 16.2.1模糊相似性查詢基本方法 16.2.2系泊纜力相似性查詢預(yù)測(cè)模型 16.3相似性查詢預(yù)測(cè)方法MapReduce設(shè)計(jì) 16.3.1相似性查詢預(yù)測(cè)方法Map設(shè)計(jì) 16.3.2相似性查詢預(yù)測(cè)方法Reduce設(shè)計(jì) 16.4相似性查詢預(yù)測(cè)方法MapReduce實(shí)現(xiàn) 16.4.1系泊纜力預(yù)測(cè)結(jié)果展示 16.4.2系泊纜力預(yù)測(cè)結(jié)果分析 第17章曙光XData大數(shù)據(jù)平臺(tái)及應(yīng)用案例 17.1曙光XData大數(shù)據(jù)平臺(tái)簡(jiǎn)介 17.1.1曙光XData大數(shù)據(jù)平臺(tái)概述 17.1.2曙光XData大數(shù)據(jù)平臺(tái)特點(diǎn)及應(yīng)用 17.2曙光大數(shù)據(jù)平臺(tái)架構(gòu)及關(guān)鍵技術(shù) 17.2.1曙光XData大數(shù)據(jù)平臺(tái)架構(gòu) 17.2.2曙光XData大數(shù)據(jù)平臺(tái)關(guān)鍵技術(shù) 17.3曙光XData大數(shù)據(jù)平臺(tái)組件 17.3.1曙光XData大數(shù)據(jù)集成與數(shù)據(jù)治理組件 17.3.2曙光XData大數(shù)據(jù)存儲(chǔ)與數(shù)據(jù)計(jì)算組件 17.3.3曙光XData大數(shù)據(jù)分析與數(shù)據(jù)智能組件 17.3.4曙光XData大數(shù)據(jù)可視化分析組件 17.3.5曙光XData大數(shù)據(jù)安全管控與管理運(yùn)維組件 17.4曙光XData大數(shù)據(jù)平臺(tái)操作實(shí)踐 17.4.1曙光XData大數(shù)據(jù)平臺(tái)安裝與配置概述 17.4.2曙光XData大數(shù)據(jù)平臺(tái)基本操作 17.5基于曙光XData大數(shù)據(jù)平臺(tái)的智能交通應(yīng)用案例 17.5.1曙光XData智能交通應(yīng)用項(xiàng)目背景 17.5.2曙光XData智能交通應(yīng)用方案設(shè)計(jì) 17.5.3曙光XData智能交通功能實(shí)現(xiàn)及應(yīng)用效果 參考文獻(xiàn)
你還可能感興趣
我要評(píng)論
|