日韩av无码国产精品,日本aⅴ在线观看,91精选视频在线观看

本書分兩部分，共8章，介紹了如何使用開源工具和技術(shù)開發(fā)與實(shí)現(xiàn)大規(guī)模分布式處理系統(tǒng)，涵蓋構(gòu)建高性能分布式計(jì)算系統(tǒng)的方法和佳實(shí)踐。第一部分（第1~4章）介紹了高性能分布式計(jì)算編程的基礎(chǔ)知識(shí)，包括分布式系統(tǒng)、Hadoop入門、Spark入門、Scalding入門等；第二部分（第5~8章）給出了使用Hadoop、Spark、Scalding的案例研究，涉及數(shù)據(jù)聚類、數(shù)據(jù)分類、回歸分析、推薦系統(tǒng)等。本書適合作為高等院校計(jì)算機(jī)相關(guān)專業(yè)的教材，也適合作為軟件工程師、應(yīng)用開發(fā)人員、科研人員的參考書。

前　　言過去的二十年中，隨著計(jì)算機(jī)的使用越來越廣泛，產(chǎn)生了大量的數(shù)據(jù)。生產(chǎn)與生活中各類設(shè)備和工具的數(shù)字化也促進(jìn)了數(shù)據(jù)的增長(zhǎng)。市場(chǎng)中，對(duì)這些龐大且不斷增長(zhǎng)的數(shù)據(jù)進(jìn)行存儲(chǔ)、處理和分析的需求應(yīng)運(yùn)而生。在硬件層面，每秒進(jìn)行萬億次浮點(diǎn)運(yùn)算的高性能計(jì)算（HPC）系統(tǒng)可以對(duì)龐大的數(shù)據(jù)進(jìn)行管理。由于單個(gè)計(jì)算機(jī)無法應(yīng)對(duì)其操作的復(fù)雜性，因此HPC系統(tǒng)需要在分布式環(huán)境中運(yùn)行�？梢酝ㄟ^兩種趨勢(shì)實(shí)現(xiàn)萬億次浮點(diǎn)的分布式運(yùn)算。一種是通過全球網(wǎng)絡(luò)連接計(jì)算機(jī)，實(shí)現(xiàn)復(fù)雜數(shù)據(jù)的分布式管理。另一種是采用專用的處理器，并集中存放，這樣可以縮短機(jī)器之間的數(shù)據(jù)傳輸時(shí)間。這兩種趨勢(shì)正在呈現(xiàn)快速的融合之勢(shì)，必然會(huì)為浩繁的數(shù)據(jù)處理問題帶來更為迅捷和有效的硬件解決方案。
在軟件層面，Apache Hadoop在解決龐大數(shù)據(jù)的管理問題方面已經(jīng)是久負(fù)盛名。Hadoop的生態(tài)系統(tǒng)包括Hadoop分布式文件系統(tǒng)（HDFS）、MapReduce框架（支持多種數(shù)據(jù)格式和數(shù)據(jù)源）、單元測(cè)試、對(duì)變體和項(xiàng)目進(jìn)行聚類（如Pig、Hive等）。它能夠?qū)崿F(xiàn)包括存儲(chǔ)和處理在內(nèi)的全生命周期的數(shù)據(jù)管理。Hadoop的優(yōu)勢(shì)在于，它通過分布式模塊處理大型數(shù)據(jù)。它還可以處理非結(jié)構(gòu)化數(shù)據(jù)，這使其更具吸引力。與HPC骨干網(wǎng)結(jié)合，Hadoop可以使處理海量數(shù)據(jù)的任務(wù)變得非常簡(jiǎn)單。
如今，很多高級(jí)的Hadoop框架，如Pig、Hive、Scoobi、Scrunch、Cascalog、Scald-ing和Spark，使得Hadoop易于操作。它們中大多數(shù)都得到著名企業(yè)的支持，如Yahoo（Pig）、Facebook（Hive）、Cloudera（Scrunch）和Twitter（Scalding），這說明Hadoop在工業(yè)領(lǐng)域得到了廣泛支持。這些框架使用的是Hadoop的基礎(chǔ)模塊，例如HDFS和MapReduce，但是通過創(chuàng)建一個(gè)抽象來隱藏Hadoop模塊的復(fù)雜性，為復(fù)雜的數(shù)據(jù)處理提供了一種簡(jiǎn)單的方法。這個(gè)抽象的一個(gè)例證就是Cascading。許多具體的語言是使用Cascading的框架創(chuàng)建的。其中一個(gè)實(shí)例就是Twitter的Scalding，它用來查詢存儲(chǔ)在HDFS中的大型數(shù)據(jù)集，如Twitter上的推文。
Hadoop和Scalding中的數(shù)據(jù)存儲(chǔ)大多基于磁盤。這一結(jié)構(gòu)因其較長(zhǎng)的數(shù)據(jù)尋道和傳輸時(shí)間影響了運(yùn)行速率。如果數(shù)據(jù)從磁盤中讀取然后保持在內(nèi)存中，運(yùn)行速率會(huì)提高數(shù)倍。Spark實(shí)現(xiàn)了這一概念，并宣稱其效率較之MapReduce在內(nèi)存中快100倍，在磁盤上快10倍。Spark使用了彈性分布式數(shù)據(jù)集的基本抽象，這些數(shù)據(jù)集是分布式的不可變集合。由于Spark將數(shù)據(jù)存儲(chǔ)在內(nèi)存中，因此迭代算法可以在數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)方面更有效地發(fā)揮作用。
目標(biāo)本書旨在介紹使用自由和開放源碼的工具和技術(shù)（如Hadoop、Scalding、Spark等）構(gòu)建分布式處理系統(tǒng)的方法，關(guān)鍵目標(biāo)包括以下幾點(diǎn)。
使讀者掌握當(dāng)前使用Hadoop、Scalding和Spark構(gòu)建高性能分布式計(jì)算系統(tǒng)的新發(fā)展。
為讀者提供相關(guān)理論的軟件框架和實(shí)踐途徑。
為學(xué)生和實(shí)踐者使用自由及開放源碼軟件技術(shù)（如Hadoop、Scalding和Spark）提供指導(dǎo)和實(shí)例。
使讀者加深對(duì)與高性能分布式計(jì)算（HPDC）相關(guān)的新興范式在構(gòu)建可擴(kuò)展軟件系統(tǒng)以供大規(guī)模數(shù)據(jù)處理方面的理解。
本書結(jié)構(gòu)本書共8章，分成兩部分，各章內(nèi)容概述如下。
第一部分　高性能分布式計(jì)算編程基礎(chǔ)第1章闡述構(gòu)成現(xiàn)代HPDC范式（如云計(jì)算、網(wǎng)格和集群系統(tǒng)等）主體的分布式系統(tǒng)的基本知識(shí)。從討論各種形式的分布式系統(tǒng)開始，解析它們的通用架構(gòu)，也談及其設(shè)計(jì)的核心，即分布式文件系統(tǒng)。此外，還通過相關(guān)的示例說明其在發(fā)展過程中遇到的技術(shù)難題和該領(lǐng)域近年來的發(fā)展趨勢(shì)。
第2章概述Hadoop生態(tài)系統(tǒng)，一步步地介紹系統(tǒng)的安裝、編程和實(shí)現(xiàn)。第3章描述Spark的核心—彈性分布式數(shù)據(jù)集，談及其安裝、API編程，并給出一些范例。第4章重點(diǎn)闡述Hadoop流，也涉及Scalding的應(yīng)用，并討論P(yáng)ython在Hadoop和Spark中的應(yīng)用。
第二部分　使用Hadoop、Scalding和Spark的案例研究本書并不局限于解釋基本的理論常識(shí)，它的優(yōu)勢(shì)在于提供了程序范例。書中給出四個(gè)案例，內(nèi)容涉及很多應(yīng)用領(lǐng)域和計(jì)算方法，足以令懷疑論者變成Scalding和Spark的信眾。第5章講述K均值聚類算法的實(shí)現(xiàn)，第6章講述使用樸素貝葉斯分類器進(jìn)行數(shù)據(jù)分類。第7章進(jìn)一步闡述使用Scalding和Spark的分布式系統(tǒng)中進(jìn)行數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的方法，并概述回歸分析。
當(dāng)前，推薦系統(tǒng)在諸多領(lǐng)域都非常受歡迎。它自動(dòng)充當(dāng)了兩個(gè)不相交實(shí)體的中間人，在購(gòu)物、檢索、出版領(lǐng)域的現(xiàn)代網(wǎng)絡(luò)應(yīng)用中正日趨流行。一個(gè)可運(yùn)行的推薦系統(tǒng)不僅需要有強(qiáng)大的計(jì)算引擎，還應(yīng)該能夠?qū)崟r(shí)擴(kuò)展。第8章闡釋使用Scalding和Spark創(chuàng)建這樣一個(gè)推薦系統(tǒng)的過程。
目標(biāo)受眾本書的目標(biāo)受眾主要包括：
軟件工程師和應(yīng)用開發(fā)者學(xué)生和大學(xué)講師自由和開放源碼軟件的貢獻(xiàn)者研究人員代碼庫書中使用的源碼和數(shù)據(jù)集可以從https://github.com/4ni1/hpdc-scalding-spark下載。
致謝感謝以下人員在本書的準(zhǔn)備過程中提供的支持和幫助：
M. S.拉邁阿理工學(xué)院董事M. R. Seetharam先生M. S.拉邁阿理工學(xué)院董事M. R. Ramaiah先生M. S.拉邁阿理工學(xué)院行政主管S. M. Acharya先生M. S.拉邁阿理工學(xué)院院長(zhǎng)S. Y. Kulkarni博士M. S.拉邁阿

你還可能感興趣

我要評(píng)論