本書系統(tǒng)闡述了Hadoop大數(shù)據(jù)技術(shù)應(yīng)用實(shí)踐的原理、方法和應(yīng)用相關(guān)知識,同時給出了每一章內(nèi)容對應(yīng)的實(shí)現(xiàn)指令或源程序。全書共九章內(nèi)容。內(nèi)容由淺入深,分為基礎(chǔ)篇及提高篇兩部分,其中第1章到第4章為基礎(chǔ)篇,內(nèi)容涵蓋Hadoop初識簡介、Hadoop基礎(chǔ)環(huán)境搭建、分布式存儲HDFS介紹以及MapReduce編程模型等知識,提高篇包括Hadoop數(shù)據(jù)倉庫Hive、Hadoop數(shù)據(jù)庫Hbase、Pig語言、Hadoop項目案例以及Mahout項目案例等較深入的知識。本書理論結(jié)合實(shí)際,每一個章節(jié)都包含有相關(guān)內(nèi)容的實(shí)踐部分,以便讀者在了解相關(guān)知識后,能及時進(jìn)行項目的實(shí)踐,有助于提高讀者動手實(shí)踐的能力。每章提供適量習(xí)題,進(jìn)一步加深對內(nèi)容的理解。
前 言
大數(shù)據(jù)時代的到來,改變了許多行業(yè)的人才需求模式,大數(shù)據(jù)方面的人才成為各信息產(chǎn)業(yè)尤其是IT行業(yè)的熱門人才。許多高等院校已經(jīng)新增大數(shù)據(jù)技術(shù)相關(guān)專業(yè),部分院校成立了大數(shù)據(jù)學(xué)院,標(biāo)志著進(jìn)行大數(shù)據(jù)技術(shù)人才培養(yǎng)已經(jīng)正式納入高等教育的培養(yǎng)需求;贖adoop架構(gòu)搭建大數(shù)據(jù)分析環(huán)境是培養(yǎng)大數(shù)據(jù)人才的基本要求,《Hadoop大數(shù)據(jù)技術(shù)應(yīng)用實(shí)踐》教材可作為大數(shù)據(jù)技術(shù)相關(guān)專業(yè)本科生及高職院校相關(guān)專業(yè)實(shí)踐類的教材,以為培養(yǎng)大數(shù)據(jù)技術(shù)相關(guān)人才打下堅實(shí)的基礎(chǔ)。
培養(yǎng)技術(shù)型及實(shí)踐型人才是大數(shù)據(jù)時代教育部對大數(shù)據(jù)技術(shù)相關(guān)人才的基本要求,也是各信息產(chǎn)業(yè)對人才的基本需求。編寫本書的目的就是要讓大數(shù)據(jù)技術(shù)相關(guān)專業(yè)學(xué)生通過本課程的學(xué)習(xí),了解大數(shù)據(jù)技術(shù)的基礎(chǔ)知識,掌握基于Hadoop環(huán)境搭建大數(shù)據(jù)分析架構(gòu)的基本流程及實(shí)現(xiàn)過程,提高學(xué)習(xí)本課程的興趣,培養(yǎng)解決實(shí)際問題的能力。
本書最大的特色就是實(shí)踐性較強(qiáng),在闡述大數(shù)據(jù)技術(shù)相關(guān)基礎(chǔ)知識的同時,輔以大量實(shí)踐內(nèi)容及項目實(shí)例,培養(yǎng)了學(xué)生的學(xué)習(xí)興趣,可極大提高學(xué)生的動手能力?朔嗽S多教材注重理論缺少實(shí)踐內(nèi)容的弊端。學(xué)生們可在課后,自己進(jìn)一步動手實(shí)踐,提高了學(xué)生的學(xué)習(xí)效率。
本書主要以大數(shù)據(jù)技術(shù)及計算機(jī)相關(guān)專業(yè)的本科生及高職院校學(xué)生為讀者對象,注重大數(shù)據(jù)技術(shù)相關(guān)基礎(chǔ)知識,尤其是實(shí)踐環(huán)節(jié)的描述,避免了繁瑣的理論知識介紹。全書共包括9章,第1章是Hadoop初識簡介,第2章是Hadoop相關(guān)開源項目及偽分布式環(huán)境安裝,第3章是分布式存儲HDFS,第4章是MapReduce編程模型,第5章是Hadoop數(shù)據(jù)倉庫Hive,第6章是Hadoop數(shù)據(jù)庫HBase,第7章是Pig語言,第8章是Hadoop項目案例,第9章是Mahout項目案例。附錄部分是本書中出現(xiàn)過的專業(yè)名詞縮寫、全拼及中文解釋,按照英文字母順序排列,供大家學(xué)習(xí)時參考。
第1章到第4章屬于Hadoop基礎(chǔ)知識部分,在搭建Hadoop架構(gòu)時是必備的知識,第5章到第9章是提高部分,實(shí)際中可根據(jù)應(yīng)用需要選擇學(xué)習(xí)。本書可以用作工科高校相關(guān)專業(yè)32-40學(xué)時的課程教程,其中第7章Pig語言及第9章Mahout項目案例可作為選學(xué)內(nèi)容。
本書由太原理工大學(xué)李鳳蓮教授、北京紅亞華宇科技有限公司鄭洪賓CEO任主編,由太原理工大學(xué)李彥民、遼寧大學(xué)馮勇、中國地質(zhì)大學(xué)吳湘寧、青海警官職業(yè)學(xué)院張志強(qiáng)、江蘇安全學(xué)院黃健任副主編,具體分工是:由馮勇、吳湘寧、張志強(qiáng)、黃健參與教材整體框架設(shè)計,由北京紅亞華宇科技有限公司提供實(shí)訓(xùn)素材,由李鳳蓮教授完成教材第1,2,3,4,5,6,8及9章的編寫,太原理工大學(xué)李彥民完成教材第7章及附錄的編寫。本書在編寫及校對過程中,特別是項目實(shí)踐內(nèi)容驗(yàn)證過程中,得到了北京紅亞華宇科技有限公司以及太原理工大學(xué)信息與計算機(jī)學(xué)院數(shù)字音視頻技術(shù)研究中心大數(shù)據(jù)課題組碩士生的大力幫助,在此表示衷心感謝。
由于編著者水平有限,書中難免存在錯誤之處,敬請讀者批評指正。
太原理工大學(xué)信息與計算機(jī)學(xué)院教師,博士,教授,碩士生導(dǎo)師。2012年以來,主持和參與山西省自然科學(xué)基金、博士后基金(面上資助)項目、山西省科技重大專項、山西省科技攻關(guān)計劃項目以及校教改項目等多項;獲批2017年教育部產(chǎn)學(xué)合作紅亞科技協(xié)同育人項目1項;為2013年科技部重點(diǎn)領(lǐng)域創(chuàng)新團(tuán)隊核心成員; 2015年獲山西省科技進(jìn)步二等獎一項,2016年獲煤炭工業(yè)協(xié)會三等獎一項。在Information Sciences等刊物發(fā)表SCI及EI收錄學(xué)術(shù)論文30余篇;獲批授權(quán)國家發(fā)明專利3項;申請國家發(fā)明專利9項,2016年以第一副主編參與編寫“十二五”規(guī)劃教材《數(shù)字語音處理及Matlab仿真》一部,2013年副主編參與編寫部委級規(guī)劃教材《電路分析基礎(chǔ)》1部;2010年參編兩本部委級規(guī)劃教材,指導(dǎo)研究生14名。
承擔(dān)課程:《電路分析基礎(chǔ)》、《可編程控制器原理》、《現(xiàn)代信號處理理論與方法》、《大數(shù)據(jù)技術(shù)與應(yīng)用》