本書從大數(shù)據(jù)的采集、存儲、計算、分析挖掘、可視化、應用和安全等角度,全面解析大數(shù)據(jù)技術原理及應用實踐。在此基礎上介紹大數(shù)據(jù)的技術架構和關鍵技術,結合應用實踐,詳細闡述了傳統(tǒng)信息系統(tǒng)與大數(shù)據(jù)平臺的整合策略,大數(shù)據(jù)應用實踐的流程和方法,并介紹了主要的大數(shù)據(jù)應用產(chǎn)品和解決方案。
在未來5~10年,我國大數(shù)據(jù)市場規(guī)模年均增速將超過30%。未來5年,國內大數(shù)據(jù)人才缺口將突破150萬。在BAT發(fā)布的招聘職位中,目前大數(shù)據(jù)崗位占比已經(jīng)超過60%。現(xiàn)在業(yè)界有一種觀點:即使把全國所有計算機專業(yè)都做成大數(shù)據(jù)專業(yè),仍然無法滿足國內對大數(shù)據(jù)人才的需求量。
在快速膨脹的需求與國家扶植政策的推動下,全國高校、高職、高專院校紛紛啟動大數(shù)據(jù)人才培養(yǎng)計劃。然而,大數(shù)據(jù)專業(yè)建設卻面臨重重困難。首先,大數(shù)據(jù)是個新生事物,懂大數(shù)據(jù)的老師少之又少,院校缺“人”;其次,尚未形成完善的大數(shù)據(jù)人才培養(yǎng)和課程體系,院校缺“機制”;再次,大數(shù)據(jù)實驗需要為每位學生提供集群計算機,院校缺“機器”;最后,院校不擁有海量數(shù)據(jù),開展大數(shù)據(jù)教學科研工作缺“原材料”。
其實,在2000年網(wǎng)格計算興起時和2008年云計算興起時,我國科技工作者都曾遇到過類似的挑戰(zhàn)問題,我有幸參與了這些問題的解決過程:
為了解決網(wǎng)格計算挑戰(zhàn)問題,我在清華大學讀博期間,于2001年創(chuàng)辦了中國網(wǎng)格信息中轉站(chinagrid.net)網(wǎng)站,每天花好幾個小時收集和分享有價值的資料給學術界。于2002年與人合作出版了《網(wǎng)格計算》教材。并多次籌辦和主持全國性的網(wǎng)格計算學術會議。
為了解決云計算挑戰(zhàn)問題,我于2008年創(chuàng)辦了中國云計算(chinacloud.cn)網(wǎng)站,于2010年出版了《云計算(第一版)》、2011年出版了《云計算(第二版)》、2015年出版了《云計算(第三版)》,每一版都花費大量成本制作并免費分享對應的幾十個教學PPT。這些PPT的下載總量達到了幾百萬次之多。早在2010年,我就在南京組織了全國高校云計算師資培訓班,培養(yǎng)了國內第一批云計算老師。并通過與華為、中興、360等知名企業(yè)合作,輸出云計算技術,培養(yǎng)云計算研發(fā)人才。為社區(qū)做貢獻,收獲是沉甸甸的:我獲得了大家的好評與認可,擔任了一些全國性專家委員會的專家,《云計算》教材成了國內高校的首選教材,中國云計算網(wǎng)站成了國內排名第一的云計算網(wǎng)站。
近幾年,我用類似的辦法來解決我們所面臨的大數(shù)據(jù)挑戰(zhàn)問題。為了解決大數(shù)據(jù)技術資料缺乏和存在交流障礙的問題,我于2013年創(chuàng)辦了中國大數(shù)據(jù)(thebigdata.cn)網(wǎng)站,投入大量的人力每天維護,該網(wǎng)站已經(jīng)在各大搜索引擎排名“大數(shù)據(jù)”關鍵詞第一名;為了解決大數(shù)據(jù)師資匱乏的問題,我面向全國院校,陸續(xù)舉辦多期大數(shù)據(jù)教師培訓班。最近在南京舉辦的全國高校/高職/中職大數(shù)據(jù)免費培訓班,報名的老師已有400多位;為了解決缺乏權威大數(shù)據(jù)教材的問題,我所負責的南京大數(shù)據(jù)研究院,聯(lián)合金陵科技學院、河南大學、南陽理工學院、南陽理工學院、云創(chuàng)大數(shù)據(jù)、許昌學院、安徽師范大學、才云科技、中國地震局、南京公安研究院等多家單位,歷時兩年,編著了《大數(shù)據(jù)》教材和《大數(shù)據(jù)庫》教材。并計劃為高職和中職院校專門編寫大數(shù)據(jù)專業(yè)系列教材。我們將在中國大數(shù)據(jù)(thebigdata.cn)、中國云計算(chinacloud.cn)和劉鵬看未來(lpoutlook)微信公眾號等陸續(xù)免費提供配套PPT和其他資料;為了解決大數(shù)據(jù)實驗難以開展的問題,我?guī)ьI云創(chuàng)大數(shù)據(jù)(www.cstor.cn)的科研人員,研發(fā)成功BDRack大數(shù)據(jù)實驗一體機,它打破虛擬化技術的性能瓶頸,可以為每一位參加實驗的人員虛擬出Hadoop集群、Spark集群、 MongoDB集群、Storm集群等,自帶實驗所需數(shù)據(jù),并準備了詳細的實驗手冊、PPT和視頻,可以開展大數(shù)據(jù)管理、大數(shù)據(jù)挖掘等各類實驗,并可進行精確營銷、信用分析等多種實戰(zhàn)演練。目前該平臺已經(jīng)在鄭州大學等高校成功應用。我們還開放了免費的物聯(lián)網(wǎng)大數(shù)據(jù)托管平臺——萬物云(wanwuyun.com)和環(huán)境大數(shù)據(jù)免費分享平臺——環(huán)境云(envicloud.cn)
在此,特別感謝我的碩士導師謝希仁教授和博士導師李三立院士。謝希仁教授出版的《計算機網(wǎng)絡》已經(jīng)更新到第6版,與時俱進且日臻完美,時時提醒學生要以這樣的標準來寫書。李三立院士是留蘇博士,為我國計算機事業(yè)做出了杰出貢獻,曾任國家攀登計劃項目首席科學家。他的嚴謹治學帶出了一大批杰出的學生。
本書是集體智慧的結晶,在此謹向付出辛勤勞動的各位作者致敬!書中難免會有不當之處,務必讀者不吝賜教。我的郵箱:gloud@126.com,微信公眾號:劉鵬看未來(lpoutlook)。
劉鵬 教授
于南京大數(shù)據(jù)研究院
2016年12月24日
劉鵬,清華大學博士,解放軍理工大學教授、學科帶頭人,中國云計算專家委員會委員。主要研究方向為信息網(wǎng)格和云計算,完成科研課題18項,發(fā)表論文70余篇,獲部級科技進步獎6項。曾奪得國際計算機排序比賽冠軍,并二次奪得全國高?萍急荣*高獎,獲“全軍十大學習成才標兵”、“南京十大杰出青年”和“清華大學學術新秀”等稱號。2002年首倡的“網(wǎng)格計算池”和2003年研發(fā)的“反垃圾郵件網(wǎng)格”分別為云計算和云安全的前身。創(chuàng)辦了知名的中國網(wǎng)格和中國云計算網(wǎng)站。