大數(shù)據(jù)技能競賽知識(shí)點(diǎn)解析與實(shí)踐
定 價(jià):99 元
本書以大學(xué)生大數(shù)據(jù)技能競賽、智警杯大數(shù)據(jù)技能競賽為背景,全面系統(tǒng)地講述了大數(shù)據(jù)技術(shù)的基本原理和應(yīng)用。本書共5章,主要介紹了Linux操作系統(tǒng)的常用命令和服務(wù)的使用;MySQL數(shù)據(jù)庫操作與管理、非關(guān)系型數(shù)據(jù)庫NoSQL;圍繞大數(shù)據(jù)框架講述了Hadoop技術(shù)、Hive數(shù)據(jù)倉庫等大數(shù)據(jù)組件架構(gòu)的應(yīng)用;數(shù)據(jù)采集與分析;數(shù)據(jù)挖掘與數(shù)據(jù)可視化、業(yè)務(wù)分析報(bào)告撰寫等內(nèi)容。本書內(nèi)容循序漸進(jìn),條理性強(qiáng),全部內(nèi)容基于項(xiàng)目需求進(jìn)行設(shè)計(jì),同時(shí)對所需的系統(tǒng)環(huán)境、軟件版本、數(shù)據(jù)等信息進(jìn)行詳細(xì)說明,有助于讀者本地環(huán)境的復(fù)現(xiàn)和練習(xí)。為提升學(xué)習(xí)效果,書中結(jié)合實(shí)際應(yīng)用提供了大量的案例,并配以完善的學(xué)習(xí)資料,包括課件、軟件、數(shù)據(jù)、源碼、答案、在線競賽模擬平臺(tái),為讀者帶來全方位的學(xué)習(xí)體驗(yàn)。掃描關(guān)注機(jī)械工業(yè)出版社計(jì)算機(jī)分社官方微信訂閱號IT有得聊,回復(fù)73112。即可獲取本書配套資源下載鏈接。本書既可作為大數(shù)據(jù)技能競賽的參賽輔導(dǎo)書,也可作為高等院校本、?茢(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)以及其他計(jì)算機(jī)相關(guān)專業(yè)大數(shù)據(jù)技術(shù)綜合實(shí)訓(xùn)教材。
全國大學(xué)生大數(shù)據(jù)技能競賽、智警杯大數(shù)據(jù)技能競賽指導(dǎo)書;依照《大數(shù)據(jù)分析與應(yīng)用開發(fā)職業(yè)技能等級標(biāo)準(zhǔn)》編寫;80 個(gè)知識(shí)點(diǎn)、100 個(gè)實(shí)驗(yàn)全面覆蓋Linux操作系統(tǒng)、MySQL數(shù)據(jù)庫、主流大數(shù)據(jù)平臺(tái)、數(shù)據(jù)采集與分析、數(shù)據(jù)挖掘與可視化5項(xiàng)大數(shù)據(jù)核心技術(shù);由青椒課堂提供在線實(shí)訓(xùn)及考試平臺(tái)支持,適用于各類大數(shù)據(jù)技能競賽輔導(dǎo)。
近年來,隨著各行各業(yè)數(shù)據(jù)資源的極大豐富及大數(shù)據(jù)技術(shù)的不斷發(fā)展,大數(shù)據(jù)相關(guān)產(chǎn)業(yè)迎來了空前的發(fā)展機(jī)遇。大數(shù)據(jù)相關(guān)技術(shù)在各領(lǐng)域得到了廣泛的應(yīng)用,例如,金融大數(shù)據(jù)、商業(yè)大數(shù)據(jù)、網(wǎng)絡(luò)輿情大數(shù)據(jù)及醫(yī)療與健康大數(shù)據(jù)等。對大數(shù)據(jù)人才的市場需求呈現(xiàn)井噴式增長。各類大數(shù)據(jù)相關(guān)學(xué)科競賽的舉辦,有效促進(jìn)了高等院校大數(shù)據(jù)相關(guān)專業(yè)教學(xué)模式的探索性改良,推進(jìn)相關(guān)專業(yè)課程體系、教學(xué)內(nèi)容和教學(xué)方法等教學(xué)資源的質(zhì)量提升和豐富完善,對于高校大數(shù)據(jù)相關(guān)專業(yè)建設(shè)的發(fā)展起到很好的促進(jìn)作用。通過大數(shù)據(jù)學(xué)科競賽,能夠激發(fā)學(xué)生的自主學(xué)習(xí)熱情,培養(yǎng)學(xué)生的團(tuán)隊(duì)意識(shí)和創(chuàng)新意識(shí),提高了學(xué)生在平臺(tái)搭建、數(shù)據(jù)采集、數(shù)據(jù)分析與挖掘等方面的實(shí)踐能力,提高學(xué)生的專業(yè)技能,并踐行了理實(shí)一體化做學(xué)教一體化的教學(xué)模式。本書是作者在長期從事大數(shù)據(jù)分析技術(shù)、數(shù)據(jù)挖掘教學(xué)和科學(xué)研究成果的基礎(chǔ)上,以大學(xué)生大數(shù)據(jù)技能競賽、智警杯公安系統(tǒng)大數(shù)據(jù)技能競賽為背景,以大數(shù)據(jù)分析與應(yīng)用職業(yè)技能等級標(biāo)準(zhǔn)為參考編寫而成。全書共5章,系統(tǒng)介紹了Linux操作系統(tǒng)、數(shù)據(jù)庫技術(shù)、大數(shù)據(jù)平臺(tái)技術(shù)、數(shù)據(jù)采集與分析、數(shù)據(jù)挖掘與數(shù)據(jù)可視化等內(nèi)容。第1章為Linux操作系統(tǒng),主要介紹主機(jī)名、Hosts映射、防火墻配置等Linux常用命令,同時(shí)對時(shí)間同步、定時(shí)任務(wù)、遠(yuǎn)程訪問等服務(wù)進(jìn)行介紹。第2章為數(shù)據(jù)庫技術(shù),主要介紹了數(shù)據(jù)庫的安裝和配置、數(shù)據(jù)庫操作管理、數(shù)據(jù)表操作管理、視圖、權(quán)限管理、備份與還原、非關(guān)系型數(shù)據(jù)庫NoSQL等。第3章為大數(shù)據(jù)平臺(tái)技術(shù),主要介紹了Hadoop分布式大數(shù)據(jù)框架、Hive數(shù)據(jù)倉庫、HBase數(shù)據(jù)庫、Spark技術(shù)框架、ZooKeeper協(xié)調(diào)框架、Flume數(shù)據(jù)收集、Sqoop數(shù)據(jù)傳輸、Azkaban任務(wù)調(diào)度工具等大數(shù)據(jù)組件架構(gòu)的應(yīng)用,還介紹了故障排查、性能調(diào)優(yōu)等平臺(tái)運(yùn)維管理方案。第4章為數(shù)據(jù)采集與分析,主要介紹了HTTP原理、網(wǎng)頁組成、網(wǎng)絡(luò)請求、XPath解析、數(shù)據(jù)存儲(chǔ)等網(wǎng)絡(luò)信息獲取技術(shù),同時(shí)對數(shù)據(jù)進(jìn)行了統(tǒng)計(jì)分析方法介紹,包括描述性分析、探索性分析、缺失值分析等方法。第5章為數(shù)據(jù)挖掘與數(shù)據(jù)可視化,介紹通過算法提取挖掘數(shù)據(jù)中的有用信息,主要內(nèi)容包括線性回歸、邏輯回歸、決策樹等算法,介紹如何對數(shù)據(jù)進(jìn)行可視化呈現(xiàn)和數(shù)據(jù)分析報(bào)告的撰寫。本書詳細(xì)介紹了大數(shù)據(jù)及數(shù)據(jù)分析的技術(shù)構(gòu)成,理論和實(shí)踐緊密結(jié)合,可以幫助讀者梳理思路,對比不同技術(shù)的優(yōu)勢并做出選擇,從而更加符合產(chǎn)業(yè)發(fā)展的需求。本書結(jié)合歷年競賽真題知識(shí)的解析,可作為參加大數(shù)據(jù)類競賽的輔導(dǎo)用書,同時(shí)配有全套教學(xué)課件、數(shù)據(jù)集、視頻、環(huán)境等實(shí)訓(xùn)資源,亦可作為高等院校大數(shù)據(jù)相關(guān)專業(yè)、相關(guān)課程的實(shí)訓(xùn)教材,或是培訓(xùn)機(jī)構(gòu)的培訓(xùn)教材。本書主編為李輝、張瑩、盧興民,副主編為胡健、張福華、蔣紅蘭,參編人員為王新猛、李鳳蓮、王彥平、李超、楊海迎。在本書編寫過程中,特別是真題梳理驗(yàn)證過程中,北京紅亞華宇科技有限公司提供了資料協(xié)助和平臺(tái)支持,在此表示衷心感謝。大數(shù)據(jù)技能競賽知識(shí)點(diǎn)解析與實(shí)踐由于編者水平有限,加之大數(shù)據(jù)技術(shù)的發(fā)展日新月異,書中難免會(huì)有疏漏和不妥之處,敬請廣大讀者批評指正。編者
李輝,博士,中國農(nóng)業(yè)大學(xué)計(jì)算中心兼農(nóng)業(yè)大數(shù)據(jù)實(shí)驗(yàn)室主任,全國大學(xué)生大數(shù)據(jù)技能競賽、全國高校大數(shù)據(jù)能力提升大賽等大數(shù)據(jù)類賽項(xiàng)裁判長,中國大數(shù)據(jù)技術(shù)與應(yīng)用聯(lián)盟智庫專家,北京市大數(shù)據(jù)教學(xué)實(shí)踐基地負(fù)責(zé)人;曾獲中國大數(shù)據(jù)學(xué)術(shù)創(chuàng)新獎(jiǎng)、全國高校人工智能與大數(shù)據(jù)教學(xué)創(chuàng)新獎(jiǎng);主講數(shù)據(jù)庫原理及應(yīng)用基礎(chǔ)Python語言程序設(shè)計(jì)大數(shù)據(jù)可視化分析等本科生課程;主持新工科項(xiàng)目2項(xiàng),發(fā)表學(xué)術(shù)論文20多篇,申請軟件著作權(quán)50多項(xiàng),專利3項(xiàng);出版《數(shù)據(jù)庫系統(tǒng)原理及MySQL應(yīng)用教程》教材第1版和第2版被國內(nèi)眾多院校選用,為機(jī)械工業(yè)出版社計(jì)算機(jī)分社20周年金牌作者。青椒課堂(大數(shù)據(jù)人工智能教學(xué)實(shí)訓(xùn)平臺(tái))是依據(jù)大數(shù)據(jù)產(chǎn)業(yè)數(shù)字化人才能力要求,基于院校對大數(shù)據(jù)技術(shù)應(yīng)用型人才培養(yǎng)的需求,結(jié)合企業(yè)大數(shù)據(jù)業(yè)務(wù)場景,以技術(shù)為驅(qū)動(dòng)打造青椒課堂,助力高校大數(shù)據(jù)專業(yè)領(lǐng)域數(shù)字化人才培養(yǎng)。大數(shù)據(jù)人工智能教學(xué)實(shí)訓(xùn)平臺(tái)的設(shè)計(jì)全面落實(shí)教、訓(xùn)、用、監(jiān)、評一體化的思想和模式。從教學(xué)、實(shí)訓(xùn)、使用、監(jiān)控、評估等多方面注重專業(yè)人才和特色人才的培養(yǎng)。平臺(tái)是集專業(yè)度、便捷性、安全性及可擴(kuò)展性的理實(shí)一體化教學(xué)實(shí)訓(xùn)平臺(tái),平臺(tái)主要涵蓋了教師備課、授課,學(xué)生實(shí)操、實(shí)訓(xùn),考試競賽,數(shù)據(jù)統(tǒng)計(jì)分析及教學(xué)規(guī)劃等全流程控制的綜合平臺(tái)。
實(shí)驗(yàn)環(huán)境配置說明第1章Linux操作系統(tǒng)1.1主機(jī)名配置1.1.1設(shè)置主機(jī)名1.1.2Hosts映射1.2防火墻配置與管理1.2.1防火墻操作命令1.2.2配置防火墻規(guī)則1.3時(shí)間同步1.3.1同步網(wǎng)絡(luò)時(shí)間1.3.2同步服務(wù)器時(shí)間1.4定時(shí)任務(wù)管理1.5SSH遠(yuǎn)程訪問1.5.1SSH協(xié)議1.5.2SSH連接工具1.6軟件包管理1.6.1軟件配置1.6.2下載安裝軟件思考與練習(xí)第2章數(shù)據(jù)庫技術(shù)2.1MySQL數(shù)據(jù)庫2.1.1MySQL的安裝2.1.2數(shù)據(jù)庫操作管理2.1.3數(shù)據(jù)表操作管理2.1.4數(shù)據(jù)操作管理2.1.5視圖2.1.6權(quán)限管理2.1.7備份與還原2.1.8SQL優(yōu)化2.2非關(guān)系型數(shù)據(jù)庫NoSQL2.2.1HBase列式數(shù)據(jù)庫2.2.2Redis數(shù)據(jù)庫2.2.3MongoDB文件數(shù)據(jù)庫思考與練習(xí)第3章大數(shù)據(jù)平臺(tái)技術(shù)3.1Hadoop分布式大數(shù)據(jù)框架3.1.1搭建Hadoop偽分布式集群3.1.2搭建Hadoop完全分布式集群3.1.3命令行方式管理HDFS3.1.4使用開發(fā)工具連接Hadoop集群3.1.5Java API操作HDFS3.1.6分布式計(jì)算框架之MapReduce3.1.7編寫MapReduce方法3.1.8配置Hadoop集群高可用(HA)3.2Hive數(shù)據(jù)倉庫3.2.1本地模式安裝Hive數(shù)據(jù)倉庫3.2.2Hive數(shù)據(jù)倉庫的常見屬性3.2.3Hive DDL操作3.2.4Hive DML操作3.2.5Hive中的數(shù)據(jù)查詢3.2.6Hive中的窗口函數(shù)3.2.7案例:國內(nèi)主要城市房屋出租情況統(tǒng)計(jì)分析3.3HBase數(shù)據(jù)庫3.3.1搭建HBase偽分布式集群3.3.2HBase的Shell操作3.3.3HBase的Java API操作3.3.4使用HBase的過濾器3.3.5HBase與MapReduce的集成3.3.6HBase與Hive的集成3.3.7HBase與Sqoop的集成3.4Spark技術(shù)框架3.4.1集群安裝部署3.4.2Spark Shell3.4.3Spark SQL3.4.4Spark Streaming3.4.5Spark MLlib3.4.6Structured Streaming實(shí)時(shí)計(jì)算3.5大數(shù)據(jù)平臺(tái)運(yùn)維與管理3.5.1故障排查3.5.2性能調(diào)優(yōu)3.6大數(shù)據(jù)框架應(yīng)用3.6.1協(xié)調(diào)框架:ZooKeeper3.6.2數(shù)據(jù)收集:Flume3.6.3數(shù)據(jù)傳輸:Sqoop3.6.4任務(wù)調(diào)度工具:Azkaban思考與練習(xí)第4章數(shù)據(jù)采集與分析目錄4.1報(bào)表數(shù)據(jù)處理4.1.1數(shù)據(jù)預(yù)處理4.1.2數(shù)據(jù)分析4.2網(wǎng)絡(luò)信息獲取技術(shù)4.2.1HTTP基本原理4.2.2網(wǎng)頁組成4.2.3網(wǎng)絡(luò)請求4.2.4正則表達(dá)式4.2.5XPath解析4.2.6Beautiful Soup4.2.7數(shù)據(jù)存儲(chǔ)4.3數(shù)據(jù)統(tǒng)計(jì)分析4.3.1描述性分析4.3.2探索性分析4.3.3缺失值分析4.3.4方差分析4.3.5T檢驗(yàn)4.3.6卡方檢驗(yàn)思考與練習(xí)第5章數(shù)據(jù)挖掘與數(shù)據(jù)可視化5.1數(shù)據(jù)挖掘5.1.1線性回歸5.1.2邏輯回歸5.1.3支持向量機(jī)5.1.4樸素貝葉斯5.1.5決策樹5.1.6時(shí)間序列分析5.1.7關(guān)聯(lián)分析5.1.8K-Means聚類5.1.9主成分分析5.2數(shù)據(jù)可視化5.2.1報(bào)表可視化5.2.2Matplotlib可視化5.2.3Seaborn可視化5.2.4ECharts實(shí)現(xiàn)數(shù)據(jù)可視化5.2.5D3實(shí)現(xiàn)數(shù)據(jù)可視化5.2.6FineBI實(shí)現(xiàn)數(shù)據(jù)可視化5.2.7Tableau實(shí)現(xiàn)數(shù)據(jù)可視化5.3業(yè)務(wù)分析報(bào)告撰寫5.3.1明確背景與目的5.3.2尋找合適數(shù)據(jù)5.3.3數(shù)據(jù)分析與圖表5.3.4報(bào)告結(jié)論與建議5.3.5邏輯結(jié)構(gòu)清晰思考與練習(xí)