關(guān)于我們
書單推薦
新書推薦
|
大數(shù)據(jù)技術(shù)與應(yīng)用基礎(chǔ)教程 大數(shù)據(jù)導(dǎo)論是一門理論性和實踐性都很強(qiáng)的課程。本教材針對信息管理、經(jīng)濟(jì)管理和其他相關(guān)專業(yè)學(xué)生的發(fā)展需求,系統(tǒng)、全面地介紹了關(guān)于大數(shù)據(jù)技術(shù)與應(yīng)用的基本知識和技能,詳細(xì)介紹了大數(shù)據(jù)與大數(shù)據(jù)時代、大數(shù)據(jù)的可視化、大數(shù)據(jù)的商業(yè)規(guī)則、大數(shù)據(jù)時代的思維變革、大數(shù)據(jù)促進(jìn)醫(yī)療與健康、大數(shù)據(jù)激發(fā)創(chuàng)造力、大數(shù)據(jù)預(yù)測分析、大數(shù)據(jù)促進(jìn)學(xué)習(xí)、大數(shù)據(jù)在云端、支撐大數(shù)據(jù)的技術(shù)、數(shù)據(jù)科學(xué)與數(shù)據(jù)科學(xué)家和大數(shù)據(jù)的未來等內(nèi)容,具有較強(qiáng)的系統(tǒng)性、可讀性和實用性。本書是為高等院校相關(guān)專業(yè)大數(shù)據(jù)基礎(chǔ)大數(shù)據(jù)導(dǎo)論等課程全新設(shè)計編寫,具有豐富實踐特色的主教材,也可供有一定實踐經(jīng)驗的軟件開發(fā)人員、管理人員參考和作為繼續(xù)教育的教材。 陳樹廣,1972年3月生,山東聊城人,中共黨員、副教授,碩士,中國計算機(jī)學(xué)會高級會員,兼任信息系黨支部書記。 主要研究方向:大數(shù)據(jù)管理與應(yīng)用、網(wǎng)絡(luò)安全與IT運維 主講課程:《計算機(jī)網(wǎng)絡(luò)》、《大型數(shù)據(jù)庫》、《互聯(lián)網(wǎng)創(chuàng)業(yè)方法》《大數(shù)據(jù)技術(shù)與應(yīng)用》等。 主要科研成果:主持或參與國家統(tǒng)計局重點項目、陜西省科技廳、陜西省哲學(xué)社會科學(xué)基金等省部級以上項目26項;合作出版教材或?qū)V?部;公開發(fā)表學(xué)術(shù)論文18篇,其中核心期刊12篇。多年來指導(dǎo)大學(xué)生獲得全國大學(xué)生挑戰(zhàn)杯一等獎、多項大學(xué)生三創(chuàng)獎項及大創(chuàng)項目。為原西安統(tǒng)計學(xué)院大學(xué)生記者團(tuán)與原西安財經(jīng)學(xué)院五葉草實驗室創(chuàng)始人。 第1章 大數(shù)據(jù)概論 1.1 大數(shù)據(jù)技術(shù)簡介 1.1.1 信息技術(shù)的發(fā)展簡史 1.1.2 大數(shù)據(jù)概述 1.2 大數(shù)據(jù)時代 1.2.1 大數(shù)據(jù)的產(chǎn)生和作用 1.2.2 大數(shù)據(jù)時代的10個重大變化 1.3 大數(shù)據(jù)處理的基本流程 1.3.1 數(shù)據(jù)抽取與集成 1.3.2 數(shù)據(jù)分析 1.3.3 數(shù)據(jù)解釋 1.4 大數(shù)據(jù)開發(fā)涉及到的關(guān)鍵技術(shù) 1.4.1 大數(shù)據(jù)采集技術(shù) 1.4.2 大數(shù)據(jù)預(yù)處理技術(shù) 1.4.3 大數(shù)據(jù)存儲及管理技術(shù) 1.4.4 大數(shù)據(jù)處理 1.4.5 大數(shù)據(jù)分析及挖掘技術(shù) 1.4.6 大數(shù)據(jù)展示技術(shù) 第2章 大數(shù)據(jù)采集技術(shù)概述 2.1 大數(shù)據(jù)分類 2.2 大數(shù)據(jù)采集方法分類 2.3 通過系統(tǒng)日志采集大數(shù)據(jù) 2.3.1 Flume的基本概念 2.3.2Flume使用方法 2.3.3Flume應(yīng)用案例 2.4 通過網(wǎng)絡(luò)爬蟲采集大數(shù)據(jù) 2.4.1網(wǎng)絡(luò)爬蟲原理 2.4.2網(wǎng)絡(luò)爬蟲工作流程 2.4.3網(wǎng)絡(luò)爬蟲抓取策略 2.5 Scrapy網(wǎng)絡(luò)爬蟲簡介 2.5.1.Scrapy架構(gòu) 2.5.2Scrapy安裝與應(yīng)用案例 第3章 大數(shù)據(jù)預(yù)處理架構(gòu)和方法簡介 3.1大數(shù)據(jù)預(yù)處理整體架構(gòu) 3.1.1數(shù)據(jù)質(zhì)量問題分類 3.2大數(shù)據(jù)預(yù)處理方法 3.3大數(shù)據(jù)預(yù)處理之?dāng)?shù)據(jù)清洗 3.3.1遺漏數(shù)據(jù)處理 3.3.2噪聲數(shù)據(jù)處理 3.3.3不一致數(shù)據(jù)處理 3.4大數(shù)據(jù)預(yù)處理之?dāng)?shù)據(jù)集成 3.4.1模式集成問題 3.4.2冗余問題 3.4.3數(shù)據(jù)值沖突檢測與消除問題 3.5大數(shù)據(jù)預(yù)處理之?dāng)?shù)據(jù)轉(zhuǎn)換 3.5.1平滑處理 3.5.2合計處理 3.5.3數(shù)據(jù)泛化處理 3.5.4規(guī)格化處理 3.5.5屬性構(gòu)造處理 3.6大數(shù)據(jù)預(yù)處理之?dāng)?shù)據(jù)消減 3.6.1數(shù)據(jù)立方合計 3.6.2維數(shù)消減 3.6.3數(shù)據(jù)壓縮 3.6.4數(shù)據(jù)塊消減 3.7離散化和數(shù)值概念層次樹簡介 3.7.1數(shù)值概念層次樹 3.7.2類別概念層次樹 第4章 大數(shù)據(jù)處理技術(shù) 4.1分布式計算 4.2服務(wù)器集群 4.3大數(shù)據(jù)的技術(shù)基礎(chǔ) 4.4GFS、MapReduce和BigTable:Google的三種大數(shù)據(jù)處理系統(tǒng) 4.4.1GFS 90 4.4.2MapReduce 4.4.3BigTable 第5章 Hadoop大數(shù)據(jù)處理框架簡介 5.1Hadoop系統(tǒng)簡介 5.1.1Hadoop生態(tài)圈 5.1.2Hadoop版本演進(jìn) 5.1.3Hadoop發(fā)行版本 5.2HadoopHDFS分布式文件 5.2.1HDFS基本原理和設(shè)計理念 5.2.2HDFS架構(gòu)和實現(xiàn)機(jī)制簡介 5.2.3HDFS讀取和寫入數(shù)據(jù)簡介 5.3HDFS兩種操作方式:命令行和JavaAPI 5.3.1HDFS常用命令 5.3.2HDFS的Web界面 5.3.3HDFS的JavaAPI 第6章 NoSQL非關(guān)系型數(shù)據(jù)庫簡介 6.1NoSQL概述 6.1.1NoSQL的起因 6.1.2NoSQL的特點 6.1.3NoSQL數(shù)據(jù)庫面臨的挑戰(zhàn) 6.2NoSQL數(shù)據(jù)庫類型簡介 6.2.1鍵值數(shù)據(jù)庫 6.2.2列式數(shù)據(jù)庫 6.2.3文檔數(shù)據(jù)庫 6.4.4圖形數(shù)據(jù)庫 第7章 HadoopHBase數(shù)據(jù)庫簡介 7.1HBase列式數(shù)據(jù)模型簡介 7.1.1數(shù)據(jù)模型概述 7.1.2數(shù)據(jù)模型的基本概念 7.1.3概念視圖 7.1.4物理視圖 7.2HBaseShell常用命令和基本操作 7.2.1般操作 7.2.2DDL操作 7.2.3DML操作 7.2.4HBase表實例 7.3HBase的物理存儲和邏輯架構(gòu) 7.3.1HBase的物理存儲 7.3.2HBase的邏輯架構(gòu) 7.4HBase常用JavaAPI 7.4.1HBase的常用JavaAPI 7.5HBaseJavaAPI編程實例 7.5.1建立連接和關(guān)閉連接 7.5.2創(chuàng)建表 第8章 HadoopMapReduce簡介 8.1批處理模式 8.1.1MapReduce簡釋 8.2MapReduce基本思想 8.2.1.大數(shù)據(jù)處理思想:分而治之 8.2.2構(gòu)建抽象模型:Map函數(shù)和Reduce函數(shù) 8.2.3Map函數(shù)和Reduce函數(shù) 8.3HadoopMapReduce架構(gòu) 8.4HadoopMapReduce工作流程 8.5MapReduce實例分析:單詞計數(shù) 8.5.1設(shè)計思路 8.5.2處理過程 8.6MapReduce執(zhí)行流程和Shuffle過程 8.6.1HadoopMapReduce作業(yè)執(zhí)行流程 8.6.2HadoopMapReduce的Shuffle階段 8.6.3HadoopMapReduce的主要特點 8.7MapReduce編程實例:單詞計數(shù) 8.7.1任務(wù)準(zhǔn)備 8.7.2編寫Map程序 8.7.3編寫Reduce程序 8.7.4編寫main函數(shù) 8.7.5核心代碼包 第9章 Spark簡介 9.1Spark與Hadoop 9.1.1HadoopMapRedcue缺點 9.1.2Spark的優(yōu)勢 9.1.3Spark的適用場景 9.1.4Spark安裝與環(huán)境配置 9.2SparkRDD 9.2.1RDD的基本概念 9.2.2RDD基本操作 9.2.3RDD血緣關(guān)系 9.2.4RDD依賴類型 9.2.5階段劃分 9.2.6RDD緩存 9.3Spark總體架構(gòu)和運行流程 9.3.1Spark總體架構(gòu) 9.3.2Spark運行流程 9.4Spark生態(tài)圈簡介 9.4.1SparkCore 9.4.2SparkStreaming 9.4.3SparkSQL 9.4.4SparkMLlib 9.4.5SparkGraphX 9.5Spark開發(fā)實例 9.5.1啟動SparkShell 9.5.2SparkShell使用 9.5.3編寫Java應(yīng)用程序 9.6SparkStreaming簡介 9.6.1SparkStreaming的系統(tǒng)架構(gòu) 9.6.2SparkStreaming編程模型 9.6.3SparkDStream相關(guān)操作 9.7SparkStreaming編程實戰(zhàn)(開發(fā)實例) 9.7.1流數(shù)據(jù)模擬器 第10章 數(shù)據(jù)挖掘 10.1數(shù)據(jù)挖掘概述 10.1.1什么是數(shù)據(jù)挖掘 10.1.2數(shù)據(jù)挖掘的價值類型 10.1.3數(shù)據(jù)挖掘算法的類型 10.2 SparkMLlib簡介 10.2.1SparkMLlib的構(gòu)成 10.2.2SparkMLlib的優(yōu)勢 10.3數(shù)據(jù)挖掘之分類和預(yù)測簡介 10.3.1分類的基本概念 10.3.2預(yù)測的基本概念 10.4決策樹和樸素貝葉斯算法簡介 10.4.1決策樹算法 1.決策樹案例 2.決策樹的建立 3.SparkMLlib決策樹算法 4.SparkMLlib決策樹算法實例 5.決策樹算法優(yōu)缺點 10.5樸素貝葉斯算法 1.貝葉斯公式 2.工作原理 3.SparkMLlib樸素貝葉斯算法 4.SparkMLlib樸素貝葉斯算法實例 5.算法優(yōu)缺點 10.6回歸分析預(yù)測技術(shù)簡介 1.線性回歸 2.SparkMLlib的SGD線性回歸算法 3.SparkMLlib的SGD線性回歸算法實例 4.邏輯回歸 10.7聚類分析 10.7.1基本概念 10.7.2聚類分析方法的類別 1.基于劃分的聚類方法 2.基于層次的聚類方法 3.基于密度的聚類方法 4.基于網(wǎng)格的聚類方法 5.基于模型的聚類方法 10.8k-means聚類算法簡介 1.基本思想 2.SparkMLlib中的k-means算法 3.MLlib中的k-means算法實例 4.算法優(yōu)缺點 10.9DBSCAN聚類算法簡介 1.基本概念 2.算法描述 3.算法實例 4.DBSCAN算法算法優(yōu)缺點 10.10數(shù)據(jù)挖掘之關(guān)聯(lián)規(guī)則分析簡介 10.10.1概述 10.10.2基本概念 10.10.3關(guān)聯(lián)分析步驟 2.發(fā)現(xiàn)關(guān)聯(lián)規(guī)則 10.11Apriori算法和FP-Tree算法簡介 10.11.1Apriori關(guān)聯(lián)分析算法 1.Apriori算法 2.由頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則 3.算法優(yōu)缺點 10.11.2FP-Tree關(guān)聯(lián)分析算法 1.FPTree的構(gòu)造 2.FP-Tree的挖掘 3.MLlib的FP-Growth算法實例 第11章 基于大數(shù)據(jù)的精準(zhǔn)營銷 11.1精準(zhǔn)營銷概述 11.2大數(shù)據(jù)精準(zhǔn)營銷過程 1. 助力客戶信息收集與處理 2. 客戶細(xì)分與市場定位 3. 輔助營銷決策與營銷戰(zhàn)略設(shè)計 4. 精準(zhǔn)的營銷服務(wù) 5. 營銷方案設(shè)計 6. 營銷結(jié)果反饋 11.3大數(shù)據(jù)精準(zhǔn)營銷方式 1. 實時競價(RTB) 2. 交叉銷售 3. 點告 4. 窄告 5. 定向廣告推送 第12章 基于大數(shù)據(jù)的個性化推薦系統(tǒng) 12.1推薦系統(tǒng)概述 12.2推薦機(jī)制 1. 基于人口統(tǒng)計學(xué)的推薦 2. 基于內(nèi)容的推薦 3. 基于協(xié)同過濾的推薦 4. 混合推薦機(jī)制 12.3推薦系統(tǒng)的應(yīng)用 12.3.1推薦在電子商務(wù)中的應(yīng)用:Amazon 12.3.2推薦在社交網(wǎng)站中的應(yīng)用:豆瓣 第13章 大數(shù)據(jù)預(yù)測 13.1預(yù)測是大數(shù)據(jù)的核心價值 13.2大數(shù)據(jù)預(yù)測的思維改變 1. 實樣而非抽樣 2. 效率而非精確 3. 相關(guān)性而非因果關(guān)系 13.3大數(shù)據(jù)預(yù)測的典型應(yīng)用領(lǐng)域 1. 天氣預(yù)報 2. 體育賽事預(yù)測 3. 股票市場預(yù)測 4. 市場物價預(yù)測 5. 用戶行為預(yù)測 6. 人體健康預(yù)測 7. 疾病疫情預(yù)測 8. 災(zāi)害災(zāi)難預(yù)測 9. 環(huán)境變遷預(yù)測 10. 交通行為預(yù)測 11. 能源消耗預(yù)測 第14章 大數(shù)據(jù)在金融行業(yè)的應(yīng)用 14.1大數(shù)據(jù)可以應(yīng)用的行業(yè) 1. 互聯(lián)網(wǎng)和營銷行業(yè)。 2. 信息化水平比較高的行業(yè)。 3. 政府及公用事業(yè)行業(yè)。 4. 制造業(yè)、物流、醫(yī)療、農(nóng)業(yè)等行業(yè)。 14.2銀行大數(shù)據(jù)應(yīng)用場景 1. 客戶畫像 2. 精準(zhǔn)營銷 3. 風(fēng)險管控 4. 運營優(yōu)化 14.3證券行業(yè)數(shù)據(jù)應(yīng)用場景 1. 股價預(yù)測 2. 客戶關(guān)系管理 3. 投資景氣指數(shù)預(yù)測 14.4保險行業(yè)數(shù)據(jù)應(yīng)用場景 1.客戶細(xì)分和精細(xì)化營銷 2.欺詐行為分析 3.精細(xì)化運營 第15章 大數(shù)據(jù)在互聯(lián)網(wǎng)行業(yè)的應(yīng)用 15.1精準(zhǔn)營銷 15.2.個性化服務(wù) 15.3商品個性化推薦 1. 電子商務(wù)網(wǎng)站 2. 電影視頻網(wǎng)站 3. 網(wǎng)絡(luò)電臺 4. 社交網(wǎng)絡(luò) 5. 其他應(yīng)用 第16章 大數(shù)據(jù)在物流行業(yè)的應(yīng)用 16.1物流大數(shù)據(jù)的作用 1. 提高物流的智能化水平 2. 降低物流成本 3. 提高用戶服務(wù)水平 16.2物流大數(shù)據(jù)應(yīng)用案例 1. 車貨匹配 2. 運輸路線優(yōu)化 3. 庫存預(yù)測 4. 設(shè)備修理預(yù)測 5. 供應(yīng)鏈協(xié)同管理 16.3Amazon物流大數(shù)據(jù)應(yīng)用 1. 訂單與客戶服務(wù)中的大數(shù)據(jù)應(yīng)用 2. 智能入庫管理技術(shù) 3. 智能揀貨和智能算法 16.4國際物流大數(shù)據(jù)應(yīng)用 1. DHL 2. FedEx 3. FleetBoard 4. ConWayFreight 5. C.H.Robinson 6. FRA 16.5大數(shù)據(jù)的其他應(yīng)用領(lǐng)域 1.大數(shù)據(jù)幫助企業(yè)挖掘市場機(jī)會,探尋細(xì)分市場 2.大數(shù)據(jù)提高決策能力 3.大數(shù)據(jù)創(chuàng)新企業(yè)管理模式,挖掘管理潛力 4.大數(shù)據(jù)變革商業(yè)模式,催生產(chǎn)品和服務(wù)的創(chuàng)新 第17章 大數(shù)據(jù)治理 17.1大數(shù)據(jù)治理的策略 1. 大數(shù)據(jù)治理的理解 2.在大數(shù)據(jù)治理的過程,應(yīng)該遵循以下規(guī)則。 3.大數(shù)據(jù)治理存在的誤區(qū) 17.2元數(shù)據(jù)與主數(shù)據(jù)管理 1. 元數(shù)據(jù) 2. 主數(shù)據(jù) 3. 主數(shù)據(jù)和元數(shù)據(jù)的關(guān)系 4. 元數(shù)據(jù)管理,是數(shù)據(jù)治理的核心和基礎(chǔ) 17.3數(shù)據(jù)質(zhì)量管理 1. 數(shù)據(jù)質(zhì)量管理的目標(biāo) 2. 數(shù)據(jù)質(zhì)量問題產(chǎn)生的根源 3. 數(shù)據(jù)質(zhì)量評估的標(biāo)準(zhǔn) 4. 數(shù)據(jù)質(zhì)量管理的流程 5. 數(shù)據(jù)質(zhì)量管理的取與舍 17.4數(shù)據(jù)標(biāo)準(zhǔn)管理 1. 大數(shù)據(jù)標(biāo)準(zhǔn)體系 2. 關(guān)于數(shù)據(jù)標(biāo)準(zhǔn)認(rèn)識的幾個誤區(qū) 3. 數(shù)據(jù)標(biāo)準(zhǔn)的定義 4. 如何制定數(shù)據(jù)標(biāo)準(zhǔn) 5. 數(shù)據(jù)標(biāo)準(zhǔn)化的難題 6. 如何應(yīng)對這些難題 7. 數(shù)據(jù)標(biāo)準(zhǔn)、主數(shù)據(jù)、元數(shù)據(jù)間的關(guān)系 17.5數(shù)據(jù)資產(chǎn)管理 1. 數(shù)據(jù)資產(chǎn)與數(shù)據(jù)資產(chǎn)管理的定義 2. 數(shù)據(jù)資產(chǎn)管理的現(xiàn)狀和挑戰(zhàn) 3. 數(shù)據(jù)資產(chǎn)管理的目標(biāo) 4. 數(shù)據(jù)資產(chǎn)管理與數(shù)據(jù)治理的關(guān)系 17.6大數(shù)據(jù)治理發(fā)展之路 1. 零散化存放是數(shù)據(jù)問題根源 2. 大數(shù)據(jù)治理帶來全面解決之道 3. 大數(shù)據(jù)治理的商業(yè)價值 4. 高質(zhì)量數(shù)據(jù)是企業(yè)業(yè)務(wù)創(chuàng)新、管理決策的基礎(chǔ)。 5. 標(biāo)準(zhǔn)化的數(shù)據(jù)是優(yōu)化商業(yè)模式、指導(dǎo)生產(chǎn)經(jīng)營的前提 6. 多角度、全方位的數(shù)據(jù)是開展市場營銷、爭奪客戶資源的關(guān)鍵 17.7大數(shù)據(jù)治理的五個核心要素 17.8自服務(wù)大數(shù)據(jù)治理是解決問題之道 1. 建好數(shù)據(jù)管理體系,快速識別數(shù)據(jù) 2. 建立數(shù)據(jù)治理體系,監(jiān)控并快速發(fā)現(xiàn)問題 3. 建立數(shù)據(jù)應(yīng)用體系,共享和高效使用數(shù)據(jù) 17.9大數(shù)據(jù)治理技術(shù)需要不斷革新 1. 管起來:數(shù)據(jù)資產(chǎn)的自動化采集、存儲技術(shù) 2. 有保障:數(shù)據(jù)質(zhì)量探查和提升技術(shù) 3. 用起來:自助化數(shù)據(jù)服務(wù)構(gòu)建技術(shù) 17.9如何選擇合適的大數(shù)據(jù)治理工具 1. 大數(shù)據(jù)治理的核心元數(shù)據(jù)管理工具 2. 大數(shù)據(jù)治理的實踐自助化數(shù)據(jù)服務(wù)平臺 17.10大數(shù)據(jù)治理在人工智能的作用 1. 數(shù)據(jù)治理 2. 數(shù)據(jù)建模 3. 數(shù)據(jù)采集 4. 數(shù)據(jù)匯聚 5. 分析配置 6. 數(shù)據(jù)展現(xiàn) 7. 建設(shè)意見 17.11區(qū)塊鏈和AI如何幫助主數(shù)據(jù)管理 1. 主數(shù)據(jù)管理的重要性 2. AI在主數(shù)據(jù)管理中的作用 3. 區(qū)塊鏈在保護(hù)主數(shù)據(jù)管理方面的作用
你還可能感興趣
我要評論
|