目錄
第1章緒論
1.1數(shù)據(jù)與數(shù)據(jù)科學(xué)
1.2大數(shù)據(jù)概念
1.3大數(shù)據(jù)技術(shù)特征
參考文獻(xiàn)
習(xí)題
第2章大數(shù)據(jù)計(jì)算體系
2.1大數(shù)據(jù)計(jì)算架構(gòu)
2.2數(shù)據(jù)存儲(chǔ)系統(tǒng)
2.2.1數(shù)據(jù)清洗與建模
2.2.2分布式文件系統(tǒng)
2.2.3NoSQL數(shù)據(jù)庫(kù)
2.2.4統(tǒng)一數(shù)據(jù)訪(fǎng)問(wèn)接口
2.3數(shù)據(jù)處理平臺(tái)
2.3.1數(shù)據(jù)分析算法
2.3.2計(jì)算處理模型
2.3.3計(jì)算平臺(tái)與引擎
2.4數(shù)據(jù)應(yīng)用系統(tǒng)
2.4.1大數(shù)據(jù)應(yīng)用領(lǐng)域
2.4.2大數(shù)據(jù)解決方案
參考文獻(xiàn)
習(xí)題
第3章大數(shù)據(jù)標(biāo)準(zhǔn)與模式
3.1大數(shù)據(jù)標(biāo)準(zhǔn)體系
3.2大數(shù)據(jù)計(jì)算模式
參考文獻(xiàn)
習(xí)題
第4章數(shù)據(jù)采集方法
4.1系統(tǒng)日志采集
4.1.1日志采集的目的
4.1.2日志采集過(guò)程
4.2網(wǎng)絡(luò)數(shù)據(jù)采集
4.2.1網(wǎng)絡(luò)爬蟲(chóng)工作原理
4.2.2網(wǎng)頁(yè)搜索策略
4.2.3網(wǎng)頁(yè)分析算法
4.2.4網(wǎng)絡(luò)爬蟲(chóng)框架
4.3數(shù)據(jù)采集接口
參考文獻(xiàn)
習(xí)題
第5章數(shù)據(jù)清洗與規(guī)約方法
5.1數(shù)據(jù)預(yù)處理研究現(xiàn)狀
5.1.1數(shù)據(jù)清洗的研究現(xiàn)狀
5.1.2數(shù)據(jù)規(guī)約的研究現(xiàn)狀
5.2數(shù)據(jù)質(zhì)量問(wèn)題分類(lèi)
5.2.1單數(shù)據(jù)源的問(wèn)題
5.2.2多數(shù)據(jù)源的問(wèn)題
5.3數(shù)據(jù)清洗技術(shù)
5.3.1重復(fù)記錄清洗
5.3.2消除噪聲數(shù)據(jù)
5.3.3缺失值清洗
5.4數(shù)據(jù)歸約
5.4.1維歸約
5.4.2屬性選擇
5.4.3離散化方法
5.5數(shù)據(jù)清洗工具
參考文獻(xiàn)
習(xí)題
第6章數(shù)據(jù)分析算法
6.1C4.5算法
6.1.1算法描述
6.1.2屬性選擇度量
6.1.3其他特征
6.2k均值算法
6.3支持向量機(jī)
6.4Apriori算法
6.5EM算法
6.5.1案例: 估計(jì)k個(gè)高斯分布的均值
6.5.2EM算法步驟
6.6PageRank算法
6.6.1PageRank的核心思想
6.6.2PageRank的計(jì)算過(guò)程
6.7AdaBoost算法
6.7.1Boosting算法的發(fā)展歷史
6.7.2AdaBoost算法及其分析
6.8k鄰近算法
6.9樸素貝葉斯
6.9.1樸素貝葉斯分類(lèi)器
6.9.2貝葉斯網(wǎng)絡(luò)
6.10分類(lèi)回歸樹(shù)算法
6.10.1建立回歸樹(shù)
6.10.2剪枝過(guò)程
參考文獻(xiàn)
習(xí)題
第7章文本讀寫(xiě)技術(shù)
7.1讀取文本文件
7.1.1讀取txt文件
7.1.2讀取csv文件
7.2寫(xiě)入文本文件
7.3處理二進(jìn)制數(shù)據(jù)
7.4數(shù)據(jù)庫(kù)的使用
7.4.1數(shù)據(jù)庫(kù)的連接
7.4.2執(zhí)行SQL語(yǔ)句
7.4.3選擇和打印
7.4.4動(dòng)態(tài)插入
7.4.5update操作
參考文獻(xiàn)
習(xí)題
第8章數(shù)據(jù)處理技術(shù)
8.1合并數(shù)據(jù)集
8.1.1索引上的合并
8.1.2軸向連接
8.1.3合并重疊數(shù)據(jù)
8.2數(shù)據(jù)轉(zhuǎn)換
8.2.1移除重復(fù)數(shù)據(jù)
8.2.2利用函數(shù)進(jìn)行數(shù)據(jù)轉(zhuǎn)換
8.2.3替換值
8.2.4重命名軸索引
8.2.5離散化數(shù)據(jù)
8.2.6檢測(cè)異常值
8.2.7排列和隨機(jī)采樣
8.2.8啞變量
8.3字符串操作
8.3.1內(nèi)置字符串方法
8.3.2正則表達(dá)式
8.3.3Pandas中矢量化的字符串函數(shù)
參考文獻(xiàn)
習(xí)題
第9章數(shù)據(jù)分析技術(shù)
9.1NumPy工具包
9.1.1創(chuàng)建數(shù)組
9.1.2打印數(shù)組
9.1.3基本運(yùn)算
9.1.4索引、切片和迭代
9.1.5形狀操作
9.1.6復(fù)制和視圖
9.1.7NumPy實(shí)用技巧
9.2Pandas工具包
9.2.1Series
9.2.2DataFrame
9.3ScikitLearn工具包
9.3.1邏輯回歸
9.3.2樸素貝葉斯
9.3.3k最近鄰
9.3.4決策樹(shù)
9.3.5支持向量機(jī)
9.3.6優(yōu)化算法參數(shù)
參考文獻(xiàn)
習(xí)題
第10章數(shù)據(jù)可視化技術(shù)
10.1Matplotlib繪圖
10.1.1Matplotlib API入門(mén)
10.1.2Figure和Subplot的畫(huà)圖方法
10.1.3調(diào)整Subplot周?chē)拈g距
10.1.4顏色、標(biāo)記和線(xiàn)型的設(shè)置
10.1.5刻度、標(biāo)簽和圖例
10.2Mayavi2繪圖
10.2.1使用mlab快速繪圖
10.2.2Mayavi嵌入到界面中
10.3其他圖形化工具
參考文獻(xiàn)
習(xí)題
第11章Hadoop生態(tài)系統(tǒng)
11.1Hadoop系統(tǒng)架構(gòu)
11.2HDFS分布式文件系統(tǒng)
11.2.1HDFS體系結(jié)構(gòu)
11.2.2HDFS存儲(chǔ)結(jié)構(gòu)
11.2.3數(shù)據(jù)容錯(cuò)與恢復(fù)
11.2.4Hadoop/HDFS安裝
11.3分布式存儲(chǔ)架構(gòu)
11.3.1HBase系統(tǒng)架構(gòu)
11.3.2數(shù)據(jù)模型與存儲(chǔ)模式
11.3.3HBase數(shù)據(jù)讀寫(xiě)
11.3.4數(shù)據(jù)倉(cāng)庫(kù)工具Hive
11.3.5HBase安裝與配置
11.4HBase索引與檢索
11.4.1二次索引表機(jī)制
11.4.2二次索引技術(shù)方案
11.5資源管理與作業(yè)調(diào)度
11.5.1分布式協(xié)同管理組件ZooKeeper
11.5.2作業(yè)調(diào)度與工作流引擎Oozie
11.5.3集群資源管理框架YARN
參考文獻(xiàn)
習(xí)題
第12章MapReduce計(jì)算模型
12.1分布式并行計(jì)算系統(tǒng)
12.2MapReduce計(jì)算架構(gòu)
12.3鍵值對(duì)與輸入格式
12.4映射與化簡(jiǎn)
12.5應(yīng)用編程接口
參考文獻(xiàn)
習(xí)題
第13章圖并行計(jì)算框架
13.1圖基本概念
13.2BSP模型
13.3Pregel圖計(jì)算引擎
13.4Hama開(kāi)源框架
13.5應(yīng)用編程接口
參考文獻(xiàn)
習(xí)題
第14章交互式計(jì)算模式
14.1數(shù)據(jù)模型
14.2存儲(chǔ)結(jié)構(gòu)
14.3并行查詢(xún)
14.4開(kāi)源實(shí)現(xiàn)
參考文獻(xiàn)
習(xí)題
第15章流計(jì)算系統(tǒng)
15.1流計(jì)算模型
15.2Storm計(jì)算架構(gòu)
15.3工作機(jī)制實(shí)現(xiàn)
15.4Storm編程接口
參考文獻(xiàn)
習(xí)題
第16章內(nèi)存計(jì)算模式
16.1分布式緩存體系
16.2內(nèi)存數(shù)據(jù)庫(kù)
16.3內(nèi)存云MemCloud
16.4Spark內(nèi)存計(jì)算
參考文獻(xiàn)
習(xí)題
第17章基于醫(yī)療數(shù)據(jù)的臨床決策分析應(yīng)用
17.1國(guó)內(nèi)外研究現(xiàn)狀及發(fā)展動(dòng)態(tài)分析
17.2技術(shù)路線(xiàn)和方案
參考文獻(xiàn)
習(xí)題
第18章基于醫(yī)保數(shù)據(jù)的預(yù)測(cè)分析應(yīng)用
18.1數(shù)據(jù)準(zhǔn)備階段
18.2模型變量選擇和轉(zhuǎn)換
18.2.1模型變量的選擇
18.2.2模型變量的轉(zhuǎn)換
18.2.3篩選模型變量
18.3建模過(guò)程
18.4模型效果
參考文獻(xiàn)
習(xí)題
第19章互聯(lián)網(wǎng)電商數(shù)據(jù)的分析應(yīng)用
19.1電商流程管理分析
19.1.1行業(yè)背景與業(yè)務(wù)問(wèn)題
19.1.2分析方法與過(guò)程
19.2用戶(hù)消費(fèi)行為分析
19.2.1業(yè)務(wù)問(wèn)題
19.2.2分析方法與過(guò)程
19.3送貨速度相關(guān)性分析
19.3.1業(yè)務(wù)問(wèn)題
19.3.2分析方法與過(guò)程
19.4總結(jié)
參考文獻(xiàn)
習(xí)題
第20章金融和經(jīng)濟(jì)數(shù)據(jù)的分析應(yīng)用
20.1企業(yè)對(duì)創(chuàng)新經(jīng)濟(jì)活動(dòng)推動(dòng)的影響分析
20.1.1案例背景
20.1.2分析方法與過(guò)程
20.2信貸風(fēng)險(xiǎn)模型評(píng)估
20.3中小能源型企業(yè)的信用評(píng)價(jià)分析
20.3.1案例背景
20.3.2分析方法與過(guò)程
20.3.3分析結(jié)果
參考文獻(xiàn)
習(xí)題