數(shù)據(jù)準(zhǔn)備:從獲取到整理(數(shù)據(jù)分析與應(yīng)用叢書)
定 價:46 元
叢書名:數(shù)據(jù)分析與應(yīng)用叢書
- 作者:阮敬 任韜
- 出版時間:2022/7/1
- ISBN:9787300307985
- 出 版 社:中國人民大學(xué)出版社
- 中圖法分類:TP274
- 頁碼:244
- 紙張:
- 版次:1
- 開本:16
數(shù)據(jù)的獲取方式、數(shù)據(jù)的形式及其結(jié)構(gòu)紛繁蕪雜,如何把數(shù)據(jù)整理成我們想要的樣子呢?本書通過真實案例構(gòu)建了數(shù)據(jù)準(zhǔn)備過程中的方法與技術(shù)體系,并通過Python 3編程實現(xiàn)從數(shù)據(jù)獲取到數(shù)據(jù)整理的全過程。
全書內(nèi)容包括數(shù)據(jù)來源、數(shù)據(jù)類型、數(shù)據(jù)編碼、數(shù)據(jù)清洗、數(shù)據(jù)插補、數(shù)據(jù)配平、數(shù)據(jù)重構(gòu)、數(shù)據(jù)變換、數(shù)據(jù)縮放和數(shù)據(jù)歸約。為使讀者能夠快速掌握數(shù)據(jù)準(zhǔn)備的方法與技術(shù),本書的數(shù)據(jù)文件與程序代碼均可下載(見封底二維碼)。線上操作平臺地址為http://ykt.ai-learning.net。
本書既可作為高等院校的數(shù)據(jù)分析類課程教材,也可作為社會科學(xué)領(lǐng)域數(shù)據(jù)分析的自學(xué)用書。從事數(shù)據(jù)分析與數(shù)據(jù)管理工作的相關(guān)人員,以及用Python解決實際數(shù)據(jù)分析問題的工程技術(shù)和管理人員亦可參考使用。
阮敬 博士、教授、博士生導(dǎo)師。首都經(jīng)濟(jì)貿(mào)易大學(xué)數(shù)據(jù)科學(xué)學(xué)院副院長。兼任第七屆全國統(tǒng)計教材編審委員會學(xué)術(shù)委員、數(shù)據(jù)科學(xué)與大數(shù)據(jù)應(yīng)用組副組長,中國現(xiàn)場統(tǒng)計研究會副秘書長、經(jīng)濟(jì)與金融統(tǒng)計分會副理事長,中國統(tǒng)計教育學(xué)會副秘書長、高等教育分會秘書長,全國工業(yè)統(tǒng)計學(xué)教學(xué)研究會常務(wù)理事,中國青年統(tǒng)計學(xué)家協(xié)會創(chuàng)會秘書長,北京大數(shù)據(jù)協(xié)會副會長、秘書長,《統(tǒng)計學(xué)報》《統(tǒng)計與精算》編委等。研究領(lǐng)域為經(jīng)濟(jì)統(tǒng)計、大數(shù)據(jù)分析。在國內(nèi)外發(fā)表論文70余篇,出版專著、譯著、教材16部。主持國家級和省部級科研項目及企事業(yè)單位橫向課題50余項。榮獲全國統(tǒng)計科學(xué)研究優(yōu)秀成果獎、全國應(yīng)用統(tǒng)計專業(yè)學(xué)位研究生優(yōu)秀教育教學(xué)成果獎、北京市哲學(xué)社會科學(xué)優(yōu)秀成果獎、北京市優(yōu)秀調(diào)查研究成果獎等10余項省部級及以上科研和教學(xué)獎勵。
任韜 博士、教授、博士生導(dǎo)師。首都經(jīng)濟(jì)貿(mào)易大學(xué)商務(wù)學(xué)院院長。兼任北京大數(shù)據(jù)協(xié)會副會長,中國商業(yè)統(tǒng)計學(xué)會常務(wù)理事、市場調(diào)查與教學(xué)研究分會副會長兼秘書長、數(shù)據(jù)科學(xué)與商業(yè)智能分會副會長,中國國民經(jīng)濟(jì)核算研究會常務(wù)理事等。主要研究方向為大數(shù)據(jù)分析,經(jīng)濟(jì)統(tǒng)計學(xué)。主持多項國家社會科學(xué)基金項目、教育部人文社會科學(xué)基金項目。在國內(nèi)外發(fā)表學(xué)術(shù)論文20余篇,出版學(xué)術(shù)專著及教材7部。
第1 章 數(shù)據(jù)來源
1.1 調(diào)查和觀察數(shù)據(jù)
1.1.1 調(diào)查數(shù)據(jù)
1.1.2 觀察數(shù)據(jù)
1.2 數(shù)據(jù)庫數(shù)據(jù)
1.2.1 關(guān)系型數(shù)據(jù)庫
1.2.2 非關(guān)系型數(shù)據(jù)庫
1.3 爬蟲數(shù)據(jù)
1.4 日志數(shù)據(jù)
第 2 章 數(shù)據(jù)類型
2.1 結(jié)構(gòu)化數(shù)據(jù)
2.1.1 基本數(shù)據(jù)類型
2.1.2 二維表結(jié)構(gòu)數(shù)據(jù)
2.2 集合數(shù)據(jù)類型
2.2.1 列表
2.2.2 元組
2.2.3 字典
2.2.4 集合
2.2.5 推導(dǎo)式
2.3 其他常見的結(jié)構(gòu)化數(shù)據(jù)
2.3.1 數(shù)組
2.3.2 矩陣
2.3.3 數(shù)列
2.3.4 數(shù)據(jù)幀
2.3.5 日期時間型數(shù)據(jù)
2.4 非結(jié)構(gòu)化數(shù)據(jù)
2.4.1 網(wǎng)頁與 JSON 數(shù)據(jù)
2.4.2 圖像數(shù)據(jù)
2.4.3 音頻數(shù)據(jù)
2.4.4 視頻數(shù)據(jù)
第 3 章 數(shù)據(jù)編碼
3.1 數(shù)據(jù)編碼的基本要求和原則
3.2 數(shù)據(jù)編碼的結(jié)構(gòu)類型
3.2.1 分類編碼
3.2.2 順序編碼
3.2.3 分段編碼
3.2.4 值標(biāo)簽編碼
3.2.5 Dummy/虛擬變量編碼
3.2.6 尺度編碼
第 4 章 數(shù)據(jù)清洗
4.1 異常值清洗
4.1.1 異常值識別
4.1.2 異常值處理
4.2 重復(fù)數(shù)據(jù)清洗
4.2.1 重復(fù)數(shù)據(jù)檢測
4.2.2 重復(fù)數(shù)據(jù)刪除
4.3 低頻類別清洗
4.3.1 觀察低頻識別
4.3.2 低頻類別處理
4.4 數(shù)據(jù)糾錯
4.4.1 邏輯糾錯
4.4.2 格式糾錯
4.5 數(shù)據(jù)糾偏
4.5.1 數(shù)據(jù)偏度識別和測量
4.5.2 數(shù)據(jù)偏度的糾正
第5 章 數(shù)據(jù)插補
5.1 缺失值產(chǎn)生原因及其表現(xiàn)
5.1.1 缺失值的含義
5.1.2 缺失值的類型
5.1.3 缺失值產(chǎn)生的原因
5.1.4 缺失值的影響
5.1.5 缺失值的表現(xiàn)形式
5.2 缺失值插補
5.2.1 簡單統(tǒng)計量插補
5.2.2 聚類插補
5.2.3 模型插補
5.3 MVP
5.3.1 MVP 分析思路
5.3.2 MVP 提取方法
第 6 章 數(shù)據(jù)配平
6.1 不平衡數(shù)據(jù)
6.1.1 不平衡數(shù)據(jù)的含義
6.1.2 不平衡數(shù)據(jù)的影響
6.2 數(shù)據(jù)配平方法
6.2.1 欠采樣
6.2.2 過采樣
6.2.3 混合采樣
6.3 數(shù)據(jù)配平的影響
6.3.1 數(shù)據(jù)配平的效果
6.3.2 模型預(yù)測結(jié)果的偏離及其校正方法
6.3.3 欠采樣對預(yù)測穩(wěn)定性的影響
第 7 章 數(shù)據(jù)重構(gòu)
7.1 數(shù)據(jù)組合
7.1.1 序列組合
7.1.2 水平組合
7.1.3 垂直組合
7.1.4 深度組合
7.1.5 列組合
7.1.6 行組合
7.2 軸向連接
7.2.1 左右拼接
7.2.2 數(shù)據(jù)追加
7.3 數(shù)據(jù)融合
7.3.1 鍵融合
7.3.2 索引融合
7.3.3 插補融合
7.4 數(shù)據(jù)重塑
7.4.1 Panel
7.4.2 層次化索引
7.4.3 stack與unstack
7.5 數(shù)據(jù)分拆
7.5.1 水平分拆
7.5.2 垂直分拆
7.5.3 深度分拆
7.5.4 邏輯分拆
7.5.5 隨機采樣與數(shù)據(jù)分割
7.6 數(shù)據(jù)聚合
第 8 章 數(shù)據(jù)變換
8.1 數(shù)據(jù)變換的含義和作用
8.2 連續(xù)數(shù)據(jù)函數(shù)變換
8.2.1 對數(shù)變換
8.2.2 平方根變換
8.2.3 平方變換
8.2.4 倒數(shù)變換
8.2.5 冪變換與 BOX-COX 變換 176
8.3 連續(xù)數(shù)據(jù)離散化
8.3.1 客觀法
8.3.2 主觀法
8.4 數(shù)據(jù)次序化
8.4.1 升降次序
8.4.2 位置與秩
8.4.3 秩的計算方法
8.4.4 秩的缺失值處理
8.4.5 DataFrame 中的秩
8.5 多分類數(shù)據(jù)啞變量化
8.5.1 啞變量的概念與特征
8.5.2 啞變量與 one-hot 碼
8.5.3 多分類數(shù)據(jù)轉(zhuǎn)換為啞變量 196
8.5.4 多分類數(shù)據(jù)轉(zhuǎn)換為 one-hot 碼
8.6 定性數(shù)據(jù)數(shù)量化
8.6.1 順序數(shù)據(jù)轉(zhuǎn)化為得分
8.6.2 構(gòu)造定性數(shù)據(jù)的平滑值
第 9 章 數(shù)據(jù)縮放
9.1 數(shù)據(jù)縮放的概念
9.2 數(shù)據(jù)縮放方法
9.2.1 中心化
9.2.2 標(biāo)準(zhǔn)化
9.2.3 Min-Max 縮放
9.2.4 Max-ABS 縮放
9.2.5 Robust 縮放
第 10 章 數(shù)據(jù)歸約
10.1 數(shù)據(jù)歸約的概念
10.2 變量選擇方法
10.2.1 使用統(tǒng)計量
10.2.2 決策樹模型
10.2.3 Lasso 算法
10.3 樣本歸約
參考文獻(xiàn)