關(guān)于我們
書單推薦
新書推薦

數(shù)據(jù)清洗

數(shù)據(jù)清洗

定  價(jià):58 元

叢書名:大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材

        

  • 作者:劉鵬 張燕 李法平 陳瀟瀟
  • 出版時(shí)間:2018/6/1
  • ISBN:9787302493273
  • 出 版 社:清華大學(xué)出版社
  • 中圖法分類:TP274 
  • 頁碼:252
  • 紙張:
  • 版次:1
  • 開本:
9
7
4
8
9
7
3
3
2
0
7
2
3
數(shù)據(jù)清洗是大數(shù)據(jù)領(lǐng)域不可缺少的環(huán)節(jié),用來發(fā)現(xiàn)并糾正數(shù)據(jù)中可能存在的錯誤,針對數(shù)據(jù)審查過程中發(fā)現(xiàn)的錯誤值、缺失值、異常值、可疑數(shù)據(jù),選用適當(dāng)方法進(jìn)行“清理”,使“臟”數(shù)據(jù)變?yōu)椤案蓛簟睌?shù)據(jù)。
本書共分為8章:第1章主要介紹數(shù)據(jù)清洗的概念、任務(wù)和流程,數(shù)據(jù)標(biāo)準(zhǔn)化概念及數(shù)據(jù)倉庫技術(shù)等;第2章主要介紹Windows和類UNIX操作系統(tǒng)下的數(shù)據(jù)常規(guī)格式、數(shù)據(jù)編碼及數(shù)據(jù)類型轉(zhuǎn)換等;第3章介紹ETL概念、數(shù)據(jù)清洗的技術(shù)路線、ETL工具及ETL子系統(tǒng)等;第4章介紹Excel、Kettle、OpenRefine、DataWrangler和Hawk的安裝及使用等;第5章介紹Kettle下文本文件抽取、Web數(shù)據(jù)抽取、數(shù)據(jù)庫數(shù)據(jù)抽取及增量數(shù)據(jù)抽取等;第6章介紹數(shù)據(jù)清洗步驟、數(shù)據(jù)檢驗(yàn)、數(shù)據(jù)錯誤處理、數(shù)據(jù)質(zhì)量評估及數(shù)據(jù)加載;第7章介紹網(wǎng)頁結(jié)構(gòu),利用網(wǎng)絡(luò)爬蟲技術(shù)進(jìn)行數(shù)據(jù)采集,利用JavaScript技術(shù)進(jìn)行行為日志數(shù)據(jù)采集等;第8章介紹RDBMS的數(shù)據(jù)清洗方法和數(shù)據(jù)脫敏處理技術(shù)等。
本書系統(tǒng)地講解了數(shù)據(jù)清洗理論和實(shí)際應(yīng)用,適用于高職高專院校和應(yīng)用型本科的大數(shù)據(jù)課程教學(xué),也適用于希望了解數(shù)據(jù)清洗的廣大讀者。
 你還可能感興趣
 我要評論
您的姓名   驗(yàn)證碼: 圖片看不清?點(diǎn)擊重新得到驗(yàn)證碼
留言內(nèi)容