隨著信息量的劇增帶來巨大的數(shù)據(jù)價(jià)值,人們已經(jīng)意識(shí)到挖掘數(shù)據(jù)價(jià)值的重要性,但如何實(shí)現(xiàn)數(shù)據(jù)價(jià)值的最大化,始終未得到完美解決。由于各企業(yè)和部門之間的相互獨(dú)立,容易造成信息系統(tǒng)之間的不兼容,數(shù)據(jù)結(jié)構(gòu)存在較大差異,數(shù)據(jù)難以共享,形成信息的孤島效應(yīng)。為解決在獲取數(shù)據(jù)價(jià)值過程中出現(xiàn)的這些典型難題,數(shù)據(jù)治理技術(shù)得到快速發(fā)展。數(shù)據(jù)治理從數(shù)據(jù)的全生命周期的各個(gè)環(huán)節(jié)做出專業(yè)的管理。
本書重點(diǎn)介紹了數(shù)據(jù)治理中的兩種常用的治理技術(shù)——數(shù)據(jù)質(zhì)量管理和數(shù)據(jù)集成,并在自主研發(fā)的平臺(tái)上基于典型的案例實(shí)現(xiàn)數(shù)據(jù)質(zhì)量的管理和數(shù)據(jù)的集成。數(shù)據(jù)質(zhì)量管理能夠確保數(shù)據(jù)模式和數(shù)據(jù)實(shí)例的一致性、正確性、完整性和最小性。數(shù)據(jù)集成可將分散的若干個(gè)數(shù)據(jù)源中的數(shù)據(jù)邏輯地或物理地集成到一個(gè)統(tǒng)一的數(shù)據(jù)集合體中,以統(tǒng)一的視圖對(duì)外提供數(shù)據(jù)服務(wù)。因此,本書分為數(shù)據(jù)治理概述、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)集成等三部分。
第1部分?jǐn)?shù)據(jù)治理概述共1章(第1章),介紹了不同機(jī)構(gòu)體系對(duì)數(shù)據(jù)治理概念的理解,并從四個(gè)方面提出對(duì)數(shù)據(jù)治理定義的理解。在進(jìn)行數(shù)據(jù)治理時(shí),不同的機(jī)構(gòu)體系都遵循一定的基本原則,具體闡述了COBIT5提出的五項(xiàng)原則。針對(duì)不同領(lǐng)域或行業(yè),設(shè)計(jì)的數(shù)據(jù)治理模型會(huì)有所區(qū)別,IBM數(shù)據(jù)治理委員會(huì)提出了在業(yè)界認(rèn)可度較高的數(shù)據(jù)治理模型。該模型從11個(gè)數(shù)據(jù)治理成熟度類別來度量數(shù)據(jù)治理能力。數(shù)據(jù)治理的步驟主要闡述了IBM數(shù)據(jù)治理委員會(huì)提出的統(tǒng)一流程。
第2部分?jǐn)?shù)據(jù)質(zhì)量管理共3章(第2~4章),介紹了數(shù)據(jù)質(zhì)量常見的三種定義,具體闡述了數(shù)據(jù)質(zhì)量的問題分類以及評(píng)價(jià)數(shù)據(jù)治理的標(biāo)準(zhǔn)。數(shù)據(jù)清洗主要研究如何檢測(cè)并消除數(shù)據(jù)中的錯(cuò)誤和不一致等質(zhì)量問題。根據(jù)常見的數(shù)據(jù)治理問題,如數(shù)據(jù)缺失、數(shù)據(jù)記錄相似或重復(fù)、數(shù)據(jù)異常、數(shù)據(jù)邏輯錯(cuò)誤等,提供了相應(yīng)的數(shù)據(jù)清洗方法,同時(shí)總結(jié)了提高數(shù)據(jù)清洗效率的典型流程。數(shù)據(jù)質(zhì)量管理系統(tǒng)是一款通過對(duì)數(shù)據(jù)質(zhì)量建立各個(gè)指標(biāo)維度后進(jìn)行質(zhì)量評(píng)估最終實(shí)現(xiàn)數(shù)據(jù)清洗的軟件系統(tǒng),主要分為用于管理不同類型數(shù)據(jù)源的數(shù)據(jù)源管理、用于元數(shù)據(jù)查看預(yù)覽的數(shù)據(jù)剖析、用于指標(biāo)體系建立與維護(hù)以及支撐整個(gè)評(píng)估流程的數(shù)據(jù)質(zhì)量評(píng)估、用于對(duì)完成數(shù)據(jù)評(píng)估的數(shù)據(jù)進(jìn)行清洗的數(shù)據(jù)清洗、用于系統(tǒng)基本功能設(shè)置以及用戶設(shè)置的系統(tǒng)設(shè)置等五大功能;跀(shù)據(jù)質(zhì)量管理系統(tǒng),以教師信息為依托,介紹了常用的數(shù)據(jù)質(zhì)量管理的操作流程,以及檢查算子的開發(fā)方法。
第3部分?jǐn)?shù)據(jù)集成共3章(第 5~7 章),介紹了數(shù)據(jù)集成的概念,虛擬視圖和物化及其混合的集成方法,以及數(shù)據(jù)集成的開發(fā)生命周期。多源數(shù)據(jù)匯集處理系統(tǒng)是一款基于 Kettle軟件改造的專用數(shù)據(jù)集成軟件,其核心功能和運(yùn)行模式與Kettle基本一致。它能夠以普通人員、專業(yè)數(shù)據(jù)人員、開發(fā)者等不同身份操作軟件的功能。在該軟件上,詳細(xì)介紹了表屬性的計(jì)算匯總、表數(shù)據(jù)分組統(tǒng)計(jì)、表間數(shù)據(jù)關(guān)聯(lián)、腳本處理、多表數(shù)據(jù)合并、字段合并與數(shù)據(jù)分流、數(shù)據(jù)范圍標(biāo)識(shí)等典型數(shù)據(jù)集成方法,并闡述了這些典型方法的綜合運(yùn)用。
本書由陳剛負(fù)責(zé)全面籌劃、設(shè)計(jì)工作,其中第1、3、4章由陳剛負(fù)責(zé)編寫,第5、6、7章由郝建東負(fù)責(zé)編寫,第2章由張中輝負(fù)責(zé)編寫,胡琨和于坤參與了部分章節(jié)的編寫,郝建東負(fù)責(zé)統(tǒng)稿、校驗(yàn)、修訂等工作。
本書既可以作為高等院校信息管理與信息系統(tǒng)、信息資源管理、大數(shù)據(jù)工程以及計(jì)算機(jī)信息管理等專業(yè)本科生的教材或輔助讀本,也可以作為企事業(yè)單位信息管理工作人員的培訓(xùn)教材,在理解數(shù)據(jù)治理,特別是數(shù)據(jù)質(zhì)量管理和數(shù)據(jù)集成的相關(guān)理論的同時(shí),通過數(shù)據(jù)質(zhì)量管理和數(shù)據(jù)集成的典型軟件,掌握數(shù)據(jù)治理的常用方法,提高實(shí)踐操作能力。
由于編者水平有限、編寫時(shí)間緊迫,加之?dāng)?shù)據(jù)工程理論與技術(shù)不斷發(fā)展,書中難免存有錯(cuò)誤和不妥之處,敬請(qǐng)專家和廣大讀者不吝批評(píng)指正。編者將進(jìn)一步完善和充實(shí)本書的內(nèi)容。
編著者
2021年5月于南京
第1章 數(shù)據(jù)治理概述 1
1.1 數(shù)據(jù)治理的定義 1
1.2 數(shù)據(jù)治理的基本要求 2
1.3 數(shù)據(jù)治理模型 3
1.4 數(shù)據(jù)治理一般步驟 5
第2章 數(shù)據(jù)質(zhì)量 8
2.1 數(shù)據(jù)質(zhì)量概述 8
2.1.1 數(shù)據(jù)質(zhì)量定義 8
2.1.2 數(shù)據(jù)質(zhì)量問題 8
2.1.3 數(shù)據(jù)質(zhì)量維度 10
2.2 數(shù)據(jù)清洗 10
2.2.1 數(shù)據(jù)清洗定義 10
2.2.2 數(shù)據(jù)清洗方法 11
2.2.3 數(shù)據(jù)清洗流程 21
第3章 數(shù)據(jù)質(zhì)量管理系統(tǒng) 25
3.1 數(shù)據(jù)源管理 25
3.1.1 關(guān)系數(shù)據(jù)庫數(shù)據(jù)源管理 25
3.1.2 文件數(shù)據(jù)源管理 27
3.2 數(shù)據(jù)剖析 27
3.2.1 元數(shù)據(jù) 27
3.2.2 值預(yù)覽 28
3.2.3 值分布分析 28
3.3 數(shù)據(jù)質(zhì)量評(píng)估 29
3.3.1 指標(biāo)體系維護(hù) 29
3.3.2 評(píng)估算法庫 31
3.3.3 數(shù)據(jù)檢查算子庫 32
3.3.4 數(shù)據(jù)血緣關(guān)系維護(hù) 35
3.3.5 數(shù)據(jù)質(zhì)量評(píng)估流程 37
3.3.6 評(píng)估任務(wù)庫 40
3.4 數(shù)據(jù)清洗 40
3.4.1 清洗算子庫 40
3.4.2 數(shù)據(jù)清洗流程 43
3.4.3 清洗任務(wù)庫 45
3.4.4 清洗案例庫 46
3.5 系統(tǒng)設(shè)置 46
3.5.1 用戶管理 46
3.5.2 角色管理 47
3.5.3 模塊管理 49
3.5.4 修改密碼 52
第4章 常用數(shù)據(jù)質(zhì)量管理系統(tǒng)操作 53
4.1 規(guī)劃評(píng)估指標(biāo) 53
4.2 導(dǎo)入數(shù)據(jù)源 54
4.3 建立基礎(chǔ)指標(biāo)體系 56
4.4 創(chuàng)建數(shù)據(jù)質(zhì)量評(píng)估任務(wù) 58
4.5 配置指標(biāo)樹 59
4.6 配置評(píng)估算子 59
4.7 設(shè)置指標(biāo)聚合方式 61
4.8 執(zhí)行評(píng)估方案 62
4.9 數(shù)據(jù)清洗 64
4.10 算子開發(fā) 66
4.10.1 算子開發(fā)與部署方法 66
4.10.2 算子開發(fā)實(shí)例 70
第5章 數(shù)據(jù)集成 74
5.1 數(shù)據(jù)集成的概念 74
5.2 數(shù)據(jù)集成的方法 75
5.2.1 虛擬視圖方法 76
5.2.2 物化方法 77
5.2.3 混合型集成方法 78
5.3 數(shù)據(jù)集成開發(fā)生命周期 79
第6章 多源數(shù)據(jù)匯集處理系統(tǒng) 80
6.1 管理部分 80
6.1.1 用戶管理 80
6.1.2 管理案例庫 82
6.2 普通人員視圖 84
6.2.1 歷史庫 85
6.2.2 案例模板庫 86
6.2.3 數(shù)據(jù)源創(chuàng)建 87
6.2.4 預(yù)設(shè)向?qū)0?89
6.3 開發(fā)者視圖 92
6.3.1 新建 92
6.3.2 打開 93
6.3.3 資源庫 93
6.3.4 統(tǒng)計(jì) 94
6.3.5 模型校驗(yàn) 94
6.3.6 事前校驗(yàn) 96
6.3.7 測(cè)試模型 96
6.3.8 逐步測(cè)試 96
6.3.9 插入斷點(diǎn) 97
6.3.10 插入監(jiān)控點(diǎn) 98
6.3.11 大數(shù)據(jù)支持 99
6.3.12 日志和統(tǒng)計(jì)升級(jí) 99
6.3.13 數(shù)據(jù)預(yù)覽 100
第7章 常用數(shù)據(jù)集成功能操作 101
7.1 數(shù)據(jù)集成準(zhǔn)備 101
7.2 表屬性的計(jì)算匯總 103
7.3 表數(shù)據(jù)分組統(tǒng)計(jì) 113
7.4 表間數(shù)據(jù)關(guān)聯(lián) 124
7.5 腳本處理 133
7.6 多表數(shù)據(jù)合并 142
7.7 字段合并與數(shù)據(jù)分流 151
7.8 數(shù)值范圍標(biāo)識(shí) 162
7.9 作業(yè)處理 170
7.10 綜合操作(1) 177
7.11 綜合操作(2) 197
參考文獻(xiàn) 209