數(shù)據(jù)管理十講 袁野 崔斌 李戰(zhàn)懷 等
定 價(jià):89 元
- 作者:袁野 崔斌 李戰(zhàn)懷 等
- 出版時(shí)間:2024/3/1
- ISBN:9787111733348
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP274
- 頁(yè)碼:
- 紙張:純質(zhì)紙
- 版次:
- 開(kāi)本:16開(kāi)
隨著社交網(wǎng)絡(luò)等新型應(yīng)用的興起和云計(jì)算等新技術(shù)的快速發(fā)展,人類獲取數(shù)據(jù)的規(guī)模正以前所未有的速度增長(zhǎng),數(shù)據(jù)中包含了大量有價(jià)值的信息,能夠有效助力社會(huì)、經(jīng)濟(jì)、科技的發(fā)展,因此數(shù)據(jù)管理與分析方面的研究工作倍受關(guān)注。本書(shū)針對(duì)該領(lǐng)域的研究熱點(diǎn)和前沿技術(shù)進(jìn)行了深入淺出的介紹,包括圖數(shù)據(jù)、云數(shù)據(jù)庫(kù)系統(tǒng)、時(shí)空數(shù)據(jù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)庫(kù)智能化等,幫助讀者構(gòu)建宏觀視野,把握領(lǐng)域前沿。
本書(shū)適合數(shù)據(jù)管理與分析等相關(guān)領(lǐng)域的科研人員、年輕教師、研究生,以及從事相關(guān)工作的人員閱讀。
中國(guó)工程院院士鄭緯民作序
數(shù)據(jù)庫(kù)領(lǐng)域?qū)<覍W(xué)者攜手打造,系統(tǒng)構(gòu)建知識(shí)體系
綜述當(dāng)下領(lǐng)域前沿研究方向、理論與技術(shù)
以宏觀視野把握領(lǐng)域前沿,獲取領(lǐng)域底層邏輯
隨著社交網(wǎng)絡(luò)等新型應(yīng)用的興起和云計(jì)算等新技術(shù)的快速發(fā)展,人類所獲取的數(shù)據(jù)規(guī)模正以前所未有的速度增長(zhǎng),與大數(shù)據(jù)相關(guān)的技術(shù)變革成為當(dāng)今世界的熱點(diǎn)話題。大數(shù)據(jù)在信息科學(xué)、物理學(xué)、生物學(xué)、環(huán)境生態(tài)學(xué)等領(lǐng)域以及軍事、金融、通信等行業(yè)普遍存在,引起人們的極大關(guān)注。對(duì)數(shù)據(jù)進(jìn)行管理與分析,可以有效提煉人們感興趣的信息,幫助人們進(jìn)行決策,為后續(xù)研究提供堅(jiān)實(shí)的數(shù)據(jù)支撐。
隨著新興領(lǐng)域的發(fā)展,大數(shù)據(jù)具有種類繁多的特性。為了反映數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,圖數(shù)據(jù)的管理與分析應(yīng)運(yùn)而生,F(xiàn)實(shí)世界中的許多應(yīng)用場(chǎng)景都需要用圖結(jié)構(gòu)表示,例如,傳統(tǒng)應(yīng)用中的最優(yōu)運(yùn)輸路線確定、疾病暴發(fā)路徑預(yù)測(cè)、科技文獻(xiàn)引用關(guān)系分析、生物信息網(wǎng)絡(luò)分析等,新興應(yīng)用中的社交網(wǎng)絡(luò)分析、知識(shí)圖譜、數(shù)據(jù)萬(wàn)維網(wǎng)、人腦網(wǎng)絡(luò)等。隨著數(shù)據(jù)規(guī)模的不斷擴(kuò)大,傳統(tǒng)的數(shù)據(jù)庫(kù)已經(jīng)不能滿足人們對(duì)數(shù)據(jù)存儲(chǔ)和管理的需求,云數(shù)據(jù)庫(kù)系統(tǒng)隨之誕生,它融合了云基礎(chǔ)服務(wù)的彈性和數(shù)據(jù)庫(kù)系統(tǒng)的高可用、高性能的數(shù)據(jù)處理能力,可以適應(yīng)業(yè)務(wù)規(guī)模波動(dòng)的場(chǎng)景,同時(shí)具有高可用、強(qiáng)容災(zāi)、自動(dòng)化運(yùn)維、智能優(yōu)化的特性,成為數(shù)據(jù)庫(kù)市場(chǎng)的主導(dǎo)力量。隨著大數(shù)據(jù)時(shí)代的發(fā)展,越來(lái)越多的數(shù)據(jù)應(yīng)用場(chǎng)景所涉及的數(shù)據(jù)模態(tài)變得更加多樣化,而傳統(tǒng)的單模態(tài)數(shù)據(jù)不能滿足人們的需求。為應(yīng)對(duì)多模態(tài)數(shù)據(jù)應(yīng)用場(chǎng)景,多模態(tài)數(shù)據(jù)管理領(lǐng)域飛速發(fā)展,為數(shù)據(jù)存儲(chǔ)、建模以及查詢帶來(lái)了全新的挑戰(zhàn)。隨著GPS定位技術(shù)與移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,時(shí)空數(shù)據(jù)呈現(xiàn)爆發(fā)式增長(zhǎng)。時(shí)空數(shù)據(jù)在形態(tài)上具有海量、多維、動(dòng)態(tài)等特性,可以滿足城市計(jì)算、交通運(yùn)輸、行為研究等領(lǐng)域中不斷涌現(xiàn)的用戶需求,因此受到了廣泛的關(guān)注。在現(xiàn)實(shí)生活中,數(shù)據(jù)并不是一成不變的,而是不間斷到達(dá)和被處理的連續(xù)數(shù)據(jù)流。這種連續(xù)的數(shù)據(jù)流是自然產(chǎn)生的。因此,如何對(duì)流數(shù)據(jù)進(jìn)行管理與分析,根據(jù)實(shí)時(shí)的數(shù)據(jù)流做出決策和推斷,對(duì)于許多任務(wù)有著不可替代的作用。隨著比特幣進(jìn)入人們的視野,區(qū)塊鏈作為比特幣的底層技術(shù),代表一種革新性的理念和技術(shù)范式,旨在利用數(shù)據(jù)和技術(shù)來(lái)建立信任機(jī)制與體系,進(jìn)而建立新的信用體系,從而為數(shù)字經(jīng)濟(jì)和數(shù)字化轉(zhuǎn)型奠定強(qiáng)大基礎(chǔ)。
數(shù)據(jù)類型的多樣性為數(shù)據(jù)的管理與分析帶來(lái)了巨大的挑戰(zhàn),也為數(shù)據(jù)管理領(lǐng)域的相關(guān)研究帶來(lái)了巨大的機(jī)遇。然而,當(dāng)人們獲取和利用的數(shù)據(jù)量飛速增長(zhǎng)時(shí),由于容錯(cuò)標(biāo)準(zhǔn)不完善、數(shù)據(jù)存儲(chǔ)格式不一致、信息來(lái)源可靠性低、數(shù)據(jù)更新周期過(guò)長(zhǎng)等,數(shù)據(jù)的錯(cuò)誤率和混亂程度會(huì)大幅提升,使得數(shù)據(jù)工程中所用數(shù)據(jù)的質(zhì)量不夠優(yōu)質(zhì),這很可能會(huì)給諸多領(lǐng)域帶來(lái)嚴(yán)重的負(fù)面影響。因此,如何制定相關(guān)規(guī)則,對(duì)生命周期的每個(gè)階段(計(jì)劃、獲取、存儲(chǔ)、共享、維護(hù)、應(yīng)用、消亡)里可能發(fā)生的各類數(shù)據(jù)質(zhì)量問(wèn)題進(jìn)行識(shí)別、度量、監(jiān)控、預(yù)警等一系列管理活動(dòng),并通過(guò)改善和提高組織的管理水平使數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高,成為數(shù)據(jù)質(zhì)量管理的研究目標(biāo)。而隨著數(shù)據(jù)管理相關(guān)研究的不斷深入,新的問(wèn)題也隨之產(chǎn)生。數(shù)據(jù)收集是數(shù)據(jù)驅(qū)動(dòng)任務(wù)中重要的一步,隨著隱私安全問(wèn)題逐漸受到關(guān)注,各國(guó)的法律法規(guī)加強(qiáng)了對(duì)數(shù)據(jù)收集的限制,使得隱私計(jì)算成為焦點(diǎn),如何實(shí)現(xiàn)數(shù)據(jù)隱私安全成為數(shù)據(jù)庫(kù)領(lǐng)域關(guān)注的研究問(wèn)題。數(shù)據(jù)庫(kù)在基礎(chǔ)硬件和上層軟件之間起到了“承上啟下”的作用,向下發(fā)揮硬件算力,向上支撐上層應(yīng)用。底層硬件技術(shù)決定了數(shù)據(jù)存取、并發(fā)處理等的物理極限性能,以NVM、高性能處理器和硬件加速器、RDMA高性能網(wǎng)絡(luò)為代表的新硬件技術(shù)驅(qū)動(dòng)的數(shù)據(jù)管理,可以改變傳統(tǒng)的數(shù)據(jù)管理系統(tǒng)的底層載體支撐,數(shù)據(jù)管理系統(tǒng)將向混合存儲(chǔ)環(huán)境、異構(gòu)計(jì)算架構(gòu)和高性能互聯(lián)網(wǎng)絡(luò)逐步演進(jìn)。而對(duì)于上層軟件系統(tǒng),在大數(shù)據(jù)和云計(jì)算快速發(fā)展的背景下,數(shù)據(jù)庫(kù)服務(wù)的數(shù)量劇增,對(duì)數(shù)據(jù)庫(kù)查詢優(yōu)化、索引推薦、故障診斷、參數(shù)調(diào)優(yōu)等提出了更高的要求。傳統(tǒng)的依賴于啟發(fā)式算法或者人工干預(yù)的數(shù)據(jù)庫(kù)系統(tǒng)已經(jīng)難以滿足其需求。因此,結(jié)合機(jī)器學(xué)習(xí)技術(shù)實(shí)現(xiàn)包括數(shù)據(jù)庫(kù)的自優(yōu)化、自管理、自監(jiān)控、自診斷、自恢復(fù)等在內(nèi)的多維度的高度自治功能的數(shù)據(jù)庫(kù)系統(tǒng)智能化的研究受到了廣泛關(guān)注。
綜上所述,數(shù)據(jù)管理與分析技術(shù)的研究和開(kāi)發(fā)不僅具有重要的理論研究意義,而且具有廣泛的實(shí)際應(yīng)用價(jià)值。因此,本書(shū)對(duì)上述數(shù)據(jù)管理領(lǐng)域的研究熱點(diǎn)和前沿技術(shù)進(jìn)行了深入淺出的介紹,希望本書(shū)能夠?yàn)閿?shù)據(jù)管理與分析專業(yè)的研究生開(kāi)展研究工作提供良好的參考。
袁野
北京理工大學(xué)計(jì)算機(jī)學(xué)院教授,國(guó)家杰青和優(yōu)青基金獲得者。長(zhǎng)期從事大數(shù)據(jù)管理與分析研究,發(fā)表CCF A類論文100余篇。主持國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目、科技部重點(diǎn)研發(fā)項(xiàng)目。獲中國(guó)電子學(xué)會(huì)自然科學(xué)一等獎(jiǎng),和遼寧省科技進(jìn)步一等獎(jiǎng)。擔(dān)任中國(guó)計(jì)算機(jī)學(xué)會(huì)數(shù)據(jù)庫(kù)專業(yè)委員會(huì)副主任。香港科技大學(xué)、香港中文大學(xué)、英國(guó)愛(ài)丁堡大學(xué)訪問(wèn)學(xué)者。
崔斌
北京大學(xué)計(jì)算機(jī)學(xué)院教授,數(shù)據(jù)科學(xué)與工程研究所所長(zhǎng)。長(zhǎng)期從事數(shù)據(jù)庫(kù)系統(tǒng)、大數(shù)據(jù)管理與分析研究,在國(guó)際頂級(jí)期刊、會(huì)議發(fā)表論文200余篇。擔(dān)任中國(guó)計(jì)算機(jī)學(xué)會(huì)數(shù)據(jù)庫(kù)專業(yè)委員會(huì)副主任,DSE期刊主編,VLDB 2024大會(huì)主席。獲得“微軟青年教授獎(jiǎng)”、“CCF 青年科學(xué)家獎(jiǎng)”、自然科學(xué)二等獎(jiǎng),2023年當(dāng)選IEEE Fellow。
李戰(zhàn)懷
西北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院教授,工業(yè)和信息化部大數(shù)據(jù)存儲(chǔ)與管理重點(diǎn)實(shí)驗(yàn)室主任,中國(guó)計(jì)算機(jī)學(xué)會(huì)數(shù)據(jù)庫(kù)專業(yè)委員會(huì)主任。主要從事大數(shù)據(jù)管理技術(shù)、海量信息存儲(chǔ)系統(tǒng)等研究。主持國(guó)家973課題,科技部重點(diǎn)研發(fā)計(jì)劃課題,國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目、重大國(guó)際合作項(xiàng)目,國(guó)家863計(jì)劃重大項(xiàng)目課題等。獲省部級(jí)一等獎(jiǎng)、二等獎(jiǎng)各兩項(xiàng)。
叢書(shū)序
“十講”序
前言
第1講 圖數(shù)據(jù)管理本講概覽/ 2
1.1 圖數(shù)據(jù)庫(kù)的數(shù)據(jù)模型和查詢語(yǔ)言/ 2
1.1.1 數(shù)據(jù)模型/ 2
1.1.2 查詢語(yǔ)言/ 5
1.2 圖數(shù)據(jù)庫(kù)的系統(tǒng)架構(gòu)/ 8
1.2.1 Neo4j/ 8
1.2.2 Jena/ 10
1.2.3 gStore/ 12
1.3 圖數(shù)據(jù)庫(kù)中的查詢處理/ 15
1.3.1 基于探索的子圖匹配算法/ 16
1.3.2 基于連接的子圖匹配算法/ 19
1.3.3 分布式子圖匹配算法/ 20
1.4 本講小結(jié)/ 22
參考文獻(xiàn)/ 22
第2講 云數(shù)據(jù)管理本講概覽/ 28
2.1 云數(shù)據(jù)庫(kù)概述/ 28
2.1.1 云數(shù)據(jù)庫(kù)的定義/ 29
2.1.2 云數(shù)據(jù)庫(kù)的優(yōu)勢(shì)/ 29
2.2 云服務(wù)簡(jiǎn)介/ 30
2.2.1 云服務(wù)的背景/ 30
2.2.2 云服務(wù)的特性/ 32
2.3 云托管數(shù)據(jù)庫(kù)/ 33
2.3.1 傳統(tǒng)數(shù)據(jù)庫(kù)的制約/ 34
2.3.2 云托管數(shù)據(jù)庫(kù)的起源/ 34
2.3.3 云托管數(shù)據(jù)庫(kù)的利弊/ 35
2.4 云原生數(shù)據(jù)庫(kù)/ 36
2.4.1 云原生數(shù)據(jù)庫(kù)系統(tǒng)架構(gòu)/ 37
2.4.2 OLTP云數(shù)據(jù)庫(kù)架構(gòu)/ 37
2.4.3 OLAP云數(shù)據(jù)庫(kù)架構(gòu)/ 42
2.4.4 云原生數(shù)據(jù)庫(kù)系統(tǒng)關(guān)鍵技術(shù)/ 45
2.5 本講小結(jié)/ 56
參考文獻(xiàn)/ 56
第3講 多模態(tài)數(shù)據(jù)管理本講概覽/ 60
3.1 問(wèn)題背景/ 60
3.2 數(shù)據(jù)存儲(chǔ)/ 61
3.2.1 分散存儲(chǔ)/ 62
3.2.2 統(tǒng)一存儲(chǔ)/ 64
3.3 數(shù)據(jù)建模/ 65
3.3.1 統(tǒng)一建模/ 67
3.3.2 混合建模/ 69
3.4 數(shù)據(jù)查詢/ 70
3.4.1 查詢執(zhí)行/ 71
3.4.2 查詢優(yōu)化/ 72
3.5 多模態(tài)數(shù)據(jù)管理系統(tǒng)/ 74
3.6 本講小結(jié)/ 76
參考文獻(xiàn)/ 76
第4講 時(shí)空數(shù)據(jù)管理本講概覽/ 78
4.1 時(shí)空數(shù)據(jù)管理概述/ 78
4.1.1 空間數(shù)據(jù)管理的基本概念/ 78
4.1.2 軌跡數(shù)據(jù)管理的基本概念/ 78
4.2 空間數(shù)據(jù)管理/ 79
4.2.1 空間數(shù)據(jù)索引/ 79
4.2.2 空間區(qū)域查詢/ 86
4.2.3 空間數(shù)據(jù)k最近鄰查詢/ 86
4.2.4 空間數(shù)據(jù)Skyline查詢/ 91
4.3 軌跡數(shù)據(jù)管理/ 96
4.3.1 地圖匹配/ 96
4.3.2 軌跡數(shù)據(jù)索引/ 100
4.3.3 軌跡數(shù)據(jù)相似性查詢/ 104
4.3.4 軌跡數(shù)據(jù)聚類/ 107
4.4 本講小結(jié)/ 110
參考文獻(xiàn)/ 111
第5講 流數(shù)據(jù)管理本講概覽/ 124
5.1 流數(shù)據(jù)管理的基本概念/ 124
5.1.1 流數(shù)據(jù)管理/ 124
5.1.2 流數(shù)據(jù)管理的作用/ 126
5.2 基礎(chǔ)流算法/ 126
5.2.1 常見(jiàn)數(shù)據(jù)流模型/ 126
5.2.2 元素個(gè)數(shù)估計(jì)/ 129
5.2.3 top k元素估計(jì)與直方圖/ 131
5.2.4 數(shù)據(jù)流上不同元素個(gè)數(shù)估計(jì)/ 133
5.3 數(shù)據(jù)挖掘與流算法/ 137
5.3.1 數(shù)據(jù)流上的頻繁項(xiàng)估計(jì)/ 138
5.3.2 數(shù)據(jù)流上的聚類/ 139
5.4 進(jìn)階流算法/ 142
5.4.1 Count Sketch/ 142
5.4.2 Count-Min Sketch/ 144
5.5 流數(shù)據(jù)管理系統(tǒng)/ 145
5.5.1 常見(jiàn)的流數(shù)據(jù)管理系統(tǒng)/ 146
5.5.2 流數(shù)據(jù)管理系統(tǒng)的比較/ 152
5.5.3 批、流數(shù)據(jù)管理系統(tǒng)對(duì)比/ 155
5.6 流數(shù)據(jù)的應(yīng)用與未來(lái)/ 160
5.6.1 流數(shù)據(jù)的應(yīng)用/ 160
5.6.2 流數(shù)據(jù)管理的未來(lái)展望/ 162
5.7 本講小結(jié)/ 162
參考文獻(xiàn)/ 163
第6講 區(qū)塊鏈數(shù)據(jù)管理本講概覽/ 168
6.1 區(qū)塊鏈概述/ 168
6.1.1 區(qū)塊鏈:信任構(gòu)建的基礎(chǔ)設(shè)施/ 168
6.1.2 區(qū)塊鏈發(fā)展歷史/ 169
6.1.3 區(qū)塊鏈架構(gòu)劃分/ 170
6.2 區(qū)塊鏈數(shù)據(jù)存儲(chǔ)/ 170
6.2.1 鏈?zhǔn)綌?shù)據(jù)結(jié)構(gòu)/ 170
6.2.2 默克爾樹(shù)/ 171
6.2.3 區(qū)塊數(shù)據(jù)和狀態(tài)數(shù)據(jù)/ 172
6.2.4 數(shù)據(jù)存儲(chǔ)方式/ 174
6.3 共識(shí)算法/ 176
6.3.1 PoX系列/ 177
6.3.2 Raft共識(shí)協(xié)議/ 179
6.3.3 PBFT協(xié)議/ 180
6.4 交易處理方式/ 182
6.4.1 “共識(shí)-執(zhí)行”模型/ 183
6.4.2 “執(zhí)行-共識(shí)-驗(yàn)證”模式/ 185
6.4.3 分片執(zhí)行/ 187
6.5 區(qū)塊鏈查詢方法/ 189
6.5.1 可驗(yàn)證查詢/ 189
6.5.2 基于可信執(zhí)行環(huán)境的查詢處理/ 191
6.6 本講小結(jié)/ 192
參考文獻(xiàn)/ 192
第7講 數(shù)據(jù)質(zhì)量管理本講概覽/ 196
7.1 概述/ 196
7.1.1 數(shù)據(jù)質(zhì)量管理的意義與價(jià)值/ 196
7.1.2 數(shù)據(jù)質(zhì)量管理研究歷程介紹/ 198
7.2 數(shù)據(jù)質(zhì)量/ 200
7.2.1 數(shù)據(jù)質(zhì)量維度/ 200
7.2.2 數(shù)據(jù)質(zhì)量評(píng)估模型/ 201
7.2.3 數(shù)據(jù)可用性問(wèn)題/ 203
7.3 數(shù)據(jù)可用性理論研究/ 204
7.3.1 數(shù)據(jù)可用性概念與表達(dá)機(jī)理/ 205
7.3.2 數(shù)據(jù)可用性的判定理論/ 207
7.3.3 大數(shù)據(jù)量質(zhì)融合管理理論與技術(shù)/ 209
7.3.4 弱可用數(shù)據(jù)的近似計(jì)算理論與算法/ 210
7.4 數(shù)據(jù)清洗技術(shù)研究/ 212
7.4.1 數(shù)據(jù)質(zhì)量問(wèn)題分類/ 212
7.4.2 清洗流程概述/ 213
7.5 數(shù)據(jù)質(zhì)量持續(xù)改進(jìn)模型與技術(shù)/ 214
7.5.1 人工參與的數(shù)據(jù)清洗模型/ 214
7.5.2 面向大數(shù)據(jù)的清洗技術(shù)/ 219
7.5.3 數(shù)據(jù)質(zhì)量問(wèn)題溯源分析技術(shù)/ 223
7.5.4 人工智能賦能的數(shù)據(jù)清洗技術(shù)/ 226
7.6 數(shù)據(jù)清洗工具與系統(tǒng)介紹/ 229
7.6.1 基于規(guī)則約束的數(shù)據(jù)清洗工具/ 229
7.6.2 基于眾包的數(shù)據(jù)清洗工具/ 235
7.6.3 基于