《圖數(shù)據(jù)管理與挖掘》介紹了圖數(shù)據(jù)管理與挖掘的關鍵技術,涵蓋基于集合相似度的子圖匹配查詢處理方法與原型系統(tǒng)、情境感知的個性化推薦方法、利用多層聚簇的跨類協(xié)同過濾推薦算法、基于潛在主題的準確性Web社區(qū)協(xié)同推薦方法、基于用戶社區(qū)全域關系閉包的高效均衡性Web社區(qū)推薦方法、Web社區(qū)推薦原型系統(tǒng)、大規(guī)模時空圖中人類行為模式的實時挖掘方法、基于潛在引用圖數(shù)據(jù)的專利價值評估方法、基于專利關聯(lián)的新穎專利查找方法,以及異構專利網(wǎng)絡中的競爭對手主題預測方法。
《圖數(shù)據(jù)管理與挖掘》適合計算機、信息管理等相關專業(yè)的高年級本科生和研究生閱讀,也可作為數(shù)據(jù)科學等相關領域的研究與開發(fā)人員的參考書。
更多科學出版社服務,請掃碼獲取。
最近幾年,圖數(shù)據(jù)管理與挖掘技術的發(fā)展和應用引起了國內外研究者和工業(yè)界的極大興趣。圖作為一種常見的數(shù)據(jù)表示模型,用于建模復雜數(shù)據(jù)以及數(shù)據(jù)之間的關聯(lián),例如社會網(wǎng)絡、語義網(wǎng)、路網(wǎng)、生物網(wǎng)絡、專利網(wǎng)絡等。圖數(shù)據(jù)庫是指被存儲的數(shù)據(jù)對象是基于圖數(shù)據(jù)模型的。圖數(shù)據(jù)管理的核心問題是圖數(shù)據(jù)庫的查詢處理,即基于圖模型的結構查詢,例如子圖匹配查詢、路徑可達性查詢、路徑距離查詢等。雖然從某種角度上來說,圖數(shù)據(jù)庫中的查詢也可以用SQL語言來表達,利用現(xiàn)有的RDBMS的查詢功能來完成,但是這樣的查詢系統(tǒng)的性能是非常低的。圖數(shù)據(jù)管理研究的關鍵點是如何設計有效的索引結構和查詢算法來快速地回答圖數(shù)據(jù)庫中的結構查詢問題。圖數(shù)據(jù)挖掘相比于關系數(shù)據(jù)庫的挖掘更強調的是發(fā)現(xiàn)與分析數(shù)據(jù)之間的關聯(lián)關系。隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)的關聯(lián)關系在數(shù)據(jù)挖掘和分析的過程中越來越受到重視,是商務智能、決策支持、科學研究等領域的核心問題與難點。對于圖數(shù)據(jù)管理與挖掘查詢的研究最早可以追溯到20世紀90年代。最近,由于社會網(wǎng)絡數(shù)據(jù),專利網(wǎng)絡數(shù)據(jù),以及語義網(wǎng)數(shù)據(jù)等領域大數(shù)據(jù)的大量出現(xiàn),引起了對于圖數(shù)據(jù)管理與挖掘的新一輪研究熱潮。在最近幾年的三大國際數(shù)據(jù)庫頂級會議(SIGMOD,VLDB和ICDE)上均有圖數(shù)據(jù)管理與挖掘的相關論文,并且數(shù)量與比例逐年上升。
社會網(wǎng)絡、時空圖以及專利網(wǎng)絡具有天然的圖數(shù)據(jù)特征,數(shù)據(jù)之間的復雜關聯(lián)以及大數(shù)據(jù)的產(chǎn)生給管理和挖掘這些數(shù)據(jù)帶來了巨大的挑戰(zhàn)。本書以圖數(shù)據(jù)理論與模型為基礎,面向社會網(wǎng)絡、時空圖、專利網(wǎng)絡等應用領域,提出了一系列的圖數(shù)據(jù)管理與挖掘關鍵技術。
本書的撰寫得到武漢大學多位教師、同學的大力協(xié)助和支持,尤其是余騫博士和馮嶺博士對本書部分內容的撰寫做出了貢獻,對他們的辛勤付出表示由衷的感謝!感謝相關學術研究的合作者,你們在我學習和研究道路上給予了大量的幫助和指導。感謝家人的陪伴、支持和鼓勵。
本研究受到國家重點基礎研究發(fā)展計劃(973計劃)“科學大數(shù)據(jù)管理系統(tǒng)(面向特定領域的大數(shù)據(jù)管理系統(tǒng))”子課題“圖數(shù)據(jù)管理關鍵技術及系統(tǒng)”(編號:2016YFB1000603),國家自然科學基金青年基金項目“移動社會網(wǎng)絡中基于信任關系的情境感知推薦研究”(編號:61303025),以及國家自然科學基金重點國際合作研究項目“大數(shù)據(jù)環(huán)境下的知識組織與服務創(chuàng)新研究”(編號:71420107026)的資助,作者在此表示衷心的感謝。
收起全部↑
目錄
前言
第1章 大圖數(shù)據(jù)庫中基于集合相似度的子圖匹配查詢處理方法1
1.1 引言1
1.2 預備知識4
1.2.1 問題定義4
1.2.2 架構5
1.3 集合相似度剪枝6
1.3.1 倒排模式格的構建7
1.3.2 剪枝技術8
1.3.3 倒排模式格的優(yōu)化10
1.4 基于結構的剪枝操作11
1.4.1 結構化簽名11
1.4.2 基于簽名的LSH12
1.4.3 結構化剪枝12
1.5 基于支配集的子圖匹配14
1.5.1 DS-匹配算法14
1.5.2 支配集的選擇17
1.6 實驗分析18
1.6.1 數(shù)據(jù)集合設置18
1.6.2 比較方法19
1.6.3 線下性能19
1.6.4 線上性能20
1.7 結論26
第2章 基于集合相似度的子圖匹配查詢原型系統(tǒng)27
2.1 引言27
2.2 預備知識29
2.2.1 問題定義29
2.2.2 方法概覽30
2.3 簽名及DS-Tree31
2.3.1 查詢簽名和數(shù)據(jù)簽名31
2.3.2 DS-Tree32
2.3.3 利用DS-Tree查詢36
2.4 支配子圖38
2.5 SMOC 算法41
2.6 實驗42
2.6.1 數(shù)據(jù)集和實驗環(huán)境42
2.6.2 對比方法43
2.6.3 離線處理性能43
2.6.4 在線處理性能45
2.7 結論46
第3章 利用社會網(wǎng)絡圖數(shù)據(jù)的情境感知個性化推薦方法47
3.1 引言47
3.2 預備知識49
3.2.1 問題定義50
3.2.2 方法框架50
3.3 角色挖掘52
3.3.1 角色的定義52
3.3.2 用條件數(shù)據(jù)庫進行角色挖掘52
3.3.3 情境感知的角色權重54
3.4 基于角色的信任模型55
3.5 尋找相似用戶56
3.5.1 WSSQ算法概述57
3.5.2 前綴過濾58
3.5.3 L1-范數(shù)過濾59
3.5.4 相似度計算的優(yōu)化60
3.6 推薦方法62
3.7 實驗評價63
3.7.1 數(shù)據(jù)集描述63
3.7.2 對比方法63
3.7.3 對角色挖掘和信任模型的評價64
3.7.4 推薦質量65
3.7.5 推薦時間69
3.8 結論72
第4章 多層聚簇中基于協(xié)同過濾的跨類推薦算法73
4.1 引言73
4.2 預備知識74
4.2.1 問題定義74
4.2.2 算法框架75
4.3 多層聚簇75
4.4 利用多層聚簇推薦78
4.4.1 推薦框架78
4.4.2 Top-k推薦79
4.5 實驗80
4.5.1 數(shù)據(jù)集80
4.5.2 對比方法81
4.5.3 評價標準81
4.5.4 參數(shù)設置81
4.5.5 minsup的影響81
4.5.6 效率和擴展性82
4.6 結論84
第5章 基于潛在主題的準確性Web社區(qū)協(xié)同推薦方法85
5.1 引言85
5.2 基于潛在主題的Web社區(qū)協(xié)同推薦方法86
5.2.1 方法框架87
5.2.2 ITS值計算88
5.2.3 ETS值計算91
5.2.4 IETS值計算93
5.2.5 可擴展性95
5.3 實驗及分析95
5.3.1 數(shù)據(jù)集描述96
5.3.2 實驗方案96
5.3.3 實驗結果96
5.4 結論99
第6章 基于用戶-社區(qū)全域關系的新穎性Web社區(qū)推薦方法100
6.1 引言100
6.2 UCTR 方法102
6.2.1 UCTR 方法框架103
6.2.2 社區(qū)準確度計算104
6.2.3 社區(qū)新穎度計算105
6.2.4 社區(qū)UCTR值計算108
6.3 實驗及分析108
6.3.1 數(shù)據(jù)集描述109
6.3.2 推薦準確性評價109
6.3.3 推薦新穎性評價111
6.3.4 推薦綜合評價112
6.4 結論113
第7章 基于用戶-社區(qū)全域關系閉包的高效均衡性Web社區(qū)推薦方法114
7.1 引言114
7.2 NovelRec方法116
7.2.1 方法框架117
7.2.2 離線建模計算118
7.2.3 在線推薦計算121
7.2.4 NovelRec復雜度分析126
7.2.5 用戶冷啟動分析127
7.3 實驗及分析128
7.3.1 實驗數(shù)據(jù)分析128
7.3.2 推薦準確性分析130
7.3.3 推薦新穎性分析132
7.3.4 NovelRec性能分析135
7.4 結論138
第8章 Web社區(qū)推薦原型系統(tǒng)139
8.1 引言139
8.2 Web 社區(qū)建模139
8.2.1 對象代理模型概述139
8.2.2 利用對象代理模型建模Web社區(qū)140
8.3 Web 社區(qū)管理原型系統(tǒng)143
8.3.1 對象代理數(shù)據(jù)庫概述143
8.3.2 基于TOTEM 的Web社區(qū)管理系統(tǒng)145
8.4 Web 社區(qū)推薦原型系統(tǒng)147
8.4.1 推薦系統(tǒng)實現(xiàn)機制147
8.4.2 推薦系統(tǒng)功能效果148
8.5 結論150
第9章 大規(guī)模時空圖中人類行為模式的實時挖掘方法151
9.1 引言151
9.2 預備知識153
9.2.1 定義153
9.2.2 問題陳述154
9.2.3 框架154
9.3 在單一時間間隔中的黑洞檢測155
9.3.1 STG索引155
9.3.2 候選網(wǎng)格選擇156
9.3.3 空間擴展158
9.3.4 流上限更新159
9.4 連續(xù)檢測159
9.5 實驗評估161
9.5.1 數(shù)據(jù)161
9.5.2 北京市案例研究162
9.5.3 紐約市案例研究165
9.5.4 在單一時段內的表現(xiàn)167
9.5.5 連續(xù)檢測的表現(xiàn)169
9.6 結論171
第10章 基于潛在引用圖數(shù)據(jù)的專利價值評估方法172
10.1 引言172
10.2 潛在引用關聯(lián)174
10.3 專利價值評估基本算法175
10.4 專利價值評估改進算法179
10.5 專利價值評估更新算法181
10.6 實驗評估184
10.6.1 實驗設置184
10.6.2 評估方法185
10.6.3 結果與分析185
10.7 結論188
第11章 基于專利關聯(lián)的新穎專利查找方法189
11.1 引言189
11.2 相對新穎圖191
11.3 專利新穎度排序算法193
11.4 專利新穎度更新算法195
11.5 實驗評估200
11.5.1 實驗設置200
11.5.2 評估方法201
11.5.3 結果與分析201
11.6 結論204
第12章 異構專利網(wǎng)絡中的競爭對手主題預測方法205
12.1 引言205
12.2 競爭對手的主題預測的框架207
12.3 主題詞選取208
12.4 建立企業(yè)-主題異構圖208
12.5 拓撲特征的分析和抽取210
12.6 基于監(jiān)督模型的主題預測方法213
12.7 實驗評估215
12.7.1 實驗設置215
12.7.2 評估方法216
12.7.3 結果與分析217
12.8 結論220
參考文獻221