本書共七章,內(nèi)容包括:緒論、相關(guān)基礎(chǔ)理論、基于壓縮實(shí)體摘要圖的RDF數(shù)據(jù)關(guān)鍵字查詢方法、基于實(shí)體類型關(guān)系摘要的RDF數(shù)據(jù)關(guān)鍵字查詢方法、多索引的RDF數(shù)據(jù)關(guān)鍵字查詢方法、兩階段SPARQL查詢優(yōu)化處理、總結(jié)。
隨著語義Web技術(shù)的不斷發(fā)展和應(yīng)用,萬維網(wǎng)上充滿了大量可讀取、可被機(jī)器理解和處理的RDF數(shù)據(jù),RDF數(shù)據(jù)關(guān)鍵字杳詢問題的研究已經(jīng)成為當(dāng)今語義Web研究的一個(gè)熱點(diǎn)。無論是終端用戶還是應(yīng)用系統(tǒng),都有著對(duì)RDF數(shù)行查詢的需求。但是,RDF數(shù)據(jù)的標(biāo)準(zhǔn)查詢語言SPARQL對(duì)于普通用戶來說過于復(fù)雜,用戶既不了解SPARQL查詢的語法和語義,更沒有掌握待查詢的RDF數(shù)據(jù)的模式信息。因此,提出一種基于查詢轉(zhuǎn)換的方法來實(shí)現(xiàn)RDF數(shù)據(jù)關(guān)鍵字查詢,通過將關(guān)鍵字查詢轉(zhuǎn)換為SPARQL查詢,借助現(xiàn)有的比較的SPARQL搜索引擎對(duì)RDF數(shù)行查詢。另外,提出兩階段查詢優(yōu)化方法可以對(duì)生成的SPARQL查行處理,以提高查詢執(zhí)行的效率。本書的主要貢括以下幾個(gè)方面:
提出了一種基于壓縮實(shí)體摘要圖的RDF數(shù)據(jù)關(guān)鍵字查詢方法。從大規(guī)模的RDF數(shù)據(jù)中,提取實(shí)體及實(shí)體關(guān)聯(lián),為了方便查詢轉(zhuǎn)換,將實(shí)體的類型封裝在實(shí)體節(jié)點(diǎn)當(dāng)中,從而建立了一個(gè)壓縮實(shí)體摘要索引。利用雙向搜索算法,在這個(gè)壓縮實(shí)體摘要索引上搜含所有關(guān)鍵字實(shí)體的子圖,即找到對(duì)應(yīng)的查詢變量之間的關(guān)系,然后將這些子圖轉(zhuǎn)換成SPARQL查詢,后利用現(xiàn)有的SPARQL搜索引行RDF數(shù)據(jù)的查詢。
提出了一種基于實(shí)體類型關(guān)系摘要的RDF數(shù)據(jù)關(guān)鍵字查詢方法。通過概括出RDF數(shù)據(jù)實(shí)體類型之間的關(guān)系,定義了一種面向?qū)嶓w類型關(guān)系的摘要索引,從轉(zhuǎn)換的目標(biāo)對(duì)象SPARQL的角度出發(fā),該摘要索引的構(gòu)建利用了SPARQL1.pan>的屬性路徑操作符括謂語路徑操作符、可選路徑操作符“|”以及序列路徑操作符“/”等。該索引不僅使關(guān)鍵字查詢向SPARQL查詢的轉(zhuǎn)換更為簡(jiǎn)單、方便以及,而且該摘要索引彌補(bǔ)了現(xiàn)有的用于查詢轉(zhuǎn)換索引的缺陷,能夠完整地概括出RDF數(shù)據(jù)中所有實(shí)體類型之間的關(guān)系。后,將在此摘要索引上找含所有關(guān)鍵字實(shí)體的類型關(guān)系的top-子圖,并轉(zhuǎn)換成SPARQL查詢,利用現(xiàn)有的SPARQL搜索引行RDF數(shù)據(jù)的查詢。
提出了一種利用多索引來實(shí)現(xiàn)RDF數(shù)據(jù)關(guān)鍵字的查詢方法,事先在RDF數(shù)據(jù)上建立多個(gè)索引,用于定位關(guān)鍵字到指定的實(shí)體的關(guān)鍵字倒排索引和用于搜索top-k子圖的r-半徑領(lǐng)域索引、r半徑領(lǐng)域內(nèi)的短路徑索引以及用于子圖向SPARQL轉(zhuǎn)換的r半徑領(lǐng)域內(nèi)的短屬性路徑索引。通過這些索引能夠快速行關(guān)鍵字查詢向SPARQL查詢轉(zhuǎn)換。雖然索引的存儲(chǔ)開銷較大,不過利用“空間換時(shí)間”的思想,很大程度地提高了查詢效率。后,利用現(xiàn)有的SPARQL搜索引擎對(duì)RDF數(shù)行查詢。另外,對(duì)本書提出的三種不同的RDF數(shù)據(jù)關(guān)鍵字查詢方行了分析和比較,分別比較了三種方法用于關(guān)鍵字查詢向SPARQL查詢轉(zhuǎn)換服務(wù)的索引、關(guān)鍵字索引、top-k子圖的搜索算法以及用于輔助圖搜索的索引結(jié)構(gòu)等。
針對(duì)生成的SPARQL查詢本身所具有的特點(diǎn),提出了一個(gè)兩階段的SPAR-QL查詢法,對(duì)生成的SPARQL查行優(yōu)化處理。階段,把SPARQL查詢中含有相同變量的聯(lián)結(jié)劃分為一塊,通過計(jì)算每塊內(nèi)選擇度來重新排列三元組模式的聯(lián)結(jié)順序。第二階段,利用屬性路徑索引對(duì)剩余的聯(lián)行中間結(jié)果過濾。不但利用了RDF圖中的屬性路徑,而且還考慮了三元組模式中的選擇度問題,大幅度地減少了查詢?cè)诼?lián)結(jié)過程中產(chǎn)生的中間結(jié)果數(shù)量,從而改善了查詢質(zhì)量,提高了查詢效率。
1998年,萬維網(wǎng)的發(fā)明人Tim Berners Lee提出了“語義萬維網(wǎng)”(SemanticWeb)的設(shè)想。200pan>年,《科學(xué)美國人》雜志刊登題為“The Semantic Web”的科普文章,宣告了“語義網(wǎng)”的誕生。“語義網(wǎng)”的愿景為“使計(jì)算機(jī)更能解讀萬維網(wǎng)”。
萬維網(wǎng)是一個(gè)文字、圖片、聲音及的網(wǎng)絡(luò),作為人們?cè)谝蛱鼐W(wǎng)上獲取和發(fā)布信息的重要手段和途徑,萬維網(wǎng)逐漸成為巨大的信息資源倉庫,計(jì)算機(jī)對(duì)于這樣的萬維網(wǎng)只發(fā)揮了有限的作用,它們索引關(guān)鍵詞,將信息從服務(wù)器傳輸?shù)娇蛻舳,而已。所有的智能工作(選擇、組合及聚集等)必須通過人類讀者來完成。語義網(wǎng)使“萬維網(wǎng)上的數(shù)據(jù)為計(jì)算機(jī)可理解和處理”成為現(xiàn)實(shí)。從此,語義Web技術(shù)的發(fā)展有了一個(gè)新的里程碑。W3C(World Wide Web Consortium,萬維網(wǎng)聯(lián)盟)制定了一系列的語義網(wǎng)技術(shù)規(guī)范括描述各種資源和它們之間語義關(guān)系的資源描述框架(Resource Description Framework,RDF)、萬維網(wǎng)本體語言(OWL2)、RDF數(shù)據(jù)的標(biāo)準(zhǔn)查詢語言(SPARQL)及規(guī)則交換格式(RIF)等。這些技術(shù)規(guī)范間的關(guān)系在圖1.pan>所示W3C語義Web分層模型中有所體現(xiàn)。語義網(wǎng)為萬維網(wǎng)上的知識(shí)表示、推理、交換和復(fù)用奠定了理論基礎(chǔ)。
Web數(shù)據(jù)呈現(xiàn)爆炸式的增長(zhǎng)。大規(guī)?捎玫RDF數(shù)據(jù)被發(fā)布。RDF已經(jīng)被許多項(xiàng)目和機(jī)構(gòu)用來表示它們的元數(shù)據(jù),如DBLP,Wikipedia等;IBM智慧地球的研究中心采用了RDF數(shù)據(jù)描述以及集成語義;Freebase知識(shí)庫是語義網(wǎng)數(shù)據(jù)庫技術(shù)公司Metaweb維護(hù)的,其中體育、電影等眾多領(lǐng)域元信息都是用RDF表示的,生物、化學(xué)、生物醫(yī)學(xué)、地理等多個(gè)領(lǐng)域都在 RDF 基礎(chǔ)行建立領(lǐng)域本體。根據(jù) W3C的SWEO(Semantic Web Ed-ucation and Outreach)研究小組的不統(tǒng)計(jì),截止到2017年4月,在互聯(lián)網(wǎng)上的各種RDF三元組的數(shù)量括Linked Open Data,YAGO,DBpedia,Freebase等RDF數(shù)據(jù)集)已經(jīng)達(dá)到620億,其中涉及的實(shí)體數(shù)量更多;ヂ(lián)網(wǎng)已經(jīng)從只含網(wǎng)頁和網(wǎng)頁之間超鏈接的文檔萬維網(wǎng)轉(zhuǎn)變成了能夠?qū)?shí)體和實(shí)體之間豐富的關(guān)行描述的數(shù)據(jù)萬維網(wǎng)。傳統(tǒng)互聯(lián)網(wǎng)中的文檔檢索通常是將HTML頁面(文檔)看作是信息的載體,用戶的查詢返回結(jié)果則是若含這些查詢關(guān)鍵詞的文檔,而語義Web數(shù)據(jù)搜索用戶擊中的三元組中描述的實(shí)體。語義Web數(shù)據(jù)的搜索問題已經(jīng)成為當(dāng)今語義網(wǎng)技術(shù)的一個(gè)重要研究熱點(diǎn),各大搜索公司(如Google、百度、搜狗等)紛紛構(gòu)建知識(shí)圖譜(分別為Knowledge Graph、知心和知立方)來搜索質(zhì)量。
RDF數(shù)據(jù)的搜索需要處理粒度更細(xì)的結(jié)構(gòu)化語義數(shù)據(jù)。原有的針對(duì)非結(jié)構(gòu)化的Web文檔的存儲(chǔ)和索引的各種成熟技術(shù)已經(jīng)對(duì)RDF數(shù)據(jù)不再適用,目前的大量排序算法也不能直接運(yùn)用到面向?qū)嶓w和其關(guān)聯(lián)的語義搜索中。SPARQL(Simple Protocol and RDF Query Language)是RDF數(shù)據(jù)的查詢語言,已于2008年pan>月15日正式成為W3CRDF數(shù)行有效的查詢。正如SQL是數(shù)據(jù)庫查詢的標(biāo)準(zhǔn),SPARQL是查詢RDF數(shù)據(jù)的標(biāo)準(zhǔn)。由于RIF、RDFS和OWL都是使用RDF數(shù)據(jù)模型,因此SPARQL也能夠作為這三者的查詢語言。SPARQL查詢的基本組成單元是三元組模式(Triple Pattern),三元組模式與RDF三元組類似,區(qū)別在于其主語(Subject)、謂語(Predicate)和賓語(Object)位置可以設(shè)置為變量。除了SPARQL查詢語言外,還有RQL、RDQL(RDF dataquery language)以及SeRQL等RDF數(shù)據(jù)查詢語言。但是,這些查詢語言對(duì)于普……