搜索引擎的數(shù)據(jù)壓縮與查詢優(yōu)化
定 價:30 元
- 作者:宋省身著
- 出版時間:2022/11/1
- ISBN:9787567305991
- 出 版 社:國防科技大學(xué)出版社
- 中圖法分類:TP311.131
- 頁碼:230
- 紙張:膠版紙
- 版次:1
- 開本:32開
《搜索引擎的數(shù)據(jù)壓縮與查詢優(yōu)化》深入淺出地介紹了搜索引擎中倒排索引結(jié)構(gòu)的發(fā)展簡史以及常用的結(jié)構(gòu)設(shè)計和壓縮算法、查詢算法,并基于作者的研究成果,介紹了幾種索引壓縮和查詢的完整解決方案。
《搜索引擎的數(shù)據(jù)壓縮與查詢優(yōu)化》主要面向信息檢索專業(yè)方向的研究生、從事搜索引擎相關(guān)工作和其他對搜索技術(shù)感興趣的人群。讀者除了可從書中獲取嚴謹?shù)睦碚撝R,還可以依照其中的方法重現(xiàn)試驗,用于搭建測試平臺或者實際使用。
《搜索引擎的數(shù)據(jù)壓縮與查詢優(yōu)化》旨在拋磚引玉,以期為應(yīng)對信息檢索面臨的挑戰(zhàn)提供參考,限于編者水平,書中不妥之處在所難免,敬請讀者批評指正。
隨著互聯(lián)網(wǎng)的發(fā)展,各類信息的體量規(guī)模增長越來越快。日益增大的數(shù)據(jù)體量和用戶數(shù)量給各類信息系統(tǒng),尤其是搜索引擎帶來了嚴峻的考驗。應(yīng)對這類挑戰(zhàn)的關(guān)鍵措施是提升系統(tǒng)在數(shù)據(jù)爬取收集、整理壓縮以及查詢應(yīng)答方面的效率,而倒排索引作為信息檢索底層最常用的數(shù)據(jù)結(jié)構(gòu),負責(zé)對信息進行組織管理和查詢處理,對檢索效率和系統(tǒng)運營成本有著至關(guān)重要的影響。因此,針對倒排索引的壓縮和查詢優(yōu)化已經(jīng)成為信息檢索領(lǐng)域一個重要的研究課題。
面對PB級的網(wǎng)頁索引數(shù)據(jù)、成千上萬的查詢請求和豐富多彩的應(yīng)用需求,以Google、Bing、百度等為代表的各大商業(yè)搜索引擎在不斷探索著性能提升的方向,學(xué)術(shù)界也一直將信息檢索中的效率問題作為重點研究對象,在算法設(shè)計、硬件特性、數(shù)據(jù)對象各個方面的優(yōu)化研究不斷推陳出新,諸如SIGIR、VLDB、WWW、CIKM和WSDM等頇會每年都設(shè)置專門的主題進行討論。
本書深入淺出地介紹了搜索引擎中倒排索引結(jié)構(gòu)的發(fā)展簡史以及常用的結(jié)構(gòu)設(shè)計和壓縮算法、查詢算法,并基于作者的研究成果,介紹了幾種索引壓縮和查詢的完整解決方案。本書主要面向信息檢索專業(yè)方向的研究生、從事搜索引擎相關(guān)工作和其他對搜索技術(shù)感興趣的人群。讀者除了可從書中獲取嚴謹?shù)睦碚撝R,還可以依照其中的方法重現(xiàn)試驗,用于搭建測試平臺或者實際使用。本書旨在拋磚引玉,以期為應(yīng)對信息檢索面臨的挑戰(zhàn)提供參考,限于編者水平,書中不妥之處在所難免,敬請讀者批評指正。
宋省身,1990年出生于河南濮陽,博士畢業(yè)于國防科技大學(xué)計算機學(xué)院,現(xiàn)任國防科技大學(xué)前沿交叉學(xué)科學(xué)院副教授,研究方向為數(shù)據(jù)分析、信息檢索與自然語言處理,承擔和參與多項信息檢索相關(guān)科研課題研究,以首作者發(fā)表論文十余篇、申請專利多項。
第1章 搜索引擎中的效率問題
1.1 引言
1.2 背景和意義
1.3 主要研究內(nèi)容
1.4 組織結(jié)構(gòu)
第2章 信息檢索與搜索引擎
2.1 信息檢索
2.2 搜索引擎
2.3 倒排索引與檢索模型
第3章 倒排索引壓縮與查詢相關(guān)背景知識
3.1 現(xiàn)代硬件體系結(jié)構(gòu)
3.2 倒排索引結(jié)構(gòu)
3.3 倒排索引的壓縮算法
3.3.1 面向整數(shù)的壓縮算法
3.3.2 面向分塊的壓縮算法
3.3.3 基于SIMD的壓縮算法
3.4 倒排鏈表的求交算法
3.4.1 多倒排鏈求交算法
3.4.2 搜索算法
3.5 倒排鏈表的排序查詢
3.5.1 相關(guān)性模型
3.5.2 兩種基本的查詢處理方式
3.5.3 top-k查詢處理算法研究現(xiàn)狀
3.6 本章小結(jié)
第4章 基于空間最優(yōu)劃分的倒排索引壓縮算法
4.1 引言
4.2 基于近似劃分的分塊壓縮算法
4.2.1 基于DAG的倒排鏈表劃分策略
4.2.2 ExtendedAFOR壓縮算法
4.2.3 最優(yōu)劃分的VSEncoding壓縮算法
4.3 自啟發(fā)式劃分的Elias-Fano索引壓縮算法
4.3.1 分塊Elias-Fano索引
4.3.2 線性劃分策略
4.4 實驗測試與結(jié)果分析
4.4.1 基于近似劃分的分塊壓縮算法測試
……
第5章 混合索引在雙權(quán)重標準下的時空均衡壓縮算法
第6章 基于并行指令集的倒排鏈快速求交算法
第7章 排序查詢算法的剪枝加速優(yōu)化技術(shù)
第8章 總結(jié)與展望
參考文獻