搜索引擎作為互聯(lián)網(wǎng)發(fā)展中至關(guān)重要的一種應(yīng)用,已經(jīng)成為互聯(lián)網(wǎng)各個(gè)領(lǐng)域的制高點(diǎn),其重要性不言而喻。搜索引擎領(lǐng)域也是互聯(lián)網(wǎng)應(yīng)用中不多見(jiàn)的以核心技術(shù)作為其命脈的領(lǐng)域,搜索引擎各個(gè)子系統(tǒng)是如何設(shè)計(jì)的?這成為廣大技術(shù)人員和搜索引擎優(yōu)化人員密切關(guān)注的內(nèi)容。
《這就是搜索引擎:核心技術(shù)詳解》的最大特點(diǎn)是內(nèi)容新穎全面而又通俗易懂。對(duì)于實(shí)際搜索引擎所涉及的各種核心技術(shù)都有全面細(xì)致的介紹,除了作為搜索系統(tǒng)核心的網(wǎng)絡(luò)爬蟲(chóng)、索引系統(tǒng)、排序系統(tǒng)、鏈接分析及用戶分析外,還包括網(wǎng)頁(yè)反作弊、緩存管理、網(wǎng)頁(yè)去重技術(shù)等實(shí)際搜索引擎必須關(guān)注的技術(shù),同時(shí)用相當(dāng)大的篇幅講解了云計(jì)算與云存儲(chǔ)的核心技術(shù)原理。另外,本書(shū)也密切關(guān)注搜索引擎發(fā)展的前沿技術(shù):Google的咖啡因系統(tǒng)及Megastore等云計(jì)算新技術(shù)、百度的暗網(wǎng)抓取技術(shù)阿拉丁計(jì)劃、內(nèi)容農(nóng)場(chǎng)作弊、機(jī)器學(xué)習(xí)排序等。諸多新技術(shù)在相關(guān)章節(jié)都有詳細(xì)講解,同時(shí)對(duì)于社會(huì)化搜索、實(shí)時(shí)搜索及情境搜索等搜索引擎的未來(lái)發(fā)展方向做了技術(shù)展望。為了增進(jìn)讀者的理解,全書(shū)大量引入形象的圖片來(lái)講解算法原理,相信讀者會(huì)發(fā)現(xiàn)原來(lái)搜索引擎的核心技術(shù)理解起來(lái)比原先想象的要簡(jiǎn)單得多。
《這就是搜索引擎:核心技術(shù)詳解》適合所有對(duì)搜索引擎技術(shù)感興趣的人們,尤其對(duì)于相關(guān)領(lǐng)域的學(xué)生、對(duì)搜索引擎核心技術(shù)感到好奇的技術(shù)人員、從事搜索引擎優(yōu)化的相關(guān)人員及中小網(wǎng)站站長(zhǎng)等更有參考價(jià)值。
互聯(lián)網(wǎng)產(chǎn)品形形色色,有產(chǎn)品導(dǎo)向的,有營(yíng)銷導(dǎo)向的,也有技術(shù)導(dǎo)向的,但是以技術(shù)見(jiàn)長(zhǎng)的互聯(lián)網(wǎng)產(chǎn)品比例相對(duì)小些。搜索引擎是目前互聯(lián)網(wǎng)產(chǎn)品中最具技術(shù)含量的產(chǎn)品,如果不是唯一,至少也是其中之一。
經(jīng)過(guò)十幾年的發(fā)展,搜索引擎已經(jīng)成為互聯(lián)網(wǎng)的重要入口之一,Twitter聯(lián)合創(chuàng)始人埃文威廉姆斯提出了“域名已死論”:好記的域名不再重要,因?yàn)槿藗儠?huì)通過(guò)搜索進(jìn)入網(wǎng)站。搜索引擎排名對(duì)于中小網(wǎng)站流量來(lái)說(shuō)至關(guān)重要。了解搜索引擎簡(jiǎn)單界面背后的技術(shù)原理其實(shí)對(duì)很多人都很重要。
為什么會(huì)有這本書(shū)
最初寫(xiě)本搜索引擎技術(shù)書(shū)籍的想法萌生于兩年前,當(dāng)時(shí)的場(chǎng)景是要給團(tuán)隊(duì)成員做搜索技術(shù)培訓(xùn),但是我找遍了相關(guān)圖書(shū),卻沒(méi)有發(fā)現(xiàn)非常合適的搜索技術(shù)入門書(shū)籍。當(dāng)時(shí)市面上的書(shū)籍,要么是信息檢索理論方面的專著,理論性太強(qiáng)不易懂,而且真正講搜索引擎技術(shù)的章節(jié)并不太多;要么是Lucene代碼分析這種過(guò)于實(shí)務(wù)的書(shū)籍,像搜索引擎這種充滿算法的應(yīng)用,直接分析開(kāi)源系統(tǒng)代碼并不是非常高效的學(xué)習(xí)方式。所以當(dāng)時(shí)萌生了寫(xiě)一本既通俗易懂,適合沒(méi)有相關(guān)技術(shù)背景的人員閱讀,又比較全面,且融入最新技術(shù)的搜索引擎書(shū)籍,但是真正動(dòng)手開(kāi)始寫(xiě)是一年前的事情了。
寫(xiě)書(shū)前我給自己定了幾個(gè)目標(biāo)。首先內(nèi)容要全面,即全面覆蓋搜索引擎相關(guān)技術(shù)的主要方面,不僅要包含倒排索引、檢索模型和爬蟲(chóng)等常見(jiàn)內(nèi)容,也要詳細(xì)講解鏈接分析、網(wǎng)頁(yè)反作弊、用戶搜索意圖分析、云存儲(chǔ)及網(wǎng)頁(yè)去重,甚至是搜索引擎緩存等內(nèi)容,這些都是一個(gè)完整搜索引擎的有機(jī)構(gòu)成部分,但是詳述其原理的書(shū)籍并不多,我希望能夠盡可能全面些。
第二個(gè)目標(biāo)是通俗易懂。我希望沒(méi)有任何相關(guān)技術(shù)背景的人也能夠通過(guò)閱讀這本書(shū)有所收獲,最好是不懂技術(shù)的同學(xué)也能大致看懂。這個(gè)目標(biāo)看似簡(jiǎn)單,其實(shí)很不容易達(dá)到,我也不敢說(shuō)這本書(shū)已經(jīng)達(dá)到了此目的,但是確實(shí)已經(jīng)盡自己所能去做了。至于具體的措施,則包含以下三個(gè)方面。
一個(gè)是盡可能減少數(shù)學(xué)公式的出現(xiàn)次數(shù),除非不得已不羅列公式。雖說(shuō)數(shù)學(xué)公式具簡(jiǎn)潔之美,但是大多數(shù)人其實(shí)對(duì)于數(shù)學(xué)符號(hào)是有恐懼和逃避心理的,多年前我也有類似心理,所以但凡可能,盡量不用數(shù)學(xué)公式。
一個(gè)是盡可能多舉例子,尤其是一些比較難理解的地方,需要例子來(lái)增進(jìn)理解。
還有一個(gè)是多畫(huà)圖。就我個(gè)人的經(jīng)驗(yàn)來(lái)說(shuō),盡管算法或者技術(shù)是很抽象的,但是如果深入理解其原理,去繁就簡(jiǎn),那么一定可以把算法轉(zhuǎn)換成形象的圖片。如果不能在頭腦中形成算法直觀的圖形表示,說(shuō)明并未透徹了解其原理。這是我判斷自己是否深入理解算法的一個(gè)私有標(biāo)準(zhǔn)。鑒于此,本書(shū)中在講解算法的地方,大量采用了算法原理圖,全書(shū)包含了超過(guò)300幅算法原理講解圖,相信這對(duì)于讀者深入理解算法會(huì)有很大的幫助。
第三個(gè)目標(biāo)是強(qiáng)調(diào)新現(xiàn)象新技術(shù),比如Google的咖啡因系統(tǒng)及Megastore等云存儲(chǔ)系統(tǒng)、Pregel云圖計(jì)算模型、暗網(wǎng)爬取技術(shù)、Web 2.0網(wǎng)頁(yè)作弊、機(jī)器學(xué)習(xí)排序、情境搜索、社會(huì)化搜索等在相關(guān)章節(jié)都有講解。
第四個(gè)目標(biāo)是強(qiáng)調(diào)原理,不糾纏技術(shù)細(xì)節(jié)。對(duì)于新手一個(gè)易犯的毛病是喜歡摳細(xì)節(jié),只見(jiàn)樹(shù)木不見(jiàn)森林,搞明白了一個(gè)公式卻不了解其背后的基本思想和出發(fā)點(diǎn)。我接觸技術(shù)人員很多,十有七八會(huì)有這個(gè)特點(diǎn)。這里有個(gè)“道術(shù)孰優(yōu)”的問(wèn)題,何為“道”?何為“術(shù)”?舉個(gè)例子的話,《孫子兵法》是道,而《三十六計(jì)》則為術(shù)!暗馈彼,是宏觀的、原理性的、長(zhǎng)久不變的基本原理,而“術(shù)”則是在遵循基本原理基礎(chǔ)上的具體手段和措施,具有易變性。技術(shù)也是如此,算法本身的細(xì)節(jié)是“術(shù)”,算法體現(xiàn)的基本思想則是“道”,知“道”而學(xué)“術(shù)”,兩者雖不可偏廢,但是若要選擇優(yōu)先級(jí)的話,無(wú)疑我會(huì)選擇先“道”后“術(shù)”。
以上四點(diǎn)是寫(xiě)書(shū)前定下的目標(biāo),現(xiàn)在書(shū)寫(xiě)完了,也許很多地方不能達(dá)到最初的期望,但是盡了力就好。寫(xiě)書(shū)的過(guò)程很辛苦,起碼比我原先想象得要辛苦,因?yàn)楣ぷ鞣泵,所以只能每天早早起床,再加上周末及?jié)假日的時(shí)間來(lái)完成。也許書(shū)中還存在這樣那樣的缺點(diǎn),但是我可以無(wú)愧地說(shuō)寫(xiě)這本書(shū)是有誠(chéng)意的。
這本書(shū)是寫(xiě)給誰(shuí)的
如果您是下列人員之一,那么本書(shū)就是寫(xiě)給您的。
1.對(duì)搜索引擎核心算法有興趣的技術(shù)人員
搜索引擎的整體框架是怎樣的?包含哪些核心技術(shù)?
網(wǎng)絡(luò)爬蟲(chóng)的基本架構(gòu)是什么?常見(jiàn)的爬取策略是什么?什么是暗網(wǎng)爬。咳绾螛(gòu)建分布式爬蟲(chóng)?百度的阿拉丁計(jì)劃是什么?
什么是倒排索引?如何對(duì)倒排索引進(jìn)行數(shù)據(jù)壓縮?
搜索引擎如何對(duì)搜索結(jié)果排序?
什么是向量空間模型?什么是概率模型?什么是BM25模型?什么是機(jī)器學(xué)習(xí)排序?它們之間有何異同?
PageRank和HITS算法是什么關(guān)系?有何異同?SALSA算法是什么?Hilltop算法又是什么?各種鏈接分析算法之間是什么關(guān)系?
如何識(shí)別搜索用戶的真實(shí)搜索意圖?用戶搜索目的可以分為幾類?什么是點(diǎn)擊圖?什么是查詢會(huì)話?相關(guān)搜索是如何做到的?
為什么要對(duì)網(wǎng)頁(yè)進(jìn)行去重處理?如何對(duì)網(wǎng)頁(yè)進(jìn)行去重?哪種算法效果較好?
搜索引擎緩存有幾級(jí)結(jié)構(gòu)?核心策略是什么?
什么是情境搜索?什么是社會(huì)化搜索?什么是實(shí)時(shí)搜索?
搜索引擎有哪些發(fā)展趨勢(shì)?
如果您對(duì)三個(gè)以上的問(wèn)題感興趣,那么這本書(shū)就是為您而寫(xiě)的。
2.對(duì)云計(jì)算與云存儲(chǔ)有興趣的技術(shù)人員
什么是CAP原理?什么是ACID原理?它們之間有什么異同?
Google的整套云計(jì)算框架包含哪些技術(shù)?Hadoop系列和Google的云計(jì)算框架是什么關(guān)系?
Google的三駕馬車GFS、BigTable、MapReduce各自代表什么含義?是什么關(guān)系?
Google的咖啡因系統(tǒng)的基本原理是什么?
Google的Pregel計(jì)算模型和MapReduce計(jì)算模型有什么區(qū)別?
Google的Megastore云存儲(chǔ)系統(tǒng)和BigTable是什么關(guān)系?
亞馬遜公司的Dynamo系統(tǒng)是什么?
雅虎公司的PNUTS系統(tǒng)是什么?
Facebook公司的Haystack存儲(chǔ)系統(tǒng)適合應(yīng)用在什么場(chǎng)合?
如果您對(duì)上述問(wèn)題感興趣,相信可以從書(shū)中找到答案。
3.從事搜索引擎優(yōu)化的網(wǎng)絡(luò)營(yíng)銷人員及中小網(wǎng)站站長(zhǎng)
搜索引擎的反作弊策略是怎樣的?如何進(jìn)行優(yōu)化避免被認(rèn)為是作弊?
搜索引擎如何對(duì)搜索結(jié)果排序?鏈接分析和內(nèi)容排序是什么關(guān)系?
什么是內(nèi)容農(nóng)場(chǎng)?什么是鏈接農(nóng)場(chǎng)?它們是什么關(guān)系?
什么是Web 2.0作弊?有哪些常見(jiàn)手法?
什么是SpamRank?什么是TrustRank?什么又是BadRank?它們是什么關(guān)系?
咖啡因系統(tǒng)對(duì)網(wǎng)頁(yè)排名有何影響?
最近有一批電子商務(wù)網(wǎng)站針對(duì)搜索引擎優(yōu)化,結(jié)果被Google認(rèn)為是黑帽SEO而導(dǎo)致搜索排名降權(quán),如何避免這種情況?從事相關(guān)行業(yè)的營(yíng)銷人員和網(wǎng)站站長(zhǎng)應(yīng)該深入了解搜索引擎反作弊的基本策略和方法,甚至是網(wǎng)頁(yè)排名算法等搜索引擎核心技術(shù)。SEO技術(shù)說(shuō)到底其實(shí)很簡(jiǎn)單,雖然不斷發(fā)生變化,但是很多原理性的策略總是相似的,萬(wàn)變不離其宗,深入了解搜索引擎相關(guān)技術(shù)原理將形成您的行業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì)。
4.作者自己
我的記性不太好,往往一段時(shí)間內(nèi)了解的技術(shù),時(shí)隔幾年后就很模糊了,所以這本書(shū)也是為我自己寫(xiě)的,以作為技術(shù)備查手冊(cè)。沈利也參與了本書(shū)的部分編寫(xiě)工作。
張俊林
2011年6月
第1章 搜索引擎及其技術(shù)架構(gòu)
1.1 搜索引擎為何重要
1.1.1 互聯(lián)網(wǎng)的發(fā)展
1.1.2 商業(yè)搜索引擎公司的發(fā)展
1.1.3 搜索引擎的重要地位
1.2 搜索引擎技術(shù)發(fā)展史
1.2.1 史前時(shí)代:分類目錄的一代
1.2.2 第一代:文本檢索的一代
1.2.3 第二代:鏈接分析的一代
1.2.4 第三代:用戶中心的一代
1.3 搜索引擎的3個(gè)目標(biāo)
1.4 搜索引擎的3個(gè)核心問(wèn)題
1.4.1 3個(gè)核心問(wèn)題
1.4.2 與技術(shù)發(fā)展的關(guān)系
1.5 搜索引擎的技術(shù)架構(gòu)
第2章 網(wǎng)絡(luò)爬蟲(chóng)
2.1 通用爬蟲(chóng)框架
2.2 優(yōu)秀爬蟲(chóng)的特性
2.3 爬蟲(chóng)質(zhì)量的評(píng)價(jià)標(biāo)準(zhǔn)
2.4 抓取策略
2.4.1 寬度優(yōu)先遍歷策略(Breath First)
2.4.2 非完全PageRank策略(Partial PageRank)
2.4.3 OCIP策略(Online Page Importance Computation)
2.4.4 大站優(yōu)先策略(Larger Sites First)
2.5 網(wǎng)頁(yè)更新策略
2.5.1 歷史參考策略
2.5.2 用戶體驗(yàn)策略
2.5.3 聚類抽樣策略
2.6 暗網(wǎng)抓。―eep Web Crawling)
2.6.1 查詢組合問(wèn)題
2.6.2 文本框填寫(xiě)問(wèn)題
2.7 分布式爬蟲(chóng)
2.7.1 主從式分布爬蟲(chóng)(Master-Slave)
2.7.2 對(duì)等式分布爬蟲(chóng)(Peer to Peer)
本章提要
本章參考文獻(xiàn)
第3章 搜索引擎索引
3.1 索引基礎(chǔ)
3.1.1 單詞-文檔矩陣
3.1.2 倒排索引基本概念
3.1.3 倒排索引簡(jiǎn)單實(shí)例
3.2 單詞詞典
3.2.1 哈希加鏈表
3.2.2 樹(shù)形結(jié)構(gòu)
3.3 倒排列表(Posting List)
3.4 建立索引
3.4.1 兩遍文檔遍歷法(2-Pass In-Memory Inversion)
3.4.2 排序法(Sort-based Inversion)
3.4.3 歸并法(Merge-based Inversion)
3.5 動(dòng)態(tài)索引
3.6 索引更新策略
3.6.1 完全重建策略(Complete Re-Build)
3.6.2 再合并策略(Re-Merge)
3.6.3 原地更新策略(In-Place)
3.6.4 混合策略(Hybrid)
3.7 查詢處理
3.7.1 一次一文檔(Doc at a Time)
3.7.2 一次一單詞(Term at a Time)
3.7.3 跳躍指針(Skip Pointers)
3.8 多字段索引
3.8.1 多索引方式
3.8.2 倒排列表方式
3.8.3 擴(kuò)展列表方式(Extent List)
3.9 短語(yǔ)查詢
3.9.1 位置信息索引(Position Index)
3.9.2 雙詞索引(Nextword Index)
3.9.3 短語(yǔ)索引(Phrase Index)
3.9.4 混合方法
3.10 分布式索引(Parallel Indexing)
3.10.1 按文檔劃分(Document Partitioning)
3.10.2 按單詞劃分(Term Partitioning)
3.10.3 兩種方案的比較
本章提要
本章參考文獻(xiàn)
第4章 索引壓縮
4.1 詞典壓縮
4.2 倒排列表壓縮算法
4.2.1 評(píng)價(jià)索引壓縮算法的指標(biāo)
4.2.2 一元編碼與二進(jìn)制編碼
4.2.3 Elias Gamma算法與Elias Delta算法
4.2.4 Golomb算法與Rice算法
4.2.5 變長(zhǎng)字節(jié)算法(Variable Byte)
4.2.6 SimpleX 系列算法
4.2.7 PForDelta算法
4.3 文檔編號(hào)重排序(DocID Reordering)
4.4 靜態(tài)索引裁剪(Static Index Pruning)
4.4.1 以單詞為中心的索引裁剪
4.4.2 以文檔為中心的索引裁剪
本章提要
本章參考文獻(xiàn)
第5章 檢索模型與搜索排序
5.1 布爾模型(Boolean Model)
5.2 向量空間模型(Vector Space Model)
5.2.1 文檔表示
5.2.2 相似性計(jì)算
5.2.3 特征權(quán)重計(jì)算
5.3 概率檢索模型
5.3.1 概率排序原理
5.3.2 二元獨(dú)立模型(Binary Independent Model)
5.3.3 BM25模型
5.3.4 BM25F模型
5.4 語(yǔ)言模型方法
5.5 機(jī)器學(xué)習(xí)排序(Learning to Rank)
5.5.1 機(jī)器學(xué)習(xí)排序的基本思路
5.5.2 單文檔方法(PointWise Approach)
5.5.3 文檔對(duì)方法(PairWise Approach)
5.5.4 文檔列表方法(ListWise Approach)
5.6 檢索質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)
5.6.1 精確率與召回率
5.6.2 P@10指標(biāo)
5.6.3 MAP指標(biāo)(Mean Average Precision)
本章提要
本章參考文獻(xiàn)
第6章 鏈接分析
6.1 Web圖
6.2 兩個(gè)概念模型及算法之間的關(guān)系
6.2.1 隨機(jī)游走模型(Random Surfer Model)
6.2.2 子集傳播模型
6.2.3 鏈接分析算法之間的關(guān)系
6.3 PageRank算法
6.3.1 從入鏈數(shù)量到PageRank
6.3.2 PageRank計(jì)算
6.3.3 鏈接陷阱(Link Sink)與遠(yuǎn)程跳轉(zhuǎn)(Teleporting)
6.4 HITS算法(Hypertext Induced Topic Selection)
6.4.1 Hub頁(yè)面與Authority頁(yè)面
6.4.2 相互增強(qiáng)關(guān)系
6.4.3 HITS算法
6.4.4 HITS算法存在的問(wèn)題
6.4.5 HITS算法與PageRank算法比較
6.5 SALSA算法
6.5.1 確定計(jì)算對(duì)象集合
6.5.2 鏈接關(guān)系傳播
6.5.3 Authority權(quán)值計(jì)算
6.6 主題敏感PageRank(Topic Sensitive PageRank)
6.6.1 主題敏感PageRank與PageRank的差異
6.6.2 主題敏感PageRank計(jì)算流程
6.6.3 利用主題敏感PageRank構(gòu)造個(gè)性化搜索
6.7 Hilltop算法
6.7.1 Hilltop算法的一些基本定義
6.7.2 Hilltop算法
6.8 其他改進(jìn)算法
6.8.1 智能游走模型(Intelligent Surfer Model)
6.8.2 偏置游走模型(Biased Surfer Model)
6.8.3 PHITS算法(Probability Analogy of HITS)
6.8.4 BFS算法(Backward Forward Step)
本章提要
本章參考文獻(xiàn)
第7章 云存儲(chǔ)與云計(jì)算
7.1 云存儲(chǔ)與云計(jì)算概述
7.1.1 基本假設(shè)
7.1.2 理論基礎(chǔ)
7.1.3 數(shù)據(jù)模型
7.1.4 基本問(wèn)題
7.1.5 Google的云存儲(chǔ)與云計(jì)算架構(gòu)
7.2 Google文件系統(tǒng)(GFS)
7.2.1 GFS設(shè)計(jì)原則
7.2.2 GFS整體架構(gòu)
7.2.3 GFS主控服務(wù)器
7.2.4 系統(tǒng)交互行為
7.3 Chubby鎖服務(wù)
7.4 BigTable
7.4.1 BigTable的數(shù)據(jù)模型
7.4.2 BigTable整體結(jié)構(gòu)
7.4.3 BigTable的管理數(shù)據(jù)
7.4.4 主控服務(wù)器(Master Server)
7.4.5 子表服務(wù)器(Tablet Server)
7.5 Megastore系統(tǒng)
7.5.1 實(shí)體群組切分
7.5.2 數(shù)據(jù)模型
7.5.3 數(shù)據(jù)讀寫(xiě)與備份
7.6 Map/Reduce云計(jì)算模型
7.6.1 計(jì)算模型
7.6.2 整體邏輯流程
7.6.3 應(yīng)用示例
7.7 咖啡因系統(tǒng)--Percolator
7.7.1 事務(wù)支持
7.7.2 觀察/通知體系結(jié)構(gòu)
7.8 Pregel圖計(jì)算模型
7.9 Dynomo云存儲(chǔ)系統(tǒng)
7.9.1 數(shù)據(jù)劃分算法(Partitioning Algorithm)
7.9.2 數(shù)據(jù)備份(Replication)
7.9.3 數(shù)據(jù)讀寫(xiě)
7.9.4 數(shù)據(jù)版本控制
7.10 PNUTS云存儲(chǔ)系統(tǒng)
7.10.1 PNUTS整體架構(gòu)
7.10.2 存儲(chǔ)單元
7.10.3 子表控制器與數(shù)據(jù)路由器
7.10.4 雅虎消息代理
7.10.5 數(shù)據(jù)一致性
7.11 HayStack存儲(chǔ)系統(tǒng)
7.11.1 HayStack整體架構(gòu)
7.11.2 目錄服務(wù)
7.11.3 HayStack緩存
7.11.4 HayStack存儲(chǔ)系統(tǒng)
本章提要
本章參考文獻(xiàn)
第8章 網(wǎng)頁(yè)反作弊
8.1 內(nèi)容作弊
8.1.1 常見(jiàn)內(nèi)容作弊手段
8.1.2 內(nèi)容農(nóng)場(chǎng)(Content Farm)
8.2 鏈接作弊
8.3 頁(yè)面隱藏作弊
8.4 Web 2.0作弊方法
8.5 反作弊技術(shù)的整體思路
8.5.1 信任傳播模型
8.5.2 不信任傳播模型
8.5.3 異常發(fā)現(xiàn)模型
8.6 通用鏈接反作弊方法
8.6.1 TrustRank算法
8.6.2 BadRank算法
8.6.3 SpamRank
8.7 專用鏈接反作弊技術(shù)
8.7.1 識(shí)別鏈接農(nóng)場(chǎng)
8.7.2 識(shí)別Google轟炸
8.8 識(shí)別內(nèi)容作弊
8.9 反隱藏作弊
8.9.1 識(shí)別頁(yè)面隱藏
8.9.2 識(shí)別網(wǎng)頁(yè)重定向
8.10 搜索引擎反作弊綜合框架
本章提要
本章參考文獻(xiàn)
第9章 用戶查詢意圖分析
9.1 搜索行為及其意圖
9.1.1 用戶搜索行為
9.1.2 用戶搜索意圖分類
9.2 搜索日志挖掘
9.2.1 查詢會(huì)話(Query Session)
9.2.2 點(diǎn)擊圖(Click Graph)
9.2.3 查詢圖(Query Graph)
9.3 相關(guān)搜索
9.3.1 基于查詢會(huì)話的方法
9.3.2 基于點(diǎn)擊圖的方法
9.4 查詢糾錯(cuò)
9.4.1 編輯距離(Edit Distance)
9.4.2 噪聲信道模型(Noise Channel Model)
本章提要
本章參考文獻(xiàn)
第10章 網(wǎng)頁(yè)去重
10.1 通用去重算法框架
10.2 Shingling算法
10.3 I-Match算法
10.4 SimHash算法
10.4.1 文檔指紋計(jì)算
10.4.2 相似文檔查找
10.5 SpotSig算法
10.5.1 特征抽取
10.5.2 相似文檔查找
本章提要
本章參考文獻(xiàn)
第11章 搜索引擎緩存機(jī)制
11.1 搜索引擎緩存系統(tǒng)架構(gòu)
11.2 緩存對(duì)象
11.3 緩存結(jié)構(gòu)
11.4 緩存淘汰策略(Evict Policy)
11.4.1 動(dòng)態(tài)策略
11.4.2 混合策略
11.5 緩存更新策略(Refresh Policy)
本章提要
本章參考文獻(xiàn)
第12章 搜索引擎發(fā)展趨勢(shì)
12.1 個(gè)性化搜索
12.2 社會(huì)化搜索
12.3 實(shí)時(shí)搜索
12.4 移動(dòng)搜索
12.5 地理位置感知搜索
12.6 跨語(yǔ)言搜索
12.7 多媒體搜索
12.8 情境搜索