欧洲最大但人文艺术5788,99久久精品费看国产

　　王蘭成編著的《網(wǎng)絡(luò)輿情分析技術(shù)（精）》以國家社科基金專項課題和全軍專項研究生課題的研究成果為背景，對互聯(lián)網(wǎng)主題輿情分析的理論、方法、技術(shù)和實現(xiàn)進(jìn)行研究。將國內(nèi)外領(lǐng)先的知識技術(shù)運(yùn)用于網(wǎng)絡(luò)輿情的采集和網(wǎng)絡(luò)輿情的分析過程，拋磚引玉促進(jìn)我國在網(wǎng)絡(luò)輿情采集、處理和服務(wù)方法與技術(shù)領(lǐng)域的深入研究，推動軍內(nèi)外網(wǎng)絡(luò)輿情信息系統(tǒng)中新技術(shù)的研究和應(yīng)用創(chuàng)新。在網(wǎng)絡(luò)輿情智能采集方面，本書的主要工作是：研究網(wǎng)絡(luò)輿情情報規(guī)劃與獲取，研究主題網(wǎng)絡(luò)輿情的語義特征抽取，研究輿情網(wǎng)頁內(nèi)容相關(guān)性的判定，研究輿情網(wǎng)頁鏈接相關(guān)性的判定等。在網(wǎng)絡(luò)輿情智能處理方面，本書的主要工作是：研究主題網(wǎng)絡(luò)輿情的本體構(gòu)建，研究語義層的輿情信息聚類和分類方法，研究基于情感本體的網(wǎng)絡(luò)輿情傾向性分析等。在網(wǎng)絡(luò)輿情智能服務(wù)方面，本書的主要工作是：研究輿情事件網(wǎng)頁內(nèi)容的詞匯關(guān)聯(lián)分析，研究基于網(wǎng)絡(luò)論壇的輿情話題追蹤方法和技術(shù)，研究網(wǎng)絡(luò)輿情檢索系統(tǒng)中的查詢主題分類技術(shù)等。

　　1）網(wǎng)頁鏈接預(yù)測
　　網(wǎng)頁中的鏈接是網(wǎng)絡(luò)爬蟲持續(xù)工作的前提，然而網(wǎng)頁中既包含了主題相關(guān)的鏈接，也包含了大量與主題無關(guān)的鏈接，面向主題的網(wǎng)絡(luò)爬蟲技術(shù)需要對即將要下載的鏈接進(jìn)行預(yù)測，以免下載到與主題無關(guān)的網(wǎng)頁。網(wǎng)頁鏈接預(yù)測就是判斷當(dāng)前已經(jīng)下載的網(wǎng)頁中的鏈接所指向的網(wǎng)頁是否與需要的主題相關(guān)，這是主題爬行系統(tǒng)的關(guān)鍵所在，任何一個主題爬行系統(tǒng)都要求盡可能爬行到和主題相關(guān)的網(wǎng)頁，這樣在一定程度上可以避免出現(xiàn)主題漂移現(xiàn)象，也可以以最小的帶寬資源獲得最多的主題相關(guān)網(wǎng)頁。近年來，國內(nèi)外研究者們所做的工作大致歸為兩類：一類是對整個頁面進(jìn)行綜合評價，但是現(xiàn)在的網(wǎng)頁很多都是多主題的，也就是說在一個網(wǎng)頁內(nèi)并存幾個主題，或者雖然有個比較主要的主題但是其他主題的內(nèi)容也很多。面對這樣的網(wǎng)頁，頁面中的每個鏈接被賦予相同的權(quán)重，勢必會有大量的不相關(guān)的鏈接被提取出來，甚至很可能造成下文所述的“隧道”問題。第二類是基于鏈接的判斷，即網(wǎng)頁中的每一個鏈接依據(jù)它附近的文本賦予不同的權(quán)重，有些甚至還考慮了鏈接所在各級標(biāo)題，但標(biāo)題的加入有時候反而會使得主題變模糊，基于鏈接的判斷最大的問題是因為所取的信息量偏少，可能有大量的相關(guān)鏈接不能夠被提取出來。
　　網(wǎng)頁分塊技術(shù)能把網(wǎng)頁分成不同的內(nèi)容塊，每一個內(nèi)容塊賦予不同的權(quán)重，超過一定閾值的內(nèi)容塊可以認(rèn)為是和主題相關(guān)的。與主題相關(guān)的內(nèi)容塊里面的鏈接就假設(shè)都是和爬行主題相關(guān)的，把這些塊中的鏈接放到爬行池等待下一步爬行，而把那些和主題不相關(guān)的塊去掉，不爬行里面的鏈接。這種方法能更好地預(yù)測網(wǎng)頁，既避免了針對整個網(wǎng)頁進(jìn)行評價的粒度過粗，又避免了基于鏈接判斷方法的粒度過細(xì)，很大程度上能保證爬行下來的網(wǎng)頁是和主題相關(guān)的。
　　2）多主題和隧道問題
　　隨著網(wǎng)頁制作技術(shù)和網(wǎng)站商業(yè)化進(jìn)程的推進(jìn)，當(dāng)今網(wǎng)頁中的內(nèi)容和傳統(tǒng)的文本相比有更多的表示形式，網(wǎng)頁中的主題也不再單一。網(wǎng)頁中有用戶需要的主題內(nèi)容，有與主題內(nèi)容相關(guān)聯(lián)的其他主題鏈接，還有很多信息只是為了方便瀏覽，如導(dǎo)航條、廣告、版權(quán)信息等。網(wǎng)頁中包含的多主題對于用戶來說并不是什么問題，因為用戶可以快速地識別出哪些是自己需要的主題信息，哪些是無關(guān)緊要的主題信息。然而這種多主題的網(wǎng)頁卻對網(wǎng)絡(luò)爬蟲產(chǎn)生了巨大的干擾，讓機(jī)器去識別對用戶有用的主題信息則困難較大。在web中還存在著一種現(xiàn)象，就是從當(dāng)前已經(jīng)得到的頁面到目標(biāo)網(wǎng)頁有時往往需要經(jīng)過幾個不相關(guān)網(wǎng)頁才能夠達(dá)到，但是這幾個網(wǎng)頁之間都有著鏈接的聯(lián)系。這些無關(guān)的鏈接就像長長的隧道一樣連接著兩個主題相關(guān)頁面，因此，這種現(xiàn)象被稱為“隧道現(xiàn)象”。

　　……

你還可能感興趣

我要評論