《基于網(wǎng)絡(luò)大數(shù)據(jù)的社會(huì)經(jīng)濟(jì)監(jiān)測(cè)預(yù)警研究》針對(duì)網(wǎng)絡(luò)大數(shù)據(jù)具有時(shí)效性強(qiáng)、分布范圍廣的特點(diǎn),提出一個(gè)基于網(wǎng)絡(luò)大數(shù)據(jù)的社會(huì)經(jīng)濟(jì)監(jiān)測(cè)預(yù)警的研究框架,對(duì)網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行深入分析和挖掘,在此基礎(chǔ)上就社會(huì)轉(zhuǎn)型中的社會(huì)經(jīng)濟(jì)關(guān)鍵指標(biāo)進(jìn)行實(shí)時(shí)監(jiān)測(cè)和智能預(yù)測(cè),為政府和相關(guān)管理部門提供有效的分析工具與決策支持!痘诰W(wǎng)絡(luò)大數(shù)據(jù)的社會(huì)經(jīng)濟(jì)監(jiān)測(cè)預(yù)警研究》結(jié)構(gòu)完整,思路清晰,語言流暢,是網(wǎng)絡(luò)大數(shù)據(jù)應(yīng)用于社會(huì)經(jīng)濟(jì)預(yù)測(cè)的首本專著,同時(shí)也是大數(shù)據(jù)分析和監(jiān)測(cè)預(yù)警等相關(guān)領(lǐng)域不可多得的一本體系性參考書。
《基于網(wǎng)絡(luò)大數(shù)據(jù)的社會(huì)經(jīng)濟(jì)監(jiān)測(cè)預(yù)警研究》可供從事預(yù)測(cè)科學(xué)、監(jiān)測(cè)技術(shù)和大數(shù)據(jù)應(yīng)用研究的科研人員,政府有關(guān)決策和管理部門的工作人員,金融公司、電子商務(wù)企業(yè)等的從業(yè)人員參考,也可供高等院校管理學(xué)院、信息學(xué)院、金融學(xué)院等相關(guān)專業(yè)的師生閱讀。
更多科學(xué)出版社服務(wù),請(qǐng)掃碼獲取。
《基于網(wǎng)絡(luò)大數(shù)據(jù)的社會(huì)經(jīng)濟(jì)監(jiān)測(cè)預(yù)警研究》:
2.4.2網(wǎng)絡(luò)大數(shù)據(jù)挖掘的定義
最早的網(wǎng)絡(luò)數(shù)據(jù)挖掘概念是由OrenEtioni于1996年提出來的,他認(rèn)為網(wǎng)絡(luò)數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)上的應(yīng)用,這項(xiàng)技術(shù)綜合了數(shù)據(jù)挖掘、網(wǎng)絡(luò)、計(jì)算機(jī)技術(shù)、信息技術(shù)等諸多領(lǐng)域,是一種綜合性的數(shù)據(jù)挖掘技術(shù)。
國(guó)內(nèi)外專家學(xué)者對(duì)于網(wǎng)絡(luò)數(shù)據(jù)挖掘的定義也是眾說紛紜,《基于網(wǎng)絡(luò)大數(shù)據(jù)的社會(huì)經(jīng)濟(jì)監(jiān)測(cè)預(yù)警研究》選取一個(gè)認(rèn)同率較高的定義:網(wǎng)絡(luò)數(shù)據(jù)挖掘就是指從大量網(wǎng)絡(luò)數(shù)據(jù)集中找到隱藏的信息,如果將大量網(wǎng)絡(luò)數(shù)據(jù)作為這一過程的輸入,將隱藏信息作為這一過程的輸出,則整個(gè)網(wǎng)絡(luò)數(shù)據(jù)挖掘過程就是從輸入到輸出的一個(gè)映射,即從大量網(wǎng)絡(luò)數(shù)據(jù)集到隱藏信息的一個(gè)映射。
網(wǎng)絡(luò)數(shù)據(jù)挖掘是數(shù)據(jù)挖掘的一個(gè)重要分支,但是相比于數(shù)據(jù)挖掘,網(wǎng)絡(luò)數(shù)據(jù)挖掘有著一些特殊之處。
首先,網(wǎng)絡(luò)數(shù)據(jù)挖掘的對(duì)象是大量的網(wǎng)絡(luò)數(shù)據(jù)集,這些數(shù)據(jù)集大多是文檔形式,而且具有異質(zhì)性及分散式的特點(diǎn),如服務(wù)器上保存的日志文件、用戶發(fā)生行為留下的個(gè)人信息等,處理起來比傳統(tǒng)的數(shù)據(jù)挖掘更加困難。
其次,從邏輯上來講網(wǎng)絡(luò)可以看做一個(gè)文檔節(jié)點(diǎn)以及節(jié)點(diǎn)間的鏈接構(gòu)成的圖,因此通過網(wǎng)絡(luò)數(shù)據(jù)挖掘可能會(huì)得到網(wǎng)絡(luò)內(nèi)容,也可能會(huì)得到網(wǎng)絡(luò)結(jié)構(gòu),具有一定的不確定性。
另外,網(wǎng)絡(luò)數(shù)據(jù)本身不是結(jié)構(gòu)化的(機(jī)器不容易理解),但是傳統(tǒng)的數(shù)據(jù)挖掘是基于結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行的,是建立在關(guān)系數(shù)據(jù)庫(kù)的基礎(chǔ)上的。因此,有些時(shí)候數(shù)據(jù)挖掘技術(shù)與網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)并不通用,即便要用也需要預(yù)先對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行處理,使其轉(zhuǎn)化為傳統(tǒng)數(shù)據(jù)挖掘技術(shù)可用的結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu),這也是網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)的發(fā)展方向之一。
由于數(shù)據(jù)不斷增長(zhǎng),類型不斷復(fù)雜,網(wǎng)絡(luò)數(shù)據(jù)具有了大數(shù)據(jù)特征,這時(shí)的網(wǎng)絡(luò)數(shù)據(jù)挖掘已成為網(wǎng)絡(luò)大數(shù)據(jù)挖掘了。2.4.3網(wǎng)絡(luò)大數(shù)據(jù)挖掘的分類由于網(wǎng)絡(luò)上的數(shù)據(jù)具有多樣性的特征,所以在進(jìn)行網(wǎng)絡(luò)大數(shù)據(jù)挖掘時(shí)所面臨的任務(wù)也是多種多樣的,這里我們根據(jù)網(wǎng)絡(luò)大數(shù)據(jù)挖掘的對(duì)象不同進(jìn)行分類,網(wǎng)絡(luò)大數(shù)據(jù)挖掘技術(shù)可以分為三類,即網(wǎng)絡(luò)結(jié)構(gòu)挖掘、網(wǎng)絡(luò)內(nèi)容挖掘和網(wǎng)絡(luò)應(yīng)用挖掘。
網(wǎng)絡(luò)結(jié)構(gòu)挖掘技術(shù)是指在挖掘過程中關(guān)注網(wǎng)絡(luò)上隱含的鏈接結(jié)構(gòu),根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)之間的關(guān)系(如鏈接間的關(guān)系與組織結(jié)構(gòu))得到隱含信息的過程。這種方式通過分析網(wǎng)頁(yè)之間的某個(gè)鏈接及與這個(gè)鏈接相關(guān)的網(wǎng)頁(yè)數(shù)和相關(guān)對(duì)象,建立起一個(gè)網(wǎng)絡(luò)鏈接結(jié)構(gòu)模型。網(wǎng)絡(luò)結(jié)構(gòu)挖掘可以用來對(duì)網(wǎng)頁(yè)進(jìn)行分類,從而進(jìn)一步得到網(wǎng)頁(yè)之間的相關(guān)聯(lián)程度及近似程度,同時(shí)還可以幫助用戶快速地找到與自己相關(guān)的網(wǎng)頁(yè)。前文已經(jīng)說過,邏輯上網(wǎng)絡(luò)可以看做一張圖,一張龐大的有向圖。每個(gè)網(wǎng)絡(luò)網(wǎng)頁(yè)就是圖中的一個(gè)節(jié)點(diǎn),而頁(yè)面之間的鏈接就是圖中的邊,可以是單向的,也可以是雙向的。這樣我們可以很方便、快捷地找到一個(gè)節(jié)點(diǎn)到另一個(gè)節(jié)點(diǎn)的最短路徑,應(yīng)用到現(xiàn)實(shí)生活中就是可以花費(fèi)最小的時(shí)間和精力從一個(gè)頁(yè)面訪問另一個(gè)目標(biāo)頁(yè)面。
網(wǎng)絡(luò)內(nèi)容挖掘技術(shù)是指對(duì)頁(yè)面的本身內(nèi)容進(jìn)行挖掘,頁(yè)面內(nèi)容的主要形式有文本、圖片、多媒體音響等,我們要從多種形式的內(nèi)容中挖掘出有價(jià)值的信息。目前,廣泛應(yīng)用的一些搜索引擎與推薦系統(tǒng)都是網(wǎng)絡(luò)內(nèi)容挖掘技術(shù)的現(xiàn)實(shí)應(yīng)用,這些應(yīng)用都是幫助用戶從大量數(shù)據(jù)中快速找到自己需要的信息。網(wǎng)絡(luò)內(nèi)容挖掘技術(shù)的關(guān)鍵是對(duì)網(wǎng)絡(luò)頁(yè)面的分類及聚類。分類是指網(wǎng)絡(luò)頁(yè)面具有不同的特征,我們根據(jù)這些特征將網(wǎng)絡(luò)頁(yè)面劃分為不同的類別;聚類是指,由于不同類別的網(wǎng)絡(luò)頁(yè)面之間或多或少都有著某種聯(lián)系,我們將這些頁(yè)面聚合到一起,形成不同的簇,盡可能使得同一個(gè)簇內(nèi)的網(wǎng)絡(luò)頁(yè)面有著最為相近的內(nèi)容,而不同簇之間的網(wǎng)絡(luò)頁(yè)面內(nèi)容沒有多大的相近性與關(guān)聯(lián)度。
……