本書基于可疑用戶度量的思想,從基于內(nèi)存和基于模型的推薦技術(shù)兩方面展開研究,致力于設(shè)計一系列魯棒性高、精度損失少的協(xié)同過濾推薦算法。
伊華偉,女,1978年8月生,遼寧朝陽人;2017年1月畢業(yè)于燕山大學(xué)計算機(jī)應(yīng)用技術(shù)專業(yè),獲工學(xué)博士學(xué)位;遼寧工業(yè)大學(xué)電子與信息工程學(xué)院副教授、碩士生導(dǎo)師。主要系統(tǒng)、可信計算及信息等方面的科學(xué)研究,先后在《軟件學(xué)報》《電子與信息學(xué)報》《Journal of Intelligent Information Systems》等國內(nèi)外高期刊發(fā)表相關(guān)學(xué)術(shù)論文20余篇;主持完成遼寧省自然科學(xué)項目、遼寧省教育廳科學(xué)研究項目2項,參與國家自然科學(xué)項目、遼寧省自然科學(xué)項目4項;獲得各類授權(quán)專利20余件。
第1章緒論
1.1研究背景和意義
1.2技術(shù)研究現(xiàn)狀
1.2.1基于內(nèi)存的算法研究現(xiàn)狀
1.2.2基于模型的算法研究現(xiàn)狀
1.2.3目前存在的問題
1.3主要研究內(nèi)容
1.4本書組織結(jié)構(gòu)
第2章 基于k-距離和項目類別信息的方法
2.1 引 言
2.2相關(guān)理論
2.2.1基于用戶的協(xié)同算法
2.2.2基于k鄰的離群點(diǎn)檢測
2.3 基于用戶的協(xié)同系統(tǒng)脆弱性分析
2.4基于k-距離的用戶可疑度計算
2.5融合用戶可疑度和項目類別信息的缺失值填充
2.6 算法
2.7本章小結(jié)
第3章 基于可疑用戶度量和多維信任的方法
3.1引言
3.2相關(guān)向量機(jī)
3.3基于相關(guān)向量機(jī)的可疑用戶度量
3.4可靠多維信任模型
3.4.1信任屬性的挖掘
3.4.2可靠多維信任模型的構(gòu)建
3.5算法
3.6本章小結(jié)
第4章基于模糊核聚類和支持向量機(jī)的方法
4.1引言
4.2相關(guān)理論
4.2.1基本矩陣分解技術(shù)
4.2.2模糊核聚類
4.2.3支持向量機(jī)
4.3基于矩陣分解的協(xié)同系統(tǒng)脆弱性分析
4.4基于模糊核聚類的攻擊概貌檢測
4.5基于支持向量機(jī)的攻擊概貌識別
4.6算法
4.7本章小結(jié)
第5章基于可疑用戶識別和Tukey M-估計量的方法
5.1引言
5.2融合可疑用戶識別的可鄰模型
5.2.1可疑用戶識別
5.2.2 可鄰模望
5.3 基于Tukey M-估計量的魯棒矩陣分知模H
5.4算法
5.5參數(shù)值的確定
5.6本章小結(jié)
第6章 實(shí)驗(yàn)與評價
6.1實(shí)驗(yàn)數(shù)據(jù)集
6.2評價指標(biāo)
6.3實(shí)驗(yàn)設(shè)置
6.4基于k-距離和項目類別信息的算法性能評價
6.4.1精度的對比及分析
6.4.2 算法魯棒性的對比及分析
6.5 基于可疑用戶度量和多維信任的算法性能評價
6.5.1精度的對比及分析
6.5.2算法魯棒性的對比及分析
6.6 基于模糊核聚類和支持向量機(jī)的算法性能評價
6.6.1精度的對比及分析
6.6.2算法魯棒性的對比及分析
6.7基于可疑用戶識別和Tukey M-估計量的算法性能評價
6.7.1精度的對比及分析
6.7.2算法魯棒性的對比及分析
6.8 本章小結(jié)
結(jié)論
參考文獻(xiàn)
第pan>章緒論
1.pan style="font-family:宋體">研究背景和意義
隨著互聯(lián)網(wǎng)技術(shù)突飛的發(fā)展,人們喜歡在互聯(lián)網(wǎng)上通過電子商務(wù)網(wǎng)站來購買各種各樣的商品。然而,隨著網(wǎng)上交易用戶的日益增多和商品信息量的極大豐富,出現(xiàn)了嚴(yán)重的信息超載(Information Overload)現(xiàn)象[1-3]。所以,人們在享受電子商務(wù)帶來便利的同時,也面臨著一個嚴(yán)峻的挑戰(zhàn)——如何在信息的海洋中、快捷地找到自己真正所需的商品信息。因系統(tǒng)(Recommender Systems)[4-7]應(yīng)運(yùn)而生,它與電子商務(wù)系行結(jié)合,能夠有效地解決信息超載問題。與傳統(tǒng)的搜索引擎不系統(tǒng)能根據(jù)用戶的個人資料、商品購買記錄以及對商品的評價等歷史信息來分析用戶的個人興趣、愛好,快速找出并主動為其可能感興趣的商品信息,從而在實(shí)現(xiàn)個的同時提高用戶檢索信息的效率。
1997年,Resnick和Varian[8]:“”目前,電子商務(wù)網(wǎng)站是個系統(tǒng)的一個主要應(yīng)用領(lǐng)域,比如Amazon、豆瓣網(wǎng)、eBay和網(wǎng)等都不同程度地使用了多種形技術(shù)[9],主要有基于內(nèi)[10-3]、協(xié)同[14]、基于知[15-16]和[17-18]等。其中協(xié)同(CollaborativeFiltering Recommendation)技術(shù)是早出現(xiàn)、理論為成熟和應(yīng)用為廣泛的技術(shù)之一[19-20]。本書內(nèi)容即基于協(xié)同展開系列相關(guān)研究工作之成算法決定了系統(tǒng)的性能好壞,系統(tǒng)的核心部分[21-2]。協(xié)同算法分為基于內(nèi)算法(Memory-based RecommendationAlgorithm)和基于模算法(Model-based Recommendation Algorithm)兩大類,其中基于內(nèi)算法又可分為基于用算法(User-basedRecommendation Algorithm)[23-24]和基于項目的] 行 đ __m-based Recom.mendaion Algorithm)[25-26]。協(xié)同 算法 首先計算系 統(tǒng)中 用戶(項目)間的相似度,然后依據(jù)相似度找出與目標(biāo)用戶(項目)相似的鄰居集合,
后根鄰用戶對目標(biāo)項目的評分(目標(biāo)用戶鄰項目的評分)為目標(biāo)用戶。雖然基于內(nèi)算法易于實(shí)精度高,但相似度計算和尋鄰的過程中需要遍歷整個評分矩陣,所以算法運(yùn)行效率會隨著評分效據(jù)的增多而降低,實(shí)時性不高;谀K惴ㄊ紫冗\(yùn)用統(tǒng)計或機(jī)器學(xué)習(xí)等方法對用戶-項目評分?jǐn)?shù)行訓(xùn)練得到一個模型,此過程通常離線完成;然后利用該模型在線為目標(biāo)用戶。相比基于內(nèi)算法來說,基于模算法實(shí)時性較高。常見的基于模算法有貝葉斯模型[27]聚類模型[28-29]、回歸模型[30]、基于Markov鏈的模型[31]、潛在語義分析模型[32-34]和目前應(yīng)用廣泛的基于矩陣分解的潛在因子模型[35]等。協(xié)同算法基于用戶對項目的評分?jǐn)?shù)據(jù)來完成對目標(biāo)用,
因此,收集到的評分?jǐn)?shù)據(jù)越多,越能彰顯用戶的喜好,越能得到高質(zhì)結(jié)果,這就系統(tǒng)必須具有較強(qiáng)的開放性,以充分調(diào)動用戶參與評分的積極性[36]。然而,一些惡意用戶從個人利益角度出發(fā),系統(tǒng)的開放性,人為地將大量虛假用戶評分注入到系統(tǒng)中,企圖影響用戶的購買行為。由此可見,雖然系統(tǒng)可用的評分?jǐn)?shù)據(jù)增加了,但是數(shù)據(jù)質(zhì)量卻嚴(yán)重降低,使系結(jié)果受到很大影響。這種將虛假用戶概貌注系統(tǒng)中干擾系統(tǒng)的過程,使系結(jié)果產(chǎn)生偏差的行為被稱為托攻擊(ShillingAttacks),也叫概貌注入攻擊(Profile Infection Attacks)攻擊(Recom-mendation Attacks)[37-38][39]:隨機(jī)攻擊(Random Attack)、均值攻擊(Average Attack)、流行攻擊(BandwagonAttack)和AoP攻擊(Average over Popular Items Attack)等。 根據(jù)攻擊的目的一步將托攻擊分為推攻擊(Push Attack)和核攻擊(Nuke Attack)兩類,分別用來提高和降低目標(biāo)項目被的頻率。
……