《電子商務(wù)推薦系統(tǒng)導(dǎo)論》既可作為有興趣從事推薦系統(tǒng)領(lǐng)域研究工作的高校教師和研究生的理論基礎(chǔ)用書,幫助他們了解本領(lǐng)域研究現(xiàn)狀,把握關(guān)鍵問(wèn)題,熟悉基本方法;亦可作為企業(yè)工程師設(shè)計(jì)和開(kāi)發(fā)推薦系統(tǒng)時(shí)的參考書。
第1 章引論
1.1 推薦系統(tǒng)概述
1.1.1 推薦系統(tǒng):動(dòng)機(jī)與現(xiàn)狀
因特網(wǎng)的崛起和迅猛發(fā)展使人們獲得了前所未有的自由信息空間,也使得世界范圍內(nèi)的信息處于大爆炸狀態(tài),造成信息量大、信息質(zhì)量差、信息價(jià)值低等問(wèn)題,用戶難以從過(guò)量信息中獲取對(duì)自己有用的部分,這就是所謂的信息過(guò)載(information overload)[1] 。正如文獻(xiàn)[2]中所言,數(shù)據(jù)是廣泛可用的,所缺乏的是從中提取出知識(shí)的能力。為應(yīng)對(duì)信息過(guò)載問(wèn)題,大量信息過(guò)濾網(wǎng)絡(luò)工具應(yīng)運(yùn)而生,人們最常用的莫過(guò)于門戶網(wǎng)站和搜索引擎,但這些工具都是以面向人們主流需求為主,且用戶獲取信息的方式是“被動(dòng)”的。
顯然,考慮個(gè)性化需求,將有用信息以“主動(dòng)”方式推送(push) 給用戶不僅能過(guò)濾信息,而且能增強(qiáng)用戶體驗(yàn),推送的信息也更符合用戶個(gè)體的需求。簡(jiǎn)信息聚合(really simple syndication,RSS)是一種在主動(dòng)信息推送服務(wù)方面的典型工具。RSS 是一種消息來(lái)源格式規(guī)范,能夠?qū)⑿侣剺?biāo)題、摘要、內(nèi)容按照用戶的要求“送”到用戶桌面。但是,在RSS 中,用戶興趣通常是由用戶預(yù)先給定的關(guān)鍵詞來(lái)描述,但缺乏自動(dòng)挖掘用戶興趣的功能。
推薦系統(tǒng)(recommender systems) 是一種為用戶提供建議的智能化軟件工具,是解決信息過(guò)載問(wèn)題非常有潛力的方法[3] 。推薦系統(tǒng)的研究與開(kāi)發(fā)始于20 世紀(jì)90 年代初期。第一個(gè)推薦系統(tǒng)是Tapestry[4] ,是針對(duì)電子郵件的推薦系統(tǒng)。該推薦系統(tǒng)通過(guò)分析用戶閱讀郵件的歷史行為來(lái)對(duì)新郵件重新排序,試圖將用戶更感興趣的新郵件推薦給他/她。更為重要的是,Tapestry 首次提出了協(xié)同過(guò)濾(collaborative filtering,CF)的概念[4] 。后續(xù)的推薦系統(tǒng)領(lǐng)域研究表明,協(xié)同過(guò)濾對(duì)推薦系統(tǒng)的發(fā)展產(chǎn)生了深遠(yuǎn)影響,成為關(guān)注最多、應(yīng)用最廣泛的方法之一。
推薦系統(tǒng)與以搜索引擎為代表的信息檢索技術(shù)本質(zhì)區(qū)別[5] 在于:①搜索注重結(jié)果之間的關(guān)系和排序,而推薦則需研究用戶興趣模型,即結(jié)合考慮用戶與推薦對(duì)象的特征;②搜索由用戶主導(dǎo),包括輸入查詢?cè)~和選擇結(jié)果,若結(jié)果不好,用戶會(huì)修改查詢?cè)俅嗡阉,而推薦則由系統(tǒng)主導(dǎo)用戶的瀏覽順序,主動(dòng)引導(dǎo)用戶發(fā)現(xiàn)需要的結(jié)果。
·2·電子商務(wù)推薦系統(tǒng)導(dǎo)論
從20 世紀(jì)90 年代初期到現(xiàn)在,推薦系統(tǒng)受到學(xué)術(shù)界和工業(yè)界的長(zhǎng)期關(guān)注,成為炙手可熱的研究議題。推薦系統(tǒng)是一門典型的交叉學(xué)科,涵蓋計(jì)算機(jī)科學(xué)、電子商務(wù)、人類社會(huì)學(xué)、物理學(xué)、經(jīng)濟(jì)學(xué)等諸多領(lǐng)域,圖1.1 給出2013 年國(guó)際頂級(jí)會(huì)議ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD) 投稿數(shù)量的分布,可以看出,推薦系統(tǒng)在20 個(gè)領(lǐng)域中排名第三,其熱度由此可見(jiàn)一斑。從2007 年開(kāi)始,ACM 設(shè)立了專門討論推薦系統(tǒng)的國(guó)際會(huì)議,ACM Recommender Systems Conference (RecSys) 至今已舉辦8 屆,其知名度持續(xù)上升。從2006 年開(kāi)始,美國(guó)密歇根大學(xué)Paul Resnick 教授開(kāi)設(shè)了“推薦系統(tǒng)”課程。
圖1.1 KDD 2013 年投稿數(shù)量領(lǐng)域分布
隨著社會(huì)網(wǎng)絡(luò)、物聯(lián)網(wǎng)、大數(shù)據(jù)等新概念和新技術(shù)的出現(xiàn)和升溫,信息過(guò)載問(wèn)題將日益嚴(yán)重,同時(shí),工業(yè)界的需求導(dǎo)致用戶對(duì)信息獲取方式的要求也變得越來(lái)越高。推薦系統(tǒng)作為既能應(yīng)對(duì)信息過(guò)載,又能智能化地為用戶主動(dòng)推送信息的強(qiáng)有力手段,可以預(yù)計(jì),在今后數(shù)十年內(nèi),推薦系統(tǒng)仍然將獲得持續(xù)關(guān)注,更加有效和高效的推薦系統(tǒng)將在人類信息化進(jìn)程中扮演越來(lái)越重要的角色。
1.1.2 電子商務(wù):推薦系統(tǒng)最重要的應(yīng)用領(lǐng)域
Companies need to shift from the old world of mass production where “standardized products, homogeneous markets, and long product life and development cycles were the rule” to the new world where “variety and customization supplant standardized products”.
quoted from “Mass Customization”by Joe Pine[6]
第1 章引論·3·
以上內(nèi)容引自Joe Pine 的著作“Mass Customization”,說(shuō)明了企業(yè)由傳統(tǒng)模式過(guò)渡到現(xiàn)代模式的法則,需要從傳統(tǒng)標(biāo)準(zhǔn)化商品過(guò)渡到多樣化的定制商品,其隱含意思就是充分考慮用戶個(gè)性化需求。這段話恰當(dāng)?shù)卣f(shuō)明了推薦系統(tǒng)為何在電子商務(wù)領(lǐng)域得到良好發(fā)展和應(yīng)用的原因。用戶的需求通常是模糊的,而商家期望能夠把滿足用戶模糊需求的商品推薦給用戶,把用戶潛在需求轉(zhuǎn)化為現(xiàn)實(shí)需求,從而達(dá)到提升商品銷售量的目標(biāo)。
電子商務(wù)將企業(yè)的銷售行為從線下實(shí)體店銷售搬到了在線銷售,用戶行為和商品信息的數(shù)字化更加促進(jìn)推薦系統(tǒng)的應(yīng)用。目前,幾乎所有的大型電子商務(wù)網(wǎng)站都不同程度地采用了推薦系統(tǒng)[5] ,電子商務(wù)成為推薦系統(tǒng)最重要的應(yīng)用領(lǐng)域,同時(shí),電子商務(wù)企業(yè)的應(yīng)用和研究也促進(jìn)了推薦系統(tǒng)的發(fā)展,比如,Amazon 在10 年前提出了基于項(xiàng)目的協(xié)同過(guò)濾方法[7] ,并沿用至今。推薦系統(tǒng)為電子商務(wù)企業(yè)帶來(lái)了新的營(yíng)銷觀念,即“一對(duì)一營(yíng)銷”,正如Amazon CEO Jeff Bezos 所說(shuō),“如果我們有200 萬(wàn)個(gè)網(wǎng)絡(luò)客戶,我們就需要在線儲(chǔ)備200 萬(wàn)種商品”?偟膩(lái)說(shuō),推薦系統(tǒng)能為電子商務(wù)企業(yè)帶來(lái)以下三方面的收益[8] 。
(1) 提升瀏覽到購(gòu)買的轉(zhuǎn)化率。網(wǎng)站訪問(wèn)者經(jīng)常漫無(wú)目的地瀏覽網(wǎng)站,卻不購(gòu)買任何商品,推薦系統(tǒng)能幫助訪問(wèn)者發(fā)現(xiàn)其感興趣的商品,從而促進(jìn)訪問(wèn)者到購(gòu)買者的轉(zhuǎn)化。
(2) 提升交叉銷售量。推薦系統(tǒng)通過(guò)向用戶推薦與其已購(gòu)買商品相關(guān)聯(lián)的商品,用戶在購(gòu)買的最后步驟,網(wǎng)站會(huì)向用戶推薦與購(gòu)物車內(nèi)商品極為相關(guān)的附屬商品。
(3) 提升用戶忠誠(chéng)度。如何提升用戶忠誠(chéng)度或黏粘度是電子商務(wù)網(wǎng)站的核心商業(yè)策略之一,推薦系統(tǒng)建立起網(wǎng)站與用戶之間的聯(lián)系,為提升用戶忠誠(chéng)度提供附加值,用戶往往會(huì)重復(fù)訪問(wèn)與其興趣偏好相匹配的網(wǎng)站,甚至?xí)䦟⑦@些網(wǎng)站推薦給自己的朋友圈。
在競(jìng)爭(zhēng)日趨激烈的環(huán)境下,電子商務(wù)推薦系統(tǒng)能夠?yàn)殡娮由虅?wù)網(wǎng)站有效保留用戶,提高電子商務(wù)系統(tǒng)績(jī)效,產(chǎn)生巨大的經(jīng)濟(jì)效益。構(gòu)建一個(gè)推薦效率高、精度高而且UI 界面合理的商品推薦系統(tǒng)對(duì)于電子商務(wù)網(wǎng)站的發(fā)展十分重要,推薦系統(tǒng)也因此成為工業(yè)界的關(guān)注熱點(diǎn)。
1.1.3 推薦系統(tǒng):形式化建模
一般地,推薦系統(tǒng)包含兩類實(shí)體:用戶(user)和項(xiàng)目(item) 。用戶是指被推薦對(duì)象,無(wú)需過(guò)多解釋。而項(xiàng)目則是指推薦對(duì)象,推薦系統(tǒng)領(lǐng)域的所有英文文獻(xiàn)都使用“item”一詞來(lái)表達(dá),本書統(tǒng)一將“item ”譯為“項(xiàng)目”,泛指不同領(lǐng)域的推薦對(duì)象。比如,電子商務(wù)推薦系統(tǒng)中,項(xiàng)目表示商品或物品;音樂(lè)和電影推薦系統(tǒng)中,項(xiàng)目則表示CD 和DVD;新聞推薦系統(tǒng)中,項(xiàng)目又表示新聞網(wǎng)頁(yè),等等。盡管“項(xiàng)目”有可能與英語(yǔ)“project”一詞相混淆,但是,將推薦實(shí)體“item ”譯為“項(xiàng)目”在
·4·電子商務(wù)推薦薦系統(tǒng)導(dǎo)論
推薦系統(tǒng)領(lǐng)域的中文文獻(xiàn)中廣廣泛出現(xiàn)[5,9-12]]。
推薦系統(tǒng)輸入數(shù)據(jù)的最簡(jiǎn)單形式是用戶戶對(duì)項(xiàng)目的評(píng)分分?jǐn)?shù)據(jù),稱為用用戶-項(xiàng)目評(píng)分矩陣(user-iteem rating matriix),大部分?jǐn)?shù)據(jù)據(jù)集采用5 分制制(或5 星制)評(píng)評(píng)分,即5 分表示最滿意,依依次遞減。盡管管實(shí)際電子商務(wù)務(wù)系統(tǒng)提供了用用戶對(duì)購(gòu)買中不不同方面的評(píng)分,如圖1.2 所所示的淘寶網(wǎng)評(píng)評(píng)分體系,就支持持“寶貝與描述述相符”、“賣家家服務(wù)態(tài)度”、“賣家發(fā)貨速度度”3 種不同子子項(xiàng)。但是,在在推薦系統(tǒng)形式式化建模時(shí)卻通通常只考慮綜合評(píng)分。同時(shí),用戶-項(xiàng)目評(píng)評(píng)分矩陣不一定定都是顯式給出出,也可以基于于隱含的用戶和項(xiàng)目關(guān)系推測(cè)得到。如果用用戶對(duì)某項(xiàng)目評(píng)評(píng)過(guò)分,其偏好好已經(jīng)從用戶--項(xiàng)目評(píng)分矩陣中反映出來(lái),,已評(píng)分項(xiàng)目就就不作為推薦給給用戶的候選對(duì)象象。因此,推薦薦系統(tǒng)工作時(shí)試圖預(yù)測(cè)用戶對(duì)對(duì)未評(píng)分項(xiàng)目的的偏好程度,由預(yù)測(cè)分值反映。。基于上述分析析,推薦系統(tǒng)
本質(zhì)是基于已有
有的用戶-項(xiàng)目評(píng)
:
(評(píng)分矩陣稱為訓(xùn).
訓(xùn)練集),尋找一
,
一個(gè)準(zhǔn)確的預(yù)測(cè)
測(cè)函數(shù)P:
1.1
,
,
其中,U 和I 分別表示用戶和和項(xiàng)目的集合,,任意待預(yù)測(cè)的的用戶項(xiàng)目對(duì)(uu,i)在訓(xùn)練集中的評(píng)分為空值值。一旦利用預(yù)預(yù)測(cè)函數(shù)P 對(duì)對(duì)用戶-項(xiàng)目評(píng)分分矩陣缺失值計(jì)計(jì)算出預(yù)測(cè)分值后,就很容易易產(chǎn)生推薦,即即將預(yù)測(cè)分值最最高的項(xiàng)目(或N 個(gè)分值最高的的項(xiàng)目集合)
這這一過(guò)程形式化化為
推薦給用戶,
,
1.2
aargmax
,
圖1.2 淘寶網(wǎng)網(wǎng)評(píng)分體系
第1 章引論·5·
集合U 和I 在實(shí)際中都非常大,用戶規(guī)模很容易達(dá)到百萬(wàn)級(jí),項(xiàng)目規(guī)模則更大,這導(dǎo)致超大規(guī)模的用戶-項(xiàng)目評(píng)分矩陣,因此,依靠遍歷評(píng)分矩陣整個(gè)空間設(shè)計(jì)預(yù)測(cè)函數(shù)P 在計(jì)算上不可行。圍繞計(jì)算預(yù)測(cè)值的效率問(wèn)題,推薦系統(tǒng)提出了大量各種各樣的模型和算法,如基于內(nèi)容的、協(xié)同過(guò)濾、混合型、基于矩陣分解的方法等。
推薦算法(recommendation algorithm) 決定了預(yù)測(cè)函數(shù)P 的設(shè)計(jì)和計(jì)算,是整個(gè)推薦系統(tǒng)最核心和關(guān)鍵的部分,在很大程度上決定了推薦系統(tǒng)的類型和性能優(yōu)劣。推薦算法也因此成為探討推薦系統(tǒng)的核心部分,本書后續(xù)章節(jié)正是圍繞主流推薦算法來(lái)介紹電子商務(wù)推薦系統(tǒng)。盡管推薦系統(tǒng)是一門交叉學(xué)科,與其聯(lián)系最緊密的是數(shù)據(jù)挖掘(data mining) ,數(shù)據(jù)挖掘是自動(dòng)地從大規(guī)模數(shù)據(jù)集中發(fā)現(xiàn)有用信息的過(guò)程,幾乎所有的推薦算法都可以被認(rèn)為是一種數(shù)據(jù)挖掘技術(shù)[13] 。數(shù)據(jù)挖掘過(guò)程大致可分為三個(gè)階段:數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析以及結(jié)果解析,圖1.3 描述了這三個(gè)階段中與推薦算法密切相關(guān)的數(shù)據(jù)挖掘方法。在數(shù)據(jù)預(yù)處理階段,距離計(jì)算、抽樣、維度約簡(jiǎn)等技術(shù)經(jīng)常被用于協(xié)同過(guò)濾算法。在數(shù)據(jù)分析階段,分類技術(shù)經(jīng)常被用于基于內(nèi)容的推薦算法,關(guān)聯(lián)規(guī)則挖掘形成了一種單獨(dú)的推薦算法,聚類可用于具有相似興趣的用戶群組發(fā)現(xiàn)及具有相似屬性的商品群組發(fā)現(xiàn)。
圖1.3 推薦系統(tǒng)中經(jīng)常使用的數(shù)據(jù)挖掘技術(shù)(圖片來(lái)源:文獻(xiàn)[13])
1.2 推薦系統(tǒng)研究概覽
1.2.1 挑戰(zhàn)性問(wèn)題
推薦系統(tǒng)的研究是圍繞其面臨的挑戰(zhàn)性問(wèn)題而展開(kāi)的,因此,首先應(yīng)在清楚了
·6·電子商務(wù)推薦系統(tǒng)導(dǎo)論
解挑戰(zhàn)性問(wèn)題的基礎(chǔ)上,來(lái)進(jìn)一步闡釋已有的推薦系統(tǒng)研究工作。本書后續(xù)章節(jié)將圍繞針對(duì)推薦系統(tǒng)所面臨的挑戰(zhàn)性問(wèn)題的研究工作而展開(kāi)論述,試圖為推薦系統(tǒng)這一活躍的研究領(lǐng)域勾勒出較為全面、清晰的概貌。
1. 推薦算法的準(zhǔn)確度和可擴(kuò)展性
推薦算法一直是推薦系統(tǒng)研究中最核心的問(wèn)題,關(guān)注焦點(diǎn)包括準(zhǔn)確度和可擴(kuò)展性兩個(gè)方面。準(zhǔn)確度是衡量算法的有效性(effectiveness) ,可擴(kuò)展性是衡量算法的效率(efficiency) 。目前,如何設(shè)計(jì)效率快且準(zhǔn)確度高的算法仍然是一個(gè)開(kāi)放性話題,百家爭(zhēng)鳴,各種各樣的推薦算法被提出。導(dǎo)致這一挑戰(zhàn)的根本原因在于數(shù)據(jù)呈現(xiàn)高度稀疏性,即用戶和項(xiàng)目規(guī)模通常達(dá)到百萬(wàn)級(jí),甚至千萬(wàn)級(jí),而已知的評(píng)分?jǐn)?shù)據(jù)又比較稀少,基于如此稀疏的數(shù)據(jù),設(shè)計(jì)兼顧有效性和效率的算法卻是一大挑戰(zhàn)。目前已有的研究大多沿著兩種思路來(lái)設(shè)計(jì)推薦算法:一種是以稀疏的用戶-項(xiàng)目評(píng)分矩陣為輸入數(shù)據(jù),依托數(shù)據(jù)挖掘技術(shù),提出新的模型和算法,包括協(xié)同過(guò)濾及其各種變例、基于內(nèi)容的推薦、基于維度約簡(jiǎn)的各類模型以及基于關(guān)聯(lián)規(guī)則挖掘的推薦等,將在第2 章介紹這些算法;另一種是在用戶-項(xiàng)目評(píng)分矩陣的基礎(chǔ)上,融入更多的額外數(shù)據(jù)以緩解稀疏性。將在第3 章討論的情境推薦模型與算法中考慮推薦的上下文信息,可能包括用戶購(gòu)買意圖、季節(jié)、節(jié)日、位置、同伴、天氣等因素。將在第4 章討論的社會(huì)化推薦模型與算法中則考慮用戶的社會(huì)關(guān)系信息,將推薦系統(tǒng)與社會(huì)網(wǎng)絡(luò)結(jié)合到一起。
從算法采用的模型來(lái)看,無(wú)論是單一的評(píng)