為了解決信息過載問題, 最常用的兩種技術(shù)是推薦引擎和搜索引擎。搜索引擎傾向于明確的搜索目標(biāo), 可以將信息的查詢轉(zhuǎn)換為精確的關(guān)鍵字搜索, 搜索后返回給用戶搜索列表, 用戶可以對(duì)這些返回結(jié)果進(jìn)行反饋, 用戶具有主動(dòng)意識(shí)。推薦引擎傾向于沒有明確目標(biāo), 或者目標(biāo)模糊, 推薦系統(tǒng)通過用戶的歷史行為或者用戶的興趣偏好或者用戶的人口統(tǒng)計(jì)學(xué)特征進(jìn)行推薦, 生成用戶可能感興趣的項(xiàng)目列表, 用戶比較被動(dòng)。本書基于作者團(tuán)隊(duì)多年的研究成果, 介紹了推薦和檢索領(lǐng)域的最新發(fā)展、常用的技術(shù)和算法、以及作者團(tuán)隊(duì)所提出的融合多源異構(gòu)數(shù)據(jù)的推薦模型、跨模態(tài)的檢索模型, 相關(guān)工作已在國內(nèi)外權(quán)威期刊上發(fā)表, 本書的內(nèi)容反映了本領(lǐng)域的最新發(fā)展。
**章緒論
第2章**與檢索技術(shù)
第3章個(gè)*化**與檢索
第4章基于傳統(tǒng)機(jī)器學(xué)習(xí)的多源異構(gòu)數(shù)據(jù)**模型
第5章基于深度學(xué)習(xí)的融合多源異構(gòu)數(shù)據(jù)**
第6章 基于深度哈希圖像·文本跨模態(tài)檢索
第7章基于多模態(tài)數(shù)據(jù)的餐館**系統(tǒng)的實(shí)現(xiàn)
第8章 總結(jié)與展望
參考文獻(xiàn)
本章介紹了解決信息過載問題常用的**與檢索技術(shù),描述了融合多源異構(gòu)數(shù)據(jù)的**與檢索所具有的優(yōu)勢(shì)和面臨的挑戰(zhàn)。
1.1**與檢索
近年來,隨著云計(jì)算、人工智能、計(jì)算機(jī)**、多媒體、物聯(lián)網(wǎng)等信息技術(shù)在全球的飛**展,互聯(lián)網(wǎng)時(shí)代已正式到來;ヂ(lián)網(wǎng)時(shí)代的到來,既為傳統(tǒng)行業(yè)帶來了挑戰(zhàn),又催生了新興產(chǎn)業(yè),為新興經(jīng)濟(jì)的發(fā)展帶來了機(jī)遇;ヂ(lián)網(wǎng)已經(jīng)與人們的生活息息相關(guān),人們通過網(wǎng)絡(luò)可以進(jìn)行新聞閱讀、網(wǎng)上購物、移動(dòng)支付、在線教育等活動(dòng)。一方面,人們享受著互聯(lián)網(wǎng)帶來的便利,能夠便捷地從網(wǎng)絡(luò)中獲取豐富的信息;另一方面,大數(shù)據(jù)也帶來了信息過載的問題。如何高效快速地為用戶提供其真正需要的信息,如何從大量數(shù)據(jù)中挖掘出真正有價(jià)值的內(nèi)容,是互聯(lián)網(wǎng)發(fā)展過程中面臨的重要挑戰(zhàn)。
解決信息過載問題*常用的兩種技術(shù)是:主動(dòng)為用戶**其感興趣的內(nèi)容的**引擎;用戶搜索信息時(shí)為其提供更精準(zhǔn)的搜索結(jié)果的搜索引擎。**引擎傾向于沒有明確目標(biāo)或目標(biāo)模糊,通過用戶的歷史行為、用戶的興趣偏好或用戶的人口統(tǒng)計(jì)學(xué)特征進(jìn)行**,生成用戶可能感興趣的項(xiàng)目列表,用戶比較被動(dòng)。搜索引擎傾向于明確的搜索目標(biāo),可以將對(duì)信息的查詢轉(zhuǎn)換為**的關(guān)鍵字,搜索后返回給用戶搜索列表,用戶可以對(duì)這些返回結(jié)果進(jìn)行反饋,用戶具有主動(dòng)*。
1.1.1**
迄今為止,**系統(tǒng)已經(jīng)發(fā)展了20多年。在應(yīng)用領(lǐng)域方面,**系統(tǒng)不僅被應(yīng)用在**商務(wù)平臺(tái)(***、****)為用戶**物品,還被應(yīng)用在了信息檢索(Coogle、百度、Yahoo)、社交媒體(Twitter、微博)、音樂電臺(tái)(網(wǎng)易云音樂、Apple Music)、視頻**等各種領(lǐng)域。在數(shù)據(jù)種類方面,隨著移動(dòng)設(shè)備和可穿戴設(shè)備的發(fā)展,網(wǎng)絡(luò)中能夠收集到的信息種類逐漸增多,除了數(shù)字信息外還可以收集到文本、圖像、社交關(guān)系、聲音、視頻等各種異構(gòu)數(shù)據(jù)。在評(píng)價(jià)指標(biāo)方面,除了準(zhǔn)確度和召回率,歸一化折損累計(jì)增益、覆蓋率等也常用來評(píng)估**結(jié)果的好壞。
盡管**算法隨著應(yīng)用場(chǎng)景的變換而不同,但提高準(zhǔn)確率是所有**算法追求的目標(biāo);趦(nèi)容的**、協(xié)同過濾**、混合**是傳統(tǒng)**算法中*主要的三類。其中,基于內(nèi)容的**算法的關(guān)鍵是獲取用戶的興趣偏好,在獲得用戶偏好后,此類算法為用戶**與其偏好類似的物品。在協(xié)同過濾中,認(rèn)為兩個(gè)相似的用戶對(duì)同一物品的打分是相近的,同一個(gè)用戶對(duì)兩個(gè)類似物品的打分也是相近的;旌**算法則是將不同**算法按照一定的策略融合,可以分為算法層面的融合和數(shù)據(jù)源層面的融合。傳統(tǒng)的**算法大多存在**精度不高、特征提取困難等問題,為了解決這些問題,專家學(xué)者在**系統(tǒng)中引入了深度學(xué)習(xí)技術(shù)。盡管深度學(xué)習(xí)的引入能夠提高**結(jié)果的準(zhǔn)確*,但它也帶來了計(jì)算復(fù)雜度增大、**結(jié)果可解釋*差的問題。大多數(shù)**算法僅使用評(píng)分?jǐn)?shù)據(jù)來為用戶提供**,并沒有充分利用互聯(lián)網(wǎng)中收集到的各種如評(píng)論數(shù)據(jù)、社交網(wǎng)絡(luò)信息等異構(gòu)數(shù)據(jù)。