互聯(lián)網(wǎng)大廠推薦算法實戰(zhàn)
定 價:89.8 元
- 作者:趙傳霖
- 出版時間:2024/1/1
- ISBN:9787115628688
- 出 版 社:人民郵電出版社
- 中圖法分類:O212.4
- 頁碼:298
- 紙張:
- 版次:01
- 開本:16開
《互聯(lián)網(wǎng)大廠推薦算法實戰(zhàn)》介紹了互聯(lián)網(wǎng)大廠當(dāng)前采用的一些前沿推薦算法,并梳理了這些算法背后的思想脈絡(luò)與技術(shù)框架。
《互聯(lián)網(wǎng)大廠推薦算法實戰(zhàn)》總計10章,內(nèi)容涵蓋了推薦系統(tǒng)的基礎(chǔ)知識、推薦系統(tǒng)中的特征工程、推薦系統(tǒng)中的Embedding、推薦系統(tǒng)的各組成模塊(包括召回、粗排、精排與重排)所使用的算法技術(shù)、推薦算法實踐中經(jīng)常會遇到的難題以及應(yīng)對之道(其中涉及多任務(wù)推薦、多場景推薦、新用戶冷啟動、新物料冷啟動、評估模型效果、定位并解決問題等),最后還用一章的篇幅介紹了推薦算法工程師在工作、學(xué)習(xí)、面試時應(yīng)該采取的做法。
《互聯(lián)網(wǎng)大廠推薦算法實戰(zhàn)》既適合推薦系統(tǒng)、計算廣告、個性化搜索領(lǐng)域的從業(yè)人員閱讀,也適合希望從事互聯(lián)網(wǎng)算法工作的在校學(xué)生閱讀。
1.作者趙傳霖博士具有深厚的學(xué)術(shù)背景和豐富的實踐經(jīng)驗,是知識平臺上的優(yōu)秀答主,并在互聯(lián)網(wǎng)算法領(lǐng)域有著10余年的從業(yè)經(jīng)驗。他的經(jīng)驗和專業(yè)知識將為讀者提供寶貴的指導(dǎo)和見解。
2.內(nèi)容涵蓋了推薦系統(tǒng)的基礎(chǔ)知識和前沿技術(shù)。不僅介紹了推薦系統(tǒng)的基礎(chǔ)知識、特征工程等核心概念,還涵蓋了推薦系統(tǒng)的各個組成模塊所使用的算法技術(shù),幫助讀者全面了解推薦系統(tǒng)的各個方面。
3.介紹推薦算法的基本原理和框架,還提供了解決實際問題的實用指南。讀者將學(xué)習(xí)到如何應(yīng)對多任務(wù)推薦、多場景推薦、新用戶冷啟動等常見難題,并了解如何評估模型效果和定位問題。
4.無論是在職人員還是學(xué)生,都可以通過閱讀本書來深入了解互聯(lián)網(wǎng)大廠的前沿推薦算法和技術(shù),提升自己的專業(yè)能力和競爭力。
趙傳霖,博士,畢業(yè)于清華大學(xué)電氣工程專業(yè),知乎“機(jī)器學(xué)習(xí)”話題優(yōu)秀答主,目前在北京快手科技有限公司擔(dān)任算法專家,擁有10余年的互聯(lián)網(wǎng)算法從業(yè)經(jīng)驗,主要研究方向為推薦系統(tǒng)、計算廣告、個性化搜索。分別以知識平臺的“石塔西”賬號和“石塔西的說書館”自媒體號發(fā)表了多篇以推薦算法為主題的原創(chuàng)性文章,深受廣大讀者的好評,并曾經(jīng)4次獲得知乎創(chuàng)作排行榜“知勢榜?影響力榜”(科技互聯(lián)網(wǎng)領(lǐng)域)第1名。
第 1章 推薦系統(tǒng)簡介 1
1.1 推薦系統(tǒng)的意義 2
1.2 推薦系統(tǒng)是如何運行的 3
1.3 推薦系統(tǒng)架構(gòu) 5
1.3.1 功能架構(gòu) 5
1.3.2 數(shù)據(jù)架構(gòu) 8
1.4 推廣搜的區(qū)別與聯(lián)系 10
1.4.1 三駕馬車的相同點 10
1.4.2 推薦與搜索 11
1.4.3 推搜與廣告 12
1.5 小結(jié) 12
第 2章 推薦系統(tǒng)中的特征工程 14
2.1 批判“特征工程過時”的錯誤論調(diào) 15
2.2 特征提取 16
2.2.1 物料畫像 16
2.2.2 用戶畫像 18
2.2.3 交叉特征 21
2.2.4 偏差特征 22
2.3 數(shù)值特征的處理 25
2.3.1 處理缺失值 25
2.3.2 標(biāo)準(zhǔn)化 25
2.3.3 數(shù)據(jù)平滑與消偏 26
2.3.4 分桶離散化 27
2.4 類別特征的處理 28
2.4.1 類別特征更受歡迎 28
2.4.2 類別特征享受VIP服務(wù) 29
2.4.3 映射 30
2.4.4 特征哈希 31
2.5 小結(jié) 32
第3章 推薦系統(tǒng)中的Embedding 33
3.1 無中生有:推薦算法中的Embedding 33
3.1.1 傳統(tǒng)推薦算法:博聞強(qiáng)識 33
3.1.2 推薦算法的剛需:擴(kuò)展性 35
3.1.3 深度學(xué)習(xí)的核心思想:無中生有的Embedding 36
3.1.4 Embedding的實現(xiàn)細(xì)節(jié) 37
3.2 共享Embedding還是獨占Embedding 42
3.2.1 共享Embedding 42
3.2.2 獨占Embedding 43
3.3 Parameter Server:推薦算法的訓(xùn)練加速器 46
3.3.1 傳統(tǒng)分布式計算的不足 46
3.3.2 基于PS的分布式訓(xùn)練范式 47
3.3.3 PS中的并行策略 49
3.3.4 基于ps-lite實現(xiàn)分布式算法 51
3.3.5 更先進(jìn)的PS 57
3.4 小結(jié) 60
第4章 精排 61
4.1 推薦算法的5個維度 61
4.2 交叉結(jié)構(gòu) 62
4.2.1 FTRL:傳統(tǒng)時代的記憶大師 62
4.2.2 FM:半只腳邁入DNN的門檻 69
4.2.3 Wide & Deep:兼顧記憶與擴(kuò)展 71
4.2.4 DeepFM:融合二階交叉 74
4.2.5 DCN:不再執(zhí)著于DNN 76
4.2.6 AutoInt:變形金剛做交叉 79
4.3 用戶行為序列建模 86
4.3.1 行為序列信息的構(gòu)成 86
4.3.2 簡單Pooling 86
4.3.3 用戶建模要“千物千面” 87
4.3.4 建模序列內(nèi)的依賴關(guān)系 89
4.3.5 多多益善:建模長序列 91
4.4 小結(jié) 96
第5章 召回 97
5.1 傳統(tǒng)召回算法 97
5.1.1 基于物料屬性的倒排索引 98
5.1.2 基于統(tǒng)計的協(xié)同過濾算法 99
5.1.3 矩陣分解算法 99
5.1.4 如何合并多路召回 100
5.2 向量化召回統(tǒng)一建?蚣 101
5.2.1 如何定義正樣本 102
5.2.2 重點關(guān)注負(fù)樣本 103
5.2.3 解耦生成Embedding 105
5.2.4 如何定義優(yōu)化目標(biāo) 106
5.3 借助Word2Vec 111
5.3.1 最簡單的Item2Vec 112
5.3.2 Airbnb召回算法 116
5.3.3 阿里巴巴的EGES召回 118
5.4 “瑞士軍刀”FM的召回功能 120
5.4.1 打壓熱門物料 121
5.4.2 增廣Embedding 122
5.5 大廠主力:雙塔模型 124
5.5.1 不同場景下的正樣本 124
5.5.2 簡化負(fù)采樣 124
5.5.3 雙塔結(jié)構(gòu)特點 126
5.5.4 Sampled Softmax Loss的技巧 127
5.5.5 雙塔模型實現(xiàn)舉例 129
5.6 鄰里互助:GCN召回 131
5.6.1 GCN基礎(chǔ) 131
5.6.2 PinSage:大規(guī)模圖卷積的經(jīng)典案例 134
5.6.3 異構(gòu)圖上的GCN 142
5.7 小結(jié) 143
第6章 粗排與重排 145
6.1 粗排 146
6.1.1 模型:雙塔仍然是主力 146
6.1.2 目標(biāo):拜精排為師 154
6.1.3 數(shù)據(jù):糾正曝光偏差 158
6.1.4 模型:輕量級全連接 159
6.2 重排 161
6.2.1 基于啟發(fā)式規(guī)則 162
6.2.2 基于行列式點過程 165
6.2.3 基于上下文感知的排序?qū)W習(xí) 174
6.3 小結(jié) 180
第7章 多任務(wù)與多場景 181
7.1 多任務(wù)推薦 181
7.1.1 多任務(wù)建模的誤區(qū) 182
7.1.2 并發(fā)建模 182
7.1.3 串行建模 193
7.1.4 多個損失的融合 202
7.1.5 多個打分的融合 206
7.2 多場景推薦 209
7.2.1 特征位置 210
7.2.2 模型結(jié)構(gòu) 211
7.2.3 模型參數(shù) 215
7.3 小結(jié) 217
第8章 冷啟動 219
8.1 Bandit算法 219
8.1.1 多臂老虎機(jī)問題 220
8.1.2 Epsilon Greedy 221
8.1.3 UCB 222
8.1.4 概率匹配 223
8.1.5 Bayesian Bandit 223
8.1.6 上下文Bandit 225
8.2 元學(xué)習(xí) 228
8.2.1 什么是元學(xué)習(xí) 228
8.2.2 什么是MAML 230
8.2.3 MAML針對推薦場景的改造 233
8.2.4 Meta-Embedding 236
8.3 對比學(xué)習(xí) 242
8.3.1 對比學(xué)習(xí)簡介 242
8.3.2 對比學(xué)習(xí)在推薦系統(tǒng)中的作用與使用方式 244
8.3.3 辨析對比學(xué)習(xí)與向量化召回 246
8.3.4 糾偏長尾物料的實踐 247
8.3.5 糾偏小眾用戶的實踐 249
8.4 其他算法 251
8.4.1 遷移學(xué)習(xí) 251
8.4.2 預(yù)測物料消費指標(biāo) 252
8.4.3 以群體代替?zhèn)體 253
8.4.4 借鑒多場景推薦 254
8.5 小結(jié) 255
第9章 評估與調(diào)試 256
9.1 離線評估 256
9.1.1 評估排序算法 257
9.1.2 評估召回算法 261
9.1.3 人工評測 266
9.1.4 持續(xù)評估 267
9.2 在線評估:A/B實驗 267
9.2.1 線上:流量劃分 268
9.2.2 線下:統(tǒng)計分析 273
9.3 打開模型的黑盒 276
9.3.1 外部觀察 276
9.3.2 內(nèi)部剖析 277
9.4 線下漲了,線上沒效果 280
9.4.1 特征穿越 280
9.4.2 老湯模型 282
9.4.3 冰山:系統(tǒng)的內(nèi)在缺陷 284
9.4.4 鏈路一致性問題 285
9.5 小結(jié) 286
第 10章 推薦算法工程師的自我修養(yǎng) 287
10.1 工作 287
10.1.1 重視代碼的規(guī)范性 287
10.1.2 重視離線評測 288
10.1.3 重視使用工具 289
10.2 學(xué)習(xí) 290
10.2.1 堅持問題導(dǎo)向 290
10.2.2 重在舉一反三 291
10.2.3 敢于懷疑 292
10.2.4 落實代碼細(xì)節(jié) 293
10.3 面試 293
10.3.1 社招 294
10.3.2 校招 296
10.4 小結(jié) 297