第1章 推薦係統的時代背景 1
1.1 為什麼需要推薦係統 1
1.1.1 提高流量利用效率 1
1.1.2 挖掘和匹配長尾需求 6
1.1.3 提升用戶體驗 7
1.1.4 技術積纍 8
1.2 推薦的産品問題 10
1.2.1 推薦什麼東西 10
1.2.2 為誰推薦 13
1.2.3 推薦場景 14
1.2.4 推薦解釋 16
1.3 總結 18
第2章 推薦係統的核心技術概述 19
2.1 核心邏輯拆解 19
2.2 整體流程概述 20
2.3 召迴算法 21
2.4 基於行為的召迴算法 24
2.5 用戶畫像和物品畫像 24
2.6 結果排序 26
2.7 評價指標 26
2.8 係統監控 27
2.9 架構設計 28
2.10 發展曆程 28
2.11 總結 30
第3章 基礎推薦算法 31
3.1 推薦邏輯流程架構 31
3.2 召迴算法的基本邏輯 34
3.3 常用的基礎召迴算法 36
3.3.1 用戶與物品的相關性 36
3.3.2 物品與物品的相關性 42
3.3.3 用戶與用戶的相關性 46
3.3.4 用戶與標簽的相關性 47
3.3.5 標簽與物品的相關性 48
3.3.6 相關性召迴的鏈式組閤 50
3.4 冷啓動場景下的推薦 51
3.5 總結 53
第4章 算法融閤與數據血統 54
4.1 綫性加權融閤 55
4.2 優先級融閤 57
4.3 基於機器學習的排序融閤 59
4.4 融閤策略的選擇 61
4.5 融閤時機的選擇 63
4.6 數據血統 64
4.6.1 融閤策略正確性驗證 65
4.6.2 係統效果監控 65
4.6.3 策略效果分析 67
4.7 總結 68
第5章 機器學習技術的應用 69
5.1 機器學習技術概述 69
5.2 推薦係統中的應用場景 70
5.3 機器學習技術的實施方法 72
5.3.1 老係統與數據準備 72
5.3.2 問題分析與目標定義 74
5.3.3 樣本處理 76
5.3.4 特徵處理 80
5.3.5 模型選擇與訓練 98
5.3.6 模型效果評估 101
5.3.7 預測階段效果監控 104
5.3.8 模型訓練係統架構設計 105
5.3.9 模型預測係統架構設計 108
5.4 常用模型介紹 109
5.4.1 邏輯迴歸模型 109
5.4.2 GBDT模型 111
5.4.3 LR+GDBT模型 112
5.4.4 因子分解機模型 113
5.4.5 Wide & Deep模型 115
5.4.6 其他深度學習模型 116
5.5 機器學習實踐常見問題 117
5.5.1 反模式1:隻見模型,不見係統 117
5.5.2 反模式2:忽視模型過程和細節 117
5.5.3 反模式3:不注重樣本精細化處理 118
5.5.4 反模式4:過於依賴算法 119
5.5.5 反模式5:核心數據缺乏控製 120
5.5.6 反模式6:團隊不夠“全棧” 121
5.5.7 反模式7:係統邊界模糊導緻齣現“巨型係統” 121
5.5.8 反模式8:不重視基礎數據架構建設 122
5.6 總結 123
第6章 用戶畫像係統 124
6.1 用戶畫像的概念和作用 124
6.2 用戶畫像的價值準則 126
6.3 用戶畫像的構成要素 128
6.3.1 物品側畫像 129
6.3.2 用戶側畫像 133
6.3.3 用戶畫像擴展 139
6.3.4 用戶畫像和排序特徵的關係 142
6.4 用戶畫像係統的架構演進 143
6.4.1 用戶畫像係統的組成部分 143
6.4.2 野蠻生長期 144
6.4.3 統一用戶畫像係統架構 145
6.5 總結 147
第7章 係統效果評測與監控 148
7.1 評測與監控的概念和意義 148
7.2 推薦係統的評測指標係統 150
7.3 常用指標 151
7.4 離綫效果評測方法 158
7.5 在綫效果評測方法 163
7.5.1 AB實驗 163
7.5.2 交叉實驗 173
7.6 係統監控 178
7.7 總結 181
第8章 推薦效果優化 182
8.1 準確率優化的一般性思路 183
8.2 覆蓋率優化的一般性思路 185
8.3 行為類相關性算法優化 188
8.3.1 熱度懲罰 188
8.3.2 時效性優化 190
8.3.3 隨機遊走 194
8.3.4 嵌入錶示 196
8.4 內容類相關性算法優化 200
8.4.1 非結構化算法 201
8.4.2 結構化算法 201
8.5 影響效果的非算法因素 205
8.5.1 用戶因素 205
8.5.2 産品設計因素 206
8.5.3 數據因素 208
8.5.4 算法策略因素 208
8.5.5 工程架構因素 209
8.6 總結 210
第9章 自然語言處理技術的應用 211
9.1 詞袋模型 212
9.2 權重計算和嚮量空間模型 214
9.3 隱語義模型 216
9.4 概率隱語義模型 218
9.5 生成式概率模型 220
9.6 LDA模型的應用 222
9.6.1 相似度計算 222
9.6.2 排序特徵 222
9.6.3 物品打標簽&用戶打標簽 223
9.6.4 主題&詞的重要性度量 223
9.6.5 更多應用 224
9.7 神經概率語言模型 224
9.8 行業應用現狀 226
9.9 總結和展望 227
第10章 探索與利用問題 228
10.1 多臂老虎機問題 228
10.2 推薦係統中的EE問題 230
10.3 解決方案 231
10.3.1 -Greedy算法 231
10.3.2 UCB 234
10.3.3 湯普森采樣 236
10.3.4 LinUCB 237
10.4 探索與利用原理在機器學習係統中的應用 239
10.5 EE問題的本質和影響 240
10.6 總結 241
第11章 推薦係統架構設計 242
11.1 架構設計概述 242
11.2 係統邊界和外部依賴 244
11.3 離綫層、在綫層和近綫層架構 246
11.4 離綫層架構 247
11.5 近綫層架構 249
11.6 在綫層架構 252
11.7 架構層級對比 255
11.8 係統和架構演進原則 256
11.8.1 從簡單到復雜 256
11.8.2 從離綫到在綫 258
11.8.3 從統一到拆分 258
11.9 基於領域特定語言的架構設計 259
11.10 總結 262
第12章 推薦係統工程師成長路綫 263
12.1 基礎開發能力 264
12.1.1 單元測試 264
12.1.2 邏輯抽象復用 264
12.2 概率和統計基礎 265
12.3 機器學習理論 266
12.3.1 基礎理論 267
12.3.2 監督學習 268
12.3.3 無監督學習 269
12.4 開發語言和開發工具 270
12.4.1 開發語言 270
12.4.2 開發工具 270
12.5 算法優化流程 271
12.6 推薦業務技能 273
12.7 總結 274
第13章 推薦係統的挑戰 275
13.1 數據稀疏性 275
13.2 推薦結果解釋 277
13.3 相關性和因果性 281
13.4 信息繭房 283
13.5 轉化率預估偏差問題 286
13.6 召迴模型的局限性問題 288
13.7 用戶行為捕捉粒度問題 290
13.8 總結 291
· · · · · · (
收起)