97人妻人人做人碰人人爽一,窝窝午夜看片成人精品,原创露脸自拍62p

本書是算法競賽領(lǐng)域一本系統(tǒng)介紹競賽的圖書，書中不僅包含競賽的基本理論知識，還結(jié)合多個方向和案例詳細闡述了競賽中的上分思路和技巧。全書分為五部分：第一部分以算法競賽的通用流程為主，介紹競賽中各個部分的核心內(nèi)容和具體工作；第二部分介紹了用戶畫像相關(guān)的問題；第三部分以時間序列預(yù)測問題為主，先講述這類問題的常見解題思路和技巧，然后分析天池平臺的全球城市計算AI 挑戰(zhàn)賽和 Kaggle 平臺的Corporación Favorita Grocery Sales Forecasting；第四部分主要介紹計算廣告的核心技術(shù)和業(yè)務(wù)，包括廣告召回、廣告排序和廣告競價，其中兩個實戰(zhàn)案例是2018 騰訊廣告算法大賽——相似人群拓展和Kaggle 平臺的TalkingData AdTracking Fraud Detection Challenge；第五部分基于自然語言處理相關(guān)的內(nèi)容進行講解，其中實戰(zhàn)案例是Kaggle 平臺上的經(jīng)典競賽Quora Question Pairs。本書適合從事機器學(xué)習(xí)、數(shù)據(jù)挖掘和人工智能相關(guān)算法崗位的人閱讀。

目　　錄第 1 章　初見競賽 1 1.1　競賽平臺 2 1.1.1　Kaggle 2 1.1.2　天池 6 1.1.3　DF 7 1.1.4　DC 7 1.1.5　Kesci 7 1.1.6　JDATA 8 1.1.7　企業(yè)網(wǎng)站 8 1.2　競賽流程 8 1.2.1　問題建模 8 1.2.2　數(shù)據(jù)探索 9 1.2.3　特征工程 9 1.2.4　模型訓(xùn)練 9 1.2.5　模型融合 10 1.3　競賽類型 10 1.3.1　數(shù)據(jù)類型 10 1.3.2　任務(wù)類型 11 1.3.3　應(yīng)用場景 11 1.4　思考練習(xí) 11 第 2 章　問題建模 12 2.1　賽題理解 12 2.1.1　業(yè)務(wù)背景 12 2.1.2　數(shù)據(jù)理解　 14 2.1.3　評價指標(biāo) 14 2.2　樣本選擇 20 2.2.1　主要原因 20 2.2.2　準(zhǔn)確方法 22 2.2.3　應(yīng)用場景 23 2.3　線下評估策略 24 2.3.1　強時序性問題 24 2.3.2　弱時序性問題 24 2.4　實戰(zhàn)案例 25 2.4.1　賽題理解 26 2.4.2　線下驗證 27 2.5　思考練習(xí) 28 第3 章　數(shù)據(jù)探索 29 3.1　數(shù)據(jù)初探 29 3.1.1　分析思路 29 3.1.2　分析方法 30 3.1.3　明確目的 30 3.2　變量分析 32 3.2.1　單變量分析 33 3.2.2　多變量分析 37 3.3　模型分析 39 3.3.1　學(xué)習(xí)曲線 39 3.3.2　特征重要性分析 40 3.3.3　誤差分析 41 3.4　思考練習(xí) 42 第4 章　特征工程 43 4.1　數(shù)據(jù)預(yù)處理 43 4.1.1　缺失值處理 44 4.1.2　異常值處理 45 4.1.3　優(yōu)化內(nèi)存 46 4.2　特征變換 47 4.2.1　連續(xù)變量無量綱化 47 4.2.2　連續(xù)變量數(shù)據(jù)變換 48 4.2.3　類別特征轉(zhuǎn)換 50 4.2.4　不規(guī)則特征變換 50 4.3　特征提取 51 4.3.1　類別相關(guān)的統(tǒng)計特征 51 4.3.2　數(shù)值相關(guān)的統(tǒng)計特征 53 4.3.3　時間特征 53 4.3.4　多值特征 54 4.3.5　小結(jié) 55 4.4　特征選擇 55 4.4.1　特征關(guān)聯(lián)性分析 55 4.4.2　特征重要性分析 57 4.4.3　封裝方法 57 4.4.4　小結(jié) 58 4.5　實戰(zhàn)案例 59 4.5.1　數(shù)據(jù)預(yù)處理　 59 4.5.2　特征提取 60 4.5.3　特征選擇 61 4.6　練習(xí) 62 第5 章　模型選擇 63 5.1　線性模型 63 5.1.1　Lasso 回歸 63 5.1.2　Ridge 回歸 64 5.2　樹模型 64 5.2.1　隨機森林 65 5.2.2　梯度提升樹 66 5.2.3　XGBoost 67 5.2.4　LightGBM 68 5.2.5　CatBoost 69 5.2.6　模型深入對比 70 5.3　神經(jīng)網(wǎng)絡(luò) 73 5.3.1　多層感知機 74 5.3.2　卷積神經(jīng)網(wǎng)絡(luò) 75 5.3.3　循環(huán)神經(jīng)網(wǎng)絡(luò) 77 5.4　實戰(zhàn)案例 79 5.5　練習(xí) 80 第6 章　模型融合 81 6.1　構(gòu)建多樣性 81 6.1.1　特征多樣性 81 6.1.2　樣本多樣性 82 6.1.3　模型多樣性 82 6.2　訓(xùn)練過程融合 83 6.2.1　Bagging 83 6.2.2　Boosting 83 6.3　訓(xùn)練結(jié)果融合 84 6.3.1　加權(quán)法 84 6.3.2　Stacking 融合 86 6.3.3　Blending 融合 87 6.4　實戰(zhàn)案例 88 6.5　練習(xí) 90 第7 章　用戶畫像 91 7.1　什么是用戶畫像 92 7.2　標(biāo)簽系統(tǒng) 92 7.2.1　標(biāo)簽分類方式 92 7.2.2　多渠道獲取標(biāo)簽 93 7.2.3　標(biāo)簽體系框架 94 7.3　用戶畫像數(shù)據(jù)特征 95 7.3.1　常見的數(shù)據(jù)形式 95 7.3.2　文本挖掘算法 97 7.3.3　神奇的嵌入表示 98 7.3.4　相似度計算方法 101 7.4　用戶畫像的應(yīng)用　 103 7.4.1　用戶分析　 103 7.4.2　精準(zhǔn)營銷 104 7.4.3　風(fēng)控領(lǐng)域 105 7.5　思考練習(xí) 106 第8 章　實戰(zhàn)案例：Elo Merchant Category Recommendation（Kaggle） 107 8.1　賽題理解 107 8.1.1　賽題背景 107 8.1.2　賽題數(shù)據(jù) 108 8.1.3　賽題任務(wù) 108 8.1.4　評價指標(biāo) 109 8.1.5　賽題FAQ 109 8.2　探索性分析 109 8.2.1　字段類別含義 110 8.2.2　字段取值狀況 111 8.2.3　數(shù)據(jù)分布差異 112 8.2.4　表格關(guān)聯(lián)關(guān)系 115 8.2.5　數(shù)據(jù)預(yù)處理 115 8.3　特征工程 116 8.3.1　通用特征 116 8.3.2　業(yè)務(wù)特征 117 8.3.3　文本特征 118 8.3.4　特征選擇 119 8.4　模型訓(xùn)練 119 8.4.1　隨機森林 119 8.4.2　LightGBM 121 8.4.3　XGBoost 124 8.5　模型融合 127 8.5.1　加權(quán)融合 127 8.5.2　Stacking 融合 127 8.6　高效提分 128 8.6.1　特征優(yōu)化 128 8.6.2　融合技巧 130 8.7　賽題總結(jié) 134 8.7.1　更多方案 134 8.7.2　知識點梳理 135 8.7.3　延伸學(xué)習(xí) 135 第9 章　時間序列分析 138 9.1　介紹時間序列分析 138 9.1.1　簡單定義 138 9.1.2　常見問題 139 9.1.3　交叉驗證 140 9.1.4　基本規(guī)則方法 141 9.2　時間序列模式 142 9.2.1　趨勢性 142 9.2.2　周期性 143 9.2.3　相關(guān)性 144 9.2.4　隨機性 144 9.3　特征提取方式 144 9.3.1 歷史平移 145 9.3.2　窗口統(tǒng)計 145 9.3.3　序列熵特征 145 9.3.4　其他特征 146 9.4　模型的多樣性 146 9.4.1　傳統(tǒng)的時序模型 147 9.4.2　樹模型 147 9.4.3　深度學(xué)習(xí)模型 148 9.5　練習(xí) 150 第 10 章　實戰(zhàn)案例：全球城市計算AI挑戰(zhàn)賽 151 10.1　賽題理解 151 10.1.1　背景介紹 152 10.1.2　賽題數(shù)據(jù) 152 10.1.3　評價指標(biāo) 153 10.1.4　賽題FAQ 153 10.1.5　baseline 方案 153 10.2　探索性數(shù)據(jù)分析 157 10.2.1　數(shù)據(jù)初探 157 10.2.2　模式分析 159 10.3　特征工程 162 10.3.1　數(shù)據(jù)預(yù)處理 162 10.3.2　強相關(guān)性特征 163 10.3.3　趨勢性特征 165 10.3.4　站點相關(guān)特征 165 10.3.5　特征強化 166 10.4　模型選擇 166 10.4.1　LightGBM 模型 167 10.4.2　時序模型 168 10.5　強化學(xué)習(xí) 170 10.5.1　時序stacking 170 10.5.2　Top 方案解析 171 10.5.3　相關(guān)賽題推薦　 172 第 11 章　實戰(zhàn)案例-Corporación Favorita Grocery Sales Forecasting 174 11.1　賽題理解 174 11.1.1　背景介紹 174 11.1.2　賽題數(shù)據(jù) 175 11.1.3　評價指標(biāo) 175 11.1.4　賽題FAQ 176 11.1.5　baseline 方案 176 11.2　探索性數(shù)據(jù)分析 181 11.2.1 數(shù)據(jù)初探 181 11.2.2　單變量分析 184 11.2.3　多變量分析 188 11.3　特征工程 190 11.3.1　歷史平移特征 191 11.3.2　窗口統(tǒng)計特征 192 11.3.3　構(gòu)造粒度多樣性 193 11.3.4　高效特征選擇 194 11.4　模型選擇 195 11.4.1　LightGBM 模型 196 11.4.2　LSTM 模型 196 11.4.3　Wavenet 模型 198 11.4.4　模型融合 199 11.5　賽題總結(jié) 200 11.5.1　更多方案 200 11.5.2　知識點梳理 201 11.5.2　延伸學(xué)習(xí) 202 第 12 章　計算廣告 204 12.1　什么是計算廣告 204 12.1.1　主要問題 205 12.1.2　計算廣告系統(tǒng)架構(gòu) 205 12.2　廣告類型 207 12.2.1　合約廣告 207 12.2.2　競價廣告 207 12.2.3　程序化交易廣告 208 12.3　廣告召回 208 12.3.1　廣告召回模塊 208 12.3.2　DSSM 語義召回 210 12.4　廣告排序 211 12.4.1　點擊率預(yù)估 211 12.4.2　特征處理 212 12.4.3　常見模型 214 12.5　廣告競價 219 12.6　小結(jié) 221 12.7　思考練習(xí) 221 第 13 章　實戰(zhàn)案例：2018 騰訊廣告算法大賽——相似人群拓展 222 13.1　賽題理解 222 13.1.1　賽題背景 223 13.1.2　賽題數(shù)據(jù) 224 13.1.3　賽題任務(wù) 226 13.1.4　評價指標(biāo) 226 13.1.5　賽題FAQ 227 13.2　探索性數(shù)據(jù)分析 227 13.2.1　競賽的公開數(shù)據(jù)集 227 13.2.2　訓(xùn)練集與測試集 227 13.2.3　廣告屬性 229 13.2.4　用戶信息 229 13.2.5　數(shù)據(jù)集特征拼接 230 13.2.6　基本建模思路 232 13.3　特征工程 232 13.3.1　經(jīng)典特征 232 13.3.2　業(yè)務(wù)特征 234 13.3.3　文本特征 235 13.3.4　特征降維 237 13.3.5　特征存儲 238 13.4　模型訓(xùn)練 238 13.4.1　LightGBM 238 13.4.2　CatBoost　 238 13.4.3　XGBoost 239 13.5　模型融合 239 13.5.1　加權(quán)融合 239 13.5.2　Stacking 融合 239 13.6　賽題總結(jié) 240 13.6.1　更多方案 240 13.6.2　知識點梳理 241 13.6.3　延伸學(xué)習(xí) 241 第 14 章　實戰(zhàn)案例-TalkingData AdTracking Fraud DetectionChallenge 243 14.1　賽題理解 243 14.1.1　背景介紹 243 14.1.2　賽題數(shù)據(jù) 244 14.1.3　評價指標(biāo) 244 14.1.4　賽題FAQ 244 14.1.5　baseline 方案 245 14.2　探索性數(shù)據(jù)分析 247 14.2.1 數(shù)據(jù)初探 247 14.2.2　單變量分析 249 14.2.3　多變量分析 254 14.2.4　數(shù)據(jù)分布 255 14.3　特征工程 256 14.3.1　統(tǒng)計特征 256 14.3.2　時間差特征 257 14.3.3　排序特征 258 14.3.4　目標(biāo)編碼特征 258 14.4　模型選擇 259 14.4.1　LR 模型 259 14.4.2　CatBoost 模型 259 14.4.3　LightGBM 模型 260 14.4.4　DeepFM 模型 261 14.5　賽題總結(jié) 264 14.5.1　更多方案 264 14.5.2　知識點梳理 265 14.5.3　延伸學(xué)習(xí) 266 第 15 章　自然語言處理 268 15.1　自然語言處理的發(fā)展歷程 268 15.2　自然語言處理的常見場景 269 15.2.1　分類、回歸任務(wù) 269 15.2.2　信息檢索、文本匹配等任務(wù) 269 15.2.3　序列對序列、序列標(biāo)注 269 15.2.4　機器閱讀 270 15.3　自然語言處理的常見技術(shù) 270 15.3.1　基于詞袋模型、TF-IDF.的特征提取 270 15.3.2　N-Gram 模型 271 15.3.3　詞嵌入模型 271 15.3.5　上下文相關(guān)預(yù)訓(xùn)練模型 272 15.3.6　常用的深度學(xué)習(xí)模型結(jié)構(gòu) 274 15.4　練習(xí) 276 第 16 章　實戰(zhàn)案例：Quora QuestionPairs 277 16.1　賽題理解 277 16.1.1　賽題背景 277 16.1.2　賽題數(shù)據(jù) 278 16.1.3　賽題任務(wù) 278 16.1.4　評價指標(biāo) 278 16.1.5　賽題FAQ 278 16.2　探索性數(shù)據(jù)分析 279 16.2.1　字段類別含義 279 16.2.2　數(shù)據(jù)集基本量 279 16.2.3　文本的分布 280 16.2.4　詞的數(shù)量與詞云分析 282 16.2.5　基于傳統(tǒng)手段的文本數(shù)據(jù)預(yù)處理 284 16.2.6　基于深度學(xué)習(xí)模型的文本數(shù)據(jù)預(yù)處理 284 16.3　特征工程 285 16.3.1　通用文本特征 285 16.3.2　相似度特征 287 16.3.3　詞向量的進一步應(yīng)用——獨有詞匹配 290 16.3.4　詞向量的進一步應(yīng)用——詞與詞的兩兩匹配 290 16.3.5　其他相似度計算方式 291 16.4　機器學(xué)習(xí)模型和模型的訓(xùn)練 291 16.4.1　TextCNN 模型 291 16.4.2　TextLSTM 模型 292 16.4.3　TextLSTM with Attention 模型 293 16.4.4　Self-Attention 層 295 16.4.5　Transformer 和BERT 類模型 296 16.4.6　基于 representation 和基于 interaction 的深度學(xué)習(xí)模型的差異 298 16.4.7　一種特殊的基于 interaction 的深度學(xué)習(xí)模型 303 16.4.8　深度學(xué)習(xí)文本數(shù)據(jù)的翻譯增強 303 16.4.9　深度學(xué)習(xí)文本數(shù)據(jù)的預(yù)處理 304 16.4.10　BERT 模型的訓(xùn)練 306 16.5　模型融合 310 16.6　賽題總結(jié) 310 16.6.1　更多方案 310 16.6.2　知識點梳理 310 16.6.3　延伸學(xué)習(xí) 311

你還可能感興趣

我要評論