·國(guó)際杰出機(jī)器學(xué)習(xí)專家、地平線機(jī)器人技術(shù)創(chuàng)始人和CEO、前百度研究院執(zhí)行院長(zhǎng)余凱博士,騰訊專家研究員岳亞丁博士推薦、審校
·內(nèi)容涉及Python語(yǔ)言庫(kù)PyMC,以及相關(guān)的工具,包括NumPy\SciPy\Matplotlib,無(wú)需復(fù)雜的數(shù)學(xué)分析,通過(guò)實(shí)例、從編程的角度介紹貝葉斯分析方法,大多數(shù)程序員都可以入門并掌握。
本書的內(nèi)容特色:
·學(xué)習(xí)貝葉斯思維方式
·理解計(jì)算機(jī)如何進(jìn)行貝葉斯推斷
·利用PyMC Python庫(kù)進(jìn)行編程來(lái)實(shí)現(xiàn)貝葉斯分析
·利用PyMC建模以及調(diào)試
·測(cè)試模型的擬合優(yōu)度
·打開(kāi)馬爾科夫鏈蒙特卡洛算法的黑盒子,看看它如何工作
·利用大數(shù)定律的力量
·掌握聚類、收斂、自相關(guān)、細(xì)化等關(guān)鍵概念
·根據(jù)目標(biāo)和預(yù)期的結(jié)果,利用損失函數(shù)來(lái)推斷缺陷
·選擇合理的先驗(yàn),并理解其如何隨著樣本量的大小而變化
·克服“研發(fā)與開(kāi)發(fā)”的困境:判斷是否已經(jīng)足夠好了
·利用貝葉斯推斷改良A/B測(cè)試
·在可用數(shù)據(jù)量小的情況下,解決數(shù)據(jù)科學(xué)的問(wèn)題
第1章 貝葉斯推斷的哲學(xué) 1
1.1 引言 1
1.1.1 貝葉斯思維 1
1.1.2 貝葉斯推斷在實(shí)踐中的運(yùn)用 3
1.1.3 頻率派的模型是錯(cuò)誤的嗎? 4
1.1.4 關(guān)于大數(shù)據(jù) 4
1.2 我們的貝葉斯框架 5
1.2.1 不得不講的實(shí)例:拋硬幣 5
1.2.2 實(shí)例:圖書管理員還是農(nóng)民 6
1.3 概率分布 8
1.3.1 離散情況 9
1.3.2 連續(xù)情況 10
1.3.3 什么是 12
1.4 使用計(jì)算機(jī)執(zhí)行貝葉斯推斷 12
1.4.1 實(shí)例:從短信數(shù)據(jù)推斷行為 12
1.4.2 介紹我們的第一板斧:PyMC 14
1.4.3 說(shuō)明 18
1.4.4 后驗(yàn)樣本到底有什么用? 18
1.5 結(jié)論 20
1.6 補(bǔ)充說(shuō)明 20
1.6.1 從統(tǒng)計(jì)學(xué)上確定兩個(gè)l值是否真的不一樣 20
1.6.2 擴(kuò)充至兩個(gè)轉(zhuǎn)折點(diǎn) 22
1.7 習(xí)題 24
1.8 答案 24
第2章 進(jìn)一步了解PyMC 27
2.1 引言 27
2.1.1 父變量與子變量的關(guān)系 27
2.1.2 PyMC變量 28
2.1.3 在模型中加入觀測(cè)值 31
2.1.4 最后…… 33
2.2 建模方法 33
2.2.1 同樣的故事,不同的結(jié)局 35
2.2.2 實(shí)例:貝葉斯A/B測(cè)試 38
2.2.3 一個(gè)簡(jiǎn)單的場(chǎng)景 38
2.2.4 A和B一起 41
2.2.5 實(shí)例:一種人類謊言的算法 45
2.2.6 二項(xiàng)分布 45
2.2.7 實(shí)例:學(xué)生作弊 46
2.2.8 另一種PyMC模型 50
2.2.9 更多的PyMC技巧 51
2.2.10 實(shí)例:挑戰(zhàn)者號(hào)事故 52
2.2.11 正態(tài)分布 55
2.2.12 挑戰(zhàn)者號(hào)事故當(dāng)天發(fā)生了什么? 61
2.3 我們的模型適用嗎? 61
2.4 結(jié)論 68
2.5 補(bǔ)充說(shuō)明 68
2.6 習(xí)題 69
2.7 答案 69
第3章 打開(kāi)MCMC的黑盒子 71
3.1 貝葉斯景象圖 71
3.1.1 使用MCMC來(lái)探索景象圖 77
3.1.2 MCMC算法的實(shí)現(xiàn) 78
3.1.3 后驗(yàn)的其他近似解法 79
3.1.4 實(shí)例:使用混合模型進(jìn)行無(wú)監(jiān)督聚類 79
3.1.5 不要混淆不同的后驗(yàn)樣本 88
3.1.6 使用MAP來(lái)改進(jìn)收斂性 91
3.2 收斂的判斷 92
3.2.1 自相關(guān) 92
3.2.2 稀釋 95
3.2.3 pymc.Matplot.plot() 97
3.3 MCMC的一些秘訣 98
3.3.1 聰明的初始值 98
3.3.2 先驗(yàn) 99
3.3.3 統(tǒng)計(jì)計(jì)算的無(wú)名定理 99
3.4 結(jié)論 99
第4章 從未言明的最偉大定理 101
4.1 引言 101
4.2 大數(shù)定律 101
4.2.1 直覺(jué) 101
4.2.2 實(shí)例:泊松隨機(jī)變量的收斂 102
4.2.3 如何計(jì)算Var(Z) 106
4.2.4 期望和概率 106
4.2.5 所有這些與貝葉斯統(tǒng)計(jì)有什么關(guān)系呢 107
4.3 小數(shù)據(jù)的無(wú)序性 107
4.3.1 實(shí)例:地理數(shù)據(jù)聚合 107
4.3.2 實(shí)例:Kaggle的美國(guó)人口普查反饋比例預(yù)測(cè)比賽 109
4.3.3 實(shí)例:如何對(duì)Reddit網(wǎng)站上的評(píng)論進(jìn)行排序 111
4.3.4 排序! 115
4.3.5 但是這樣做的實(shí)時(shí)性太差了 117
4.3.6 推廣到評(píng)星系統(tǒng) 122
4.4 結(jié)論 122
4.5 補(bǔ)充說(shuō)明 122
4.6 習(xí)題 123
4.7 答案 124
第5章 失去一只手臂還是一條腿 127
5.1 引言 127
5.2 損失函數(shù) 127
5.2.1 現(xiàn)實(shí)世界中的損失函數(shù) 129
5.2.2 實(shí)例:優(yōu)化“價(jià)格競(jìng)猜”游戲的展品出價(jià) 130
5.3 機(jī)器學(xué)習(xí)中的貝葉斯方法 138
5.3.1 實(shí)例:金融預(yù)測(cè) 139
5.3.2 實(shí)例:Kaggle觀測(cè)暗世界 大賽 144
5.3.3 數(shù)據(jù) 145
5.3.4 先驗(yàn) 146
5.3.5 訓(xùn)練和PyMC實(shí)現(xiàn) 147
5.4 結(jié)論 156
第6章 弄清楚先驗(yàn) 157
6.1 引言 157
6.2 主觀與客觀先驗(yàn) 157
6.2.1 客觀先驗(yàn) 157
6.2.2 主觀先驗(yàn) 158
6.2.3 決策,決策…… 159
6.2.4 經(jīng)驗(yàn)貝葉斯 160
6.3 需要知道的有用的先驗(yàn) 161
6.3.1 Gamma分布 161
6.3.2 威沙特分布 162
6.3.3 Beta分布 163
6.4 實(shí)例:貝葉斯多臂老虎機(jī) 164
6.4.1 應(yīng)用 165
6.4.2 一個(gè)解決方案 165
6.4.3 好壞衡量標(biāo)準(zhǔn) 169
6.4.4 擴(kuò)展算法 173
6.5 從領(lǐng)域?qū)<姨帿@得先驗(yàn)分布 176
6.5.1 試驗(yàn)輪盤賭法 176
6.5.2 實(shí)例:股票收益 177
6.5.3 對(duì)于威沙特分布的專業(yè)提示 184
6.6 共軛先驗(yàn) 185
6.7 杰弗里斯先驗(yàn) 185
6.8 當(dāng)N增加時(shí)對(duì)先驗(yàn)的影響 187
6.9 結(jié)論 189
6.10 補(bǔ)充說(shuō)明 190
6.10.1 帶懲罰的線性回歸的貝葉斯視角 190
6.10.2 選擇退化的先驗(yàn) 192
第7章 貝葉斯A/B測(cè)試 195
7.1 引言 195
7.2 轉(zhuǎn)化率測(cè)試的簡(jiǎn)單重述 195
7.3 增加一個(gè)線性損失函數(shù) 198
7.3.1 收入期望的分析 198
7.3.2 延伸到A/B測(cè)試 202
7.4 超越轉(zhuǎn)化率:t檢驗(yàn) 204
7.4.1 t檢驗(yàn)的設(shè)定 204
7.5 增幅的估計(jì) 207
7.5.1 創(chuàng)建點(diǎn)估計(jì) 210
7.6 結(jié)論 211
術(shù)語(yǔ)表 213