本書全面介紹了最新的因果推斷方法,并以實踐應用為輔,方便讀者理解。本書化繁為簡,層層深入地引導讀者了解因果推斷方法發(fā)展的歷程和現(xiàn)狀。通過本書,讀者可以獲得關(guān)于因果推斷方法的全局視角。本書共5章,以遞進的方式展開對因果推斷方法的介紹。第1章從廣泛熟悉的相關(guān)關(guān)系出發(fā),通過介紹相關(guān)關(guān)系與因果關(guān)系的聯(lián)系與區(qū)別過渡到對因果關(guān)系的探索。在明確因果關(guān)系概念的基礎(chǔ)上,第2章主要介紹洞察因果關(guān)系的金標準:隨機對照試驗;陔S機對照試驗的原理和不同的應用場景,本書將因果推斷方法分為3類:基于設(shè)計思想的因果推斷方法、基于潛在結(jié)果框架的因果推斷方法和基于結(jié)構(gòu)因果模型的因果推斷方法。第3章~第5章分別對這3類方法進一步詳細分類,并進行解析。同時,這3類方法的應用場景也呈現(xiàn)遞進的關(guān)系。本書適合有一定統(tǒng)計知識背景的讀者,特別是希望深入研究因果推斷方法并將其應用于各領(lǐng)域?qū)嵺`的相關(guān)研究者。同時,本書也適合對因果推斷方法感興趣的在校學生和業(yè)界工作人員。
趙永賀網(wǎng)易原數(shù)據(jù)分析師,吉林大學博士生。主要研究方向為因果推斷算法的理論擴展和跨學科實踐應用。曾獲永洪YVP數(shù)據(jù)分析最具影響力專家獎。孫慧妍吉林大學人工智能學院研究員,博士生導師。主要研究方向為因果推斷、機器學習、系統(tǒng)生物學。任吉林省人工智能學會理事、中國生物信息學會(籌)系統(tǒng)生物學專委會常務委員、計算機學會生物信息學專委會通訊委員等。曾獲ACM SIGBIO CHINA 2022新星獎。吳思威本科畢業(yè)于大連海事大學網(wǎng)絡(luò)工程專業(yè),現(xiàn)于吉林大學人工智能學院計算機科學與技術(shù)專業(yè)攻讀碩士研究生,研究方向為因果推斷、生物信息學。
第1章 相關(guān)關(guān)系和因果關(guān)系1
1.1 相關(guān)關(guān)系1
1.2 因果關(guān)系3
1.3 相關(guān)關(guān)系與因果關(guān)系之間的迷霧6
1.3.1 混雜6
1.3.2 樣本的選擇性偏差7
1.4 因果推斷方法9
1.4.1 符號和表示工具9
1.4.2 本書涉及的因果推斷方法10
參考文獻12
第2章 隨機對照試驗14
2.1 隨機對照試驗的統(tǒng)計學原理14
2.1.1 基本概念14
2.1.2 隨機對照試驗的核心思想15
2.1.3 統(tǒng)計學的反證思維:假設(shè)檢驗16
2.2 總體方差未知的情況17
2.3 兩類統(tǒng)計錯誤19
2.4 隨機對照試驗流程21
2.4.1 最小樣本容量22
2.4.2 試驗結(jié)果分析24
2.5 本章小結(jié)25
參考文獻26
第3章 基于設(shè)計思想的因果推斷方法28
3.1 雙重差分法28
3.1.1 DID模型的原理29
3.1.2 DID模型的有效性檢驗30
3.1.3 DID法的注意事項32
3.1.4 DID法案例分析33
3.2 合成控制法39
3.2.1 構(gòu)建潛在的合成控制組40
3.2.2 求解合成控制組的權(quán)重41
3.2.3 合成控制組的應用42
3.2.4 合成控制法的評價43
3.2.5 合成控制法案例分析44
3.3 斷點回歸法48
3.3.1 設(shè)計原理49
3.3.2 確定分組變量和斷點49
3.3.3 精確斷點與模糊斷點51
3.3.4 斷點回歸法的有效性檢驗52
3.3.5 斷點回歸法的結(jié)果分析52
3.3.6 斷點回歸法的評價53
3.3.7 斷點回歸法案例分析54
3.4 工具變量法61
3.4.1 工具變量的定義61
3.4.2 工具變量的前提假設(shè)62
3.4.3 工具變量的有效性63
3.4.4 工具變量的實踐方式64
3.4.5 工具變量法案例分析66
3.5 主分層法72
3.5.1 隨機對照試驗中的不依從問題72
3.5.2 主分層法的原理73
3.5.3 主分層法的前提假設(shè)75
3.6 本章小結(jié)76
參考文獻77
第4章 基于潛在結(jié)果框架的因果推斷方法80
4.1 POF80
4.1.1 POF的基本構(gòu)成元素80
4.1.2 POF的因果指標81
4.1.3 POF的運行規(guī)則82
4.2 均衡的樣本子空間88
4.2.1 分層方法88
4.2.2 匹配方法90
4.2.3 基于決策樹的子空間劃分94
4.3 重加權(quán)的樣本空間96
4.3.1 逆傾向得分權(quán)重96
4.3.2 雙魯棒估計方法97
4.3.3 基于提升方法的泛化傾向得分權(quán)重98
4.3.4 協(xié)變量均衡傾向得分權(quán)重100
4.3.5 泛化的協(xié)變量均衡傾向得分權(quán)重101
4.4 去混雜的表征空間104
4.4.1 均衡表征學習104
4.4.2 局部相似表征學習107
4.5 基于潛在結(jié)果框架的因果推斷方法的綜合試驗112
4.5.1 數(shù)據(jù)生成112
4.5.2 對照試驗:估計ATE的常規(guī)方法114
4.5.3 試驗一:分層方法115
4.5.4 試驗二:匹配方法117
4.5.5 試驗三:基于決策樹的子空間劃分119
4.5.6 試驗四:逆傾向得分權(quán)重120
4.5.7 試驗五:雙魯棒估計方法121
4.5.8 試驗六:基于提升方法的泛化傾向得分權(quán)重122
4.5.9 試驗七:協(xié)變量均衡傾向得分權(quán)重123
4.5.10 試驗八:泛化的協(xié)變量均衡傾向得分權(quán)重124
4.5.11 試驗九:均衡表征學習和局部相似表征學習124
4.5.12 總結(jié)127
4.6 本章小結(jié)127
參考文獻128
第5章 基于結(jié)構(gòu)因果模型的因果推斷方法132
5.1 因果層級132
5.2 結(jié)構(gòu)因果模型134
5.2.1 因果圖134
5.2.2 因果圖的基本節(jié)點結(jié)構(gòu)135
5.2.3 因果圖上的概率分布137
5.2.4 因果圖上結(jié)構(gòu)方程139
5.2.5 結(jié)構(gòu)因果模型小結(jié)141
5.3 干預推斷142
5.3.1 后門調(diào)整142
5.3.2 前門調(diào)整143
5.3.3 do演算144
5.4 干預的可識別性和識別算法147
5.4.1 基本概念和定義147
5.4.2 Px(v)的可識別性150
5.4.3 Px(s)的可識別性163
5.4.4 Pt(s)的可識別性179
5.4.5 半馬爾可夫模型向馬爾可夫模型的進化183
5.5 反事實預測184
5.6 本章小結(jié)186
參考文獻186