《比較》系列由著名經(jīng)濟學家吳敬璉主編,為讀者提供國際經(jīng)驗和經(jīng)濟學前沿知識的比較!侗容^第119輯》緊貼當下經(jīng)濟選題。隨著新經(jīng)濟的發(fā)展,針對之前市場經(jīng)濟的監(jiān)管工具和方法,有些跟不上時代的發(fā)展,其他方面的規(guī)則也有類似的問題。本輯比較圍繞這一主題選取稿子,從金融、土地政策、綠色發(fā)展(碳轉型)等角度選取了文章,為讀者提供了新的視角。
適讀人群 :政策制定者/學者/投資人士/研究者/學生
1.經(jīng)濟學前沿理論和趨勢
2.貼近當下經(jīng)濟熱點話題
3.大牌經(jīng)濟學作者
吳敬璉,著名經(jīng)濟學家,國務院發(fā)展研究中心研究員,是中國經(jīng)濟學界的泰斗,當代中國杰出經(jīng)濟學家、著名市場經(jīng)濟學者。
金融網(wǎng)絡中的系統(tǒng)性風險:一份綜述 馬修·杰克遜 阿加特·佩爾努
經(jīng)濟學家應該了解的機器學習方法 蘇珊·阿西 吉多·因本斯
國家紀律的來源:1948—1973年以色列國家發(fā)展的經(jīng)驗教訓 埃雷斯·馬戈爾
貨幣的時間價值:現(xiàn)代中央銀行存在性的一個理論視角 陸磊
被遺忘的市場:典當行的重要作用 瑪里科·博斯 蘇珊·卡特 佩奇·斯奇巴
土地發(fā)展權與主體功能區(qū)規(guī)劃實施研究 田莉 夏菁 杜一凡
地方政府生產(chǎn)性投資的邏輯:政治經(jīng)濟學視角 吳延兵
民粹主義的經(jīng)濟危害:國際視角 紀敏
濟學家應該了解的機器學習方法
伯克利加州大學的統(tǒng)計學家布雷曼在2001年的《統(tǒng)計科學》上發(fā)表了一篇頗有挑釁性的論文,談及統(tǒng)計學中以模型為基礎的方法和以算法為基礎的方法的區(qū)別:利用統(tǒng)計建模從數(shù)據(jù)中得出結論,這里有兩種文化:一種假設數(shù)據(jù)從給定的隨機模型中產(chǎn)生;另一種則利用算法模型,把數(shù)據(jù)機制作為未知來考慮。布雷曼接著指出:過去,統(tǒng)計學界基本上只使用數(shù)據(jù)模型,這種偏執(zhí)導致了無效的理論和受質疑的結論,并讓統(tǒng)計學家們難以處理各種有趣的現(xiàn)實問題。而算法模型從理論和實踐看都在統(tǒng)計學領域之外獲得了飛速發(fā)展,既能用于復雜的大數(shù)據(jù)庫,也能給較小的數(shù)據(jù)庫提供不同于數(shù)據(jù)模型的更為精確和有效的分析工具。如果統(tǒng)計學界把利用數(shù)據(jù)解決問題作為自己的目標,那我們就應該超越對數(shù)據(jù)模型的單純依賴,接受更加豐富多樣的研究工具。布雷曼當時的總結已不再適用于如今的統(tǒng)計學界。這個領域已廣泛接受了機器學習(ML)的革命方法,即他所說的算法模型文化,并且許多教科書把機器學習方法同更加傳統(tǒng)的統(tǒng)計學方法放在一起討論。雖然這些方法在經(jīng)濟學中的應用要慢一些,但如今也開始在實證分析中廣泛出現(xiàn),成為快速增加的方法論研究文獻的主題之一。我們希望在這篇評論文章中指出,正如布雷曼對統(tǒng)計學界的評論那樣,經(jīng)濟學家和計量經(jīng)濟學家也“應該超越對數(shù)據(jù)模型的單純依賴,接受更加豐富多樣的研究工具”。我們將介紹對實證研究者有用的某些工具,并認為這些工具應該成為計量經(jīng)濟學標準研究生課程的組成部分,因為我們贊同布雷曼的看法“把利用數(shù)據(jù)解決問題作為自己的目標”,同時我們認為計量經(jīng)濟學的本質就是在不確定情況下的決策,而且希望學生們能夠同經(jīng)常采用算法模型等方法的其他領域的學者有效開展交流。機器學習研究文獻中發(fā)展出來的方法具有普遍適用價值,尤其擅長處理大數(shù)據(jù)的情形:我們在大量單元上觀測到信息,或者每個單元上包含許多條信息,而且經(jīng)常超出單一橫截面數(shù)據(jù)的簡單情形。對于此類情形,機器學習正在成為各類學科共同采用的標準研究方法。因此,經(jīng)濟學家的工具庫在保留傳統(tǒng)應用計量方法的優(yōu)勢之外,也需要相應地與時俱進。
相比更廣泛的統(tǒng)計學界,經(jīng)濟學領域對機器學習方法的采用為什么慢很多?很大一部分原因或許來自布雷曼所說的文化。經(jīng)濟學期刊看重的研究方法帶有某些規(guī)范特性,是許多機器學習方法本身不能提供的,包括估計量和檢驗的大樣本特征,如一致性、正態(tài)性和有效性等。與之相比,機器學習類文獻的關注點往往是算法在特定場景下的實用特性,其規(guī)范結果屬于另一種類型,例如對誤差率的保證等。對計量經(jīng)濟學論文傳統(tǒng)上報告的那類理論結果,機器學習文獻通常較少涉及,當然近期有了某些重要突破。目前沒有規(guī)范的研究結論表明,對于監(jiān)督學習問題,深度學習或神經(jīng)網(wǎng)絡方法普遍優(yōu)于回歸樹或隨機森林方法。而且至少從短期看,這方面的比較不太可能得出一般性結論。
在許多情形下,構建有效的大樣本置信區(qū)間的能力是重要的,但我們不應該輕易排除無法(或暫時無法)提供此類結果卻具有其他優(yōu)勢的分析方法。這些方法在特定數(shù)據(jù)庫中展示的超越其他方法的樣本外預測能力在實踐中極具價值,然而在計量經(jīng)濟學中還很少被列為目標或受到重視。有學者指出,某些實質性問題被很自然地歸入預測問題,就此類情形的研究目的而言,評估測試組的擬合效果往往已經(jīng)足夠。而在其他一些情形下,一個預測問題的結果是對主要分析對象的一個輸入,不需要對超出收斂速率的預測成分做統(tǒng)計分析?墒沁有許多情形,我們有必要為感興趣的參數(shù)提供有效置信區(qū)間,例如對于平均干預效應。此時,標準差或置信區(qū)間反映的不確定程度可能成為是否實施干預決策的重要參考內容。因此我們認為,隨著機器學習工具在未來被更加廣泛地采用,學者們需要明確闡述自己的研究目標,以及自己采用的算法或估計量的某些特性為什么是重要的。
本文的一個主題是,雖然在某些情形下簡單地從機器學習研究文獻中借鑒算法可以取得效果,但在其他許多時候未必能適用。機器學習技術通常要求細致的調適,才能有效處理經(jīng)濟學家感興趣的特定問題。或許最重要的調適類型是探討問題的結構,例如許多估計對象的因果關系性質、變量的內生性、數(shù)據(jù)的構造(如面板數(shù)據(jù))、在可替代產(chǎn)品集合中做離散選擇的性質,以及經(jīng)濟學理論施加的可信約束(例如需求在價格上表現(xiàn)出來的單調性)或其他形狀約束等(Matzkin,1994,2007)。統(tǒng)計學和計量經(jīng)濟學在傳統(tǒng)上非常強調這些結構特征,并發(fā)展出了許多可加以利用的思想,而機器學習方法對此往往不重視。從實質內容和統(tǒng)計方法上利用好這些思想,將能夠極大地改善機器學習的效果,這跟圖像識別等特定問題中采用的機器學習的精心調適手段是相似的。還有一類調適是改變機器學習算法的最優(yōu)化標準,把因果推斷放到優(yōu)先考慮中,例如控制混雜因子,或者發(fā)現(xiàn)治療效果的異質性等。最后,我們可以采用樣本分割方法,利用不同數(shù)據(jù)選擇模型而非估計參數(shù),或者采用正交化方法等技術改善機器學習的估計量的表現(xiàn),這在某些情形下可以帶來估計量的漸進式正態(tài)性等理想特征。
本文將介紹一系列工具,我們認為它們應該成為實證經(jīng)濟學家工具庫的組成部分,并納入計量經(jīng)濟學研究生課程。這當然來自主觀選擇,而且鑒于此類研究文獻的發(fā)展速度,相應工具清單會快速變化。另外,我們對相關議題的討論并不很完備,只是著眼于對傳遞重要思想和見地的相關方法的簡介,并提及更全面的其他參考資料。排在我們清單上第一位的是非參數(shù)回歸,在機器學習研究文獻中的術語則是用監(jiān)督學習解決回歸問題。排在第二位的是介紹用于分類問題的監(jiān)督學習,與離散反應模型中的非參數(shù)回歸密切相關,但不完全相同,可以說這是機器學習方法取得最大成功的領域。排在第三位的是非監(jiān)督學習,或者說聚類分析和密度估計。排在第四位的是對異質性干預效應的估計,以及從個體觀測特征對應于干預方案的最優(yōu)政策選擇。排在第五位的是實驗設計中的機器學習方法,目前老虎機方法正在帶來革命性影響,特別是在網(wǎng)絡場景中。排在第六位的是矩陣填充問題,包括在因果面板數(shù)據(jù)模型和消費者離散產(chǎn)品集合選擇問題中的應用。最后我們還將討論文本數(shù)據(jù)分析。
我們注意到,近期還有幾篇為經(jīng)濟學家而寫的關于機器學習方法的文獻綜述,普遍涉及比本文內容更多的實證案例和應用參考。例如,范里安(Varian,2014)對若干重要的機器學習方法做了高水平的討論。穆萊納森和施皮斯(Mullainathan and Spiess,2017)重點分析了監(jiān)督學習方法用于回歸分析的好處,以及經(jīng)濟學領域中適用預測方法的各種問題。阿西等人(Athey,2017)提供了廣泛的研究視角,并重點介紹了近期采用機器學習方法開展因果分析的進展及其對經(jīng)濟學研究的普遍意義。根茨科等人(Gentzkow et al.,2017)出色地介紹了近期采用的文本分析方法,并側重于在經(jīng)濟學中的應用。另外在計算機科學與統(tǒng)計學研究文獻中還有幾本優(yōu)秀的教科書,適合不同層次的社會科學背景的研究者參考,其中包括黑斯蒂等人從統(tǒng)計學角度提供了較為全面的參考,布爾科夫有非常易讀的入門介紹,以及阿爾佩丁和諾克斯的著作。當然這些著作都更多地采用了計算機科學的視角。