統(tǒng)計學(xué)習(xí)是一套以復(fù)雜數(shù)據(jù)建模和數(shù)據(jù)理解為目的的工具集,是近期才發(fā)展起來的統(tǒng)計學(xué)的一個新領(lǐng)域。本書出自統(tǒng)計學(xué)習(xí)領(lǐng)域聲名顯赫的幾位專家,結(jié)合R語言介紹了分析大數(shù)據(jù)必不可少的工具,提供一些最重要的建模和預(yù)測技術(shù),并借助豐富的實驗來解釋如何用R語言實現(xiàn)統(tǒng)計學(xué)習(xí)方法。論題包括線性回歸、分類、重抽樣方法、壓縮方法、基于樹的方法、支持向量機、聚類等,作者借助彩圖和實際案例直觀解釋這些方法。為了讀者更好地理解書中內(nèi)容,每章后還配有豐富的概念性和應(yīng)用性練習(xí)題。
書中內(nèi)容與《The Elements of Statistical Learning》的大部分內(nèi)容相同,但是本書起點低,弱化了數(shù)學(xué)推導(dǎo)的細(xì)節(jié),更注重方法的應(yīng)用,所以更適合作為入門教材。當(dāng)然,這本《統(tǒng)計學(xué)習(xí)導(dǎo)論》不僅是優(yōu)秀的“統(tǒng)計學(xué)習(xí)”或“機器學(xué)習(xí)”課程的教材,也是數(shù)據(jù)挖掘、數(shù)據(jù)分析等相關(guān)從業(yè)者不可或缺的參考書。
中 文 版 序
When we wrote An Introduction to Statistical Learning, we had a single goal: to make key concepts in statistical machine learning accessible to a very broad audience. We are thrilled that Professor Xing Wang has taken the time to translate our book into Chinese, so that these concepts will be made accessible to an even broader audience. We hope that the readers of this Chinese translation will find our book to be a useful and informative introduction to a very exciting and important research area.
Sincerely!
回想當(dāng)初在編寫 《統(tǒng)計學(xué)習(xí)導(dǎo)論》這本書的時候,我們4位作者心中只有一個夢想:讓更多的
讀者能夠聆聽到統(tǒng)計機器學(xué)習(xí)里的基本概念。中國人民大學(xué)的王星教授花了很多時間將這本書翻
譯成中文,這令我們十分欣慰,相信會有更多的朋友可以通過這本書涉足該領(lǐng)域。我們希望中文版的讀者會被書中的內(nèi)容豐富和案例實用所吸引,并由此進(jìn)入一個令人興奮且頗具影響的研究領(lǐng)域。
真誠地祝福!
Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani
譯者序
數(shù)據(jù)是對事物及其量的記錄,有存儲字節(jié)的記錄就是數(shù)據(jù)。數(shù)據(jù)是研究各種問題的基礎(chǔ),數(shù)據(jù)的形態(tài)種類繁多,但有兩類數(shù)據(jù)在分析中常常是不能忽略的,一類是測量數(shù)據(jù),另一類是系統(tǒng)數(shù)據(jù)。前者主要是指用合適的工具對給定研究對象某個屬性上的量進(jìn)行測定,主要用于提供有關(guān)研究對象量的實驗證據(jù),一般需要針對研究目標(biāo)進(jìn)行特定的科學(xué)設(shè)計、抽樣計算、數(shù)據(jù)采集、相關(guān)整理、參數(shù)估計和模型檢驗等。這類數(shù)據(jù)的產(chǎn)生過程嚴(yán)格,規(guī)則明確,數(shù)據(jù)質(zhì)量受實驗環(huán)境影響較大,建模的主要目的是分析估計目標(biāo)的誤差來源和相關(guān)影響。后者則是計算機體系架構(gòu)為高效傳輸文件而產(chǎn)生的記錄,比如日志、IP地址等,這類記錄中既包含了系統(tǒng)的運行程序也包含了所傳遞對象的流通屬性,其特點是,模塊結(jié)構(gòu)化程度高,程序繁殖很快,高消耗低效能特征明顯。這兩類數(shù)據(jù)在巨大的網(wǎng)絡(luò)平臺上各自位于相對獨立的體系并在自有協(xié)議中運行。另一方面,兩類數(shù)據(jù)掌管著人、機、物三元世界的信息交換,比如在個性化醫(yī)療實施方案中,既需要測量數(shù)據(jù)的支持也需要系統(tǒng)數(shù)據(jù)的支持,比如通過普查數(shù)據(jù)可以了解老齡人口的分布情況,通過互聯(lián)網(wǎng)監(jiān)測系統(tǒng)可以對其中的孤寡老人開展危險分層建模和有效的社區(qū)醫(yī)療服務(wù)。后者又為高危人口的進(jìn)一步分析提供監(jiān)測的抽樣框,所以統(tǒng)一分析非常必要。在這些動態(tài)、價值密度有待開發(fā)的高維大數(shù)據(jù)上發(fā)展協(xié)同自序的新數(shù)據(jù)應(yīng)用模型,統(tǒng)計學(xué)習(xí)方法是必要的工具,它用于協(xié)調(diào)大數(shù)據(jù)重組結(jié)構(gòu)中差異的發(fā)現(xiàn)和分離,并維護(hù)整體分析的同一性。
本書4位作者都是統(tǒng)計學(xué)習(xí)領(lǐng)域的先行者,作者Trevor Hastie和Robert Tibshirani在十幾年前主導(dǎo)了《統(tǒng)計學(xué)習(xí)基礎(chǔ)》(The Elements of Statistical Learning,ESL)的出版,這本書堪稱學(xué)術(shù)經(jīng)典,系統(tǒng)闡述了統(tǒng)計學(xué)習(xí)理論,培養(yǎng)了大批數(shù)據(jù)分析專業(yè)人士。而這一次,兩位作者提攜了兩位年輕教授共同推動統(tǒng)計學(xué)習(xí)在復(fù)雜數(shù)據(jù)分析領(lǐng)域作為模型建立和數(shù)據(jù)理解的工具的應(yīng)用。這些工具模型在R軟件中可以任意組合,具有很強的實用性和靈活性。與傳統(tǒng)統(tǒng)計模型重點關(guān)注單一結(jié)構(gòu)的數(shù)據(jù)統(tǒng)計特征不同,統(tǒng)計學(xué)習(xí)模型重點關(guān)注數(shù)據(jù)分布結(jié)構(gòu)的提取和程序分析的建構(gòu)思維。書中例子豐富有趣,涉足諸多領(lǐng)域,包括體育、市場營銷、金融等熱門領(lǐng)域,案例深入淺出、實驗特色鮮明。本書適用于數(shù)據(jù)分析、機器學(xué)習(xí)以及統(tǒng)計學(xué)等專業(yè)方向高年級本科生和研究生,同時也可作為非統(tǒng)計學(xué)專業(yè)數(shù)據(jù)分析發(fā)燒友的手邊參考書。
本人多年從事統(tǒng)計學(xué)習(xí)、R軟件的教學(xué)和科研,一個切身的體會是國內(nèi)大數(shù)據(jù)分析市場化程度較低,有價值的研究常常無法獲得高質(zhì)量的分析數(shù)據(jù),而公共數(shù)據(jù)的開發(fā)還有待深化,一些鐘情于數(shù)據(jù)分析的發(fā)燒友其實更迷戀國外結(jié)構(gòu)化較高且內(nèi)涵豐富的數(shù)據(jù),比如Pubmed等。一個原因是具備數(shù)據(jù)提供能力的人往往不能正確評估手中數(shù)據(jù)的分析價值,換句話說,是對統(tǒng)計學(xué)習(xí)方法的實踐能力不足。相信這本書將再次掀起國內(nèi)大數(shù)據(jù)分析和R實踐愛好者參與設(shè)計新的學(xué)習(xí)模型的熱潮,從而共同推動國內(nèi)大數(shù)據(jù)分析合作市場的建立。正因為如此,我和我的團(tuán)隊犧牲了多半年本該屬于其他重點課題研究的寶貴時間,傾情專注于這本書的翻譯和校對,除我之外,還有以下同學(xué)參與了初稿的翻譯:顏婭婷、王人福、佴金菁、李雅菁、張慧婷、許泳鐸、王聰、鄭軼、馬璇、李政寰,其中顏婭婷和王人福還參與了部分初稿的修改工作,王星負(fù)責(zé)全書的統(tǒng)稿和審核。本書受中國人民大學(xué)“985工程”支持和中國人民大學(xué)科學(xué)研究基金項目人文學(xué)科跨界關(guān)系網(wǎng)絡(luò)跟蹤評價研究編號13XNI011資助,在此一并感謝。
其實早在10年前我們開始研讀《統(tǒng)計學(xué)習(xí)基礎(chǔ)》時就希望有機會參與這個新方向經(jīng)典作品的翻譯,可惜遲到一步。這次翻譯彌補了多年的缺憾,能夠獲得翻譯專業(yè)經(jīng)典的機會是我和整個團(tuán)隊的殊榮,相信其他讀者也能夠從中感受到我們傳遞給大數(shù)據(jù)分析愛好者的一份熱忱與真誠。
王星
2015年1月
中國人民大學(xué)應(yīng)用統(tǒng)計研究中心&統(tǒng)計學(xué)院
前言
統(tǒng)計學(xué)習(xí)是一套以復(fù)雜數(shù)據(jù)建模和數(shù)據(jù)理解為目的的工具集,是近期才發(fā)展起來的統(tǒng)計學(xué)的一個新領(lǐng)域,它與計算機科學(xué)特別是其中的機器學(xué)習(xí)相互融合、協(xié)同發(fā)展。統(tǒng)計學(xué)習(xí)領(lǐng)域涵蓋了許多方法,比如說lasso回歸、稀疏回歸、分類和回歸樹、提升法和支持向量機。
隨著“大數(shù)據(jù)”問題的爆炸式增長,統(tǒng)計學(xué)習(xí)已成為許多科學(xué)領(lǐng)域及市場研究、金融學(xué)等商科領(lǐng)域一個非常熱門的話題,擁有統(tǒng)計學(xué)習(xí)技能的人才千金難求。
統(tǒng)計學(xué)習(xí)領(lǐng)域開山之作之一——《統(tǒng)計學(xué)習(xí)基礎(chǔ)》(The Elements of Statistical Learning,ESL)(作者Hastie, Tibshirani, Friedman)于2001年出版,第2版于2009年問世,F(xiàn)在,ESL已成為統(tǒng)計學(xué)界乃至其他相關(guān)領(lǐng)域的一本非常受歡迎的教材,其中一個原因是ESL的風(fēng)格平實,易于接受。但事實上,ESL是為受過數(shù)學(xué)科學(xué)高等訓(xùn)練的人而寫的。這本《統(tǒng)計學(xué)習(xí)導(dǎo)論》(An Introduction to Statistical Learning,ISL)是為對統(tǒng)計學(xué)習(xí)方法有廣泛需求,但又擔(dān)心技術(shù)高深難懂的讀者所寫。本書所列主題與ESL大體一致,但更注重方法的應(yīng)用且同時弱化了數(shù)學(xué)推導(dǎo)的細(xì)節(jié)。書中附有一些實驗以解釋如何用R軟件實現(xiàn)統(tǒng)計學(xué)習(xí)方法。這些實驗?zāi)軌蚪o讀者提供有價值的實操經(jīng)驗。
本書適合統(tǒng)計學(xué)及相關(guān)數(shù)量分析領(lǐng)域的高年級本科生以及碩士生閱讀,也適合其他專業(yè)希望運用統(tǒng)計學(xué)習(xí)工具分析數(shù)據(jù)的人閱讀。本書可作為一學(xué)期到兩學(xué)期課程的教科書使用。
在此,對那些曾經(jīng)閱讀過本書初稿并提出寶貴意見的人致以誠摯的感謝:Pallavi Basu, Alexandra Chouldechova, Patrick Danaher, Will Fithian, Luella Fu, Sam Gross, Max Grazier GSell, Courtney Paulson, Xinghao Qiao, Elisa Sheng, Noah Simon, Kean Ming Tan和Xin Lu Tan。
預(yù)測不易,預(yù)測未來更不易!猋ogi Berra
Gareth James(美國洛杉磯)
Daniela Witten(美國西雅圖)
Trevor Hastie(美國帕羅奧圖)
Robert Tibshirani(美國帕羅奧圖)
Gareth James 斯坦福大學(xué)統(tǒng)計學(xué)博士畢業(yè),師從Trevor Hastie,F(xiàn)為南加州大學(xué)馬歇爾商學(xué)院統(tǒng)計學(xué)教授,美國統(tǒng)計學(xué)會會士,數(shù)理統(tǒng)計協(xié)會終身會員,新西蘭統(tǒng)計協(xié)會會員。《Statistica Sinica》、《Applications and Case Studies》、《Theory and Methods》等期刊的副主編。
Daniela Witten 斯坦福大學(xué)統(tǒng)計學(xué)博士畢業(yè),師從Robert Tibshirani,F(xiàn)為華盛頓大學(xué)生物統(tǒng)計學(xué)副教授,美國統(tǒng)計學(xué)會和國際數(shù)理統(tǒng)計協(xié)會會士,《Journal of Computational and Graphical Statistics》和《Biometrika》等期刊副主編。
Trevor Hastie 美國統(tǒng)計學(xué)家和計算機科學(xué)家,斯坦福大學(xué)統(tǒng)計學(xué)教授,英國皇家統(tǒng)計學(xué)會、國際數(shù)理統(tǒng)計協(xié)會和美國統(tǒng)計學(xué)會會士。Hastie參與開發(fā)了 R 中的大部分統(tǒng)計建模軟件和環(huán)境,發(fā)明了主曲線和主曲面。
Robert Tibshirani 斯坦福大學(xué)統(tǒng)計學(xué)教授,國際數(shù)理統(tǒng)計協(xié)會、美國統(tǒng)計學(xué)會和加拿大皇家學(xué)會會士,1996年COPSS總統(tǒng)獎得主,提出lasso方法。Hastie和Tibshirani都是統(tǒng)計學(xué)習(xí)領(lǐng)域的泰山北斗,兩人合著《The Elements of Statistical Learning》,還合作講授斯坦福大學(xué)的公開課《統(tǒng)計學(xué)習(xí)》。