在筆者完成《SAS數(shù)據(jù)統(tǒng)計分析與編程實踐》一書后,中國鐵道出版社有限公司的編輯邀請筆者創(chuàng)作一本講解數(shù)據(jù)分析行業(yè)的圖書。聞聽此言,筆者的個反應是拒絕,乃至產(chǎn)生一種恐懼的感覺。
數(shù)據(jù)分析行業(yè)是一個龐雜而體系化的產(chǎn)業(yè),從開始的數(shù)據(jù)收集,再到后續(xù)的數(shù)據(jù)前處理、統(tǒng)計分析、建模,再到更靠后的數(shù)據(jù)可視化,乃至人工智能、機器學習的應用。筆者僅僅是處于數(shù)據(jù)統(tǒng)計分析階段的一位從業(yè)者,更具體地,筆者所處理的數(shù)據(jù)僅僅是臨床試驗數(shù)據(jù)這一個數(shù)據(jù)量極小的分支,筆者又有何德何能撰寫一本圖書,來為從業(yè)者和計劃從事數(shù)據(jù)行業(yè)的人士提供指導呢?
出版社的編輯聽到筆者的顧慮后,反問了一個很有深意的問題:那么您覺得誰能夠完整地洞悉各個數(shù)據(jù)行業(yè)中每個產(chǎn)業(yè)鏈環(huán)節(jié)的技術呢?
此言一出,筆者的感覺是不知如何回答,繼續(xù)思考后發(fā)現(xiàn)這其實是一個很有價值的問題。隨著數(shù)據(jù)分析行業(yè)的細化,數(shù)據(jù)分析師這個名詞其實也變得具有很多的內(nèi)涵,在有些公司,數(shù)據(jù)分析師是指使用Excel完成報表創(chuàng)建和整理的工作人員,而有的公司的數(shù)據(jù)分析師則需要掌握人工智能的復雜編程技能,同樣的職位名稱對應著不同的工作內(nèi)容,這也是數(shù)據(jù)分析行業(yè)尚處于發(fā)展階段的一個例證。
進一步思考,筆者發(fā)現(xiàn),縱觀整個產(chǎn)業(yè)界,無論是所謂的大師、專家或?qū)W者,每個人的視野其實都只能局限于數(shù)據(jù)分析的某個環(huán)節(jié)。認清了這一點,筆者也不妨大方承認,本書中所述內(nèi)容,數(shù)據(jù)處理方法、缺失值處理、統(tǒng)計分析方法、數(shù)據(jù)分析標準化和數(shù)據(jù)可視化,筆者有過親身經(jīng)歷,并使用代碼完成過本書絕大多數(shù)細節(jié);而針對機器學習、人工智能、大數(shù)據(jù)等領域,筆者僅進行過系統(tǒng)性的學習,并未在項目中有過實際操作的經(jīng)驗。
承認以上不足正是因為筆者清醒地意識到:數(shù)據(jù)分析行業(yè)的分工正在快速細化,與其給讀者營造一種自己什么都懂的假象,不妨大方承認自己僅僅是復雜產(chǎn)業(yè)鏈中一環(huán)的工作者,并沒有能力融會貫通地理解數(shù)據(jù)分析行業(yè)所有的體系化知識。筆者甚至愿意承認,如果你僅對大數(shù)據(jù)、人工智能的數(shù)據(jù)分析前沿領域感興趣,那跳過本書而閱讀其他行業(yè)專家的圖書會是更好的選擇。
但請注意另一方面,筆者并不認為因為個人局限性本書就會變得毫無價值。數(shù)據(jù)分析行業(yè)是一門實踐科學,而本書的目的正是指導數(shù)據(jù)分析師的實踐,不僅僅是高談理論。若僅探討數(shù)據(jù)分析行業(yè)的現(xiàn)狀、新技術的發(fā)展和數(shù)據(jù)分析的未來,很多人都能如筆者一樣高談闊論出一堆懸而未決的理論。
筆者創(chuàng)作本書的一個目標就是指導性,讓讀者不僅理解某些理論,更可以理解理論所應用的場景,乃至清楚哪些編程手段會用到這些理論。這些在工作中被作為背景知識的知識,才是筆者更希望傳達的價值。
提到背景知識,筆者認為這個詞很好地概括了本書創(chuàng)作的目的這是一本為數(shù)據(jù)分析師提供背景知識的書籍。所謂背景知識,就是指那些在特定領域中至關重要卻被認為是每個人都應該理解的知識。但作為新手從業(yè)者,很多人其實尚未建立背景知識庫。若以這種視角觀察本書,各位讀者應該可以發(fā)現(xiàn)本書的內(nèi)容正是為各位讀者補齊這一短板。
在本書的第1章,我們洞悉了數(shù)據(jù)分析的定義和數(shù)據(jù)分析行業(yè)的特點,在第2、3章,筆者對數(shù)據(jù)分析的現(xiàn)狀和未來進行了闡述,以此建立起從業(yè)者對數(shù)據(jù)分析行業(yè)的總體認知。在第4、5、6、7、8章中,我們深入數(shù)據(jù)分析技術,從數(shù)據(jù)分析選取的工具,談到數(shù)據(jù)前處理、統(tǒng)計分析方法、數(shù)據(jù)標準化和數(shù)據(jù)可視化,它們每一個都是數(shù)據(jù)分析的重要子命題,很多從業(yè)者未來也會選取其中一個方面作為自己的職業(yè)。從第9章到第11章,我們又將視野拉開,觀察一名優(yōu)秀的數(shù)據(jù)分析師應當具備的能力,從能力塑造的角度重新理解數(shù)據(jù)分析行業(yè)。
筆者非常希望此書能夠幫助到致力于從事數(shù)據(jù)分析行業(yè)的讀者,也希望本書可以作為數(shù)據(jù)分析從業(yè)者的進階讀物,為本行業(yè)吸引更多優(yōu)秀、有潛力的人才。
若讀者中十之一二能因本書而對數(shù)據(jù)分析行業(yè)產(chǎn)生興趣,那筆者定會欣慰不已。若讀者發(fā)現(xiàn)本書中的錯誤、不完善之處,乃是因筆者自身水平不高、實踐經(jīng)驗不足所致,歡迎讀者將所發(fā)現(xiàn)的不妥之處或自身感悟發(fā)送至郵箱iwenhaoma@gmail.com,以供筆者自省。