本書是針對應(yīng)用統(tǒng)計專業(yè)碩士研究生數(shù)理統(tǒng)計課程而編寫的一本教材。數(shù)理統(tǒng)計作為應(yīng)用統(tǒng)計專業(yè)碩士教學(xué)的一門基礎(chǔ)課,在課程內(nèi)容選編上既要體現(xiàn)不同于本科課程內(nèi)容的“高層次”,又要體現(xiàn)出不同于統(tǒng)計學(xué)專業(yè)學(xué)術(shù)性碩士課程內(nèi)容的“應(yīng)用型”,盡量做到理論方法與應(yīng)用的有機融合。
適讀人群 :本書可以作為高等院校應(yīng)用統(tǒng)計專業(yè)碩士的學(xué)習(xí)應(yīng)用數(shù)理統(tǒng)計的教材,也可以作為非統(tǒng)計專業(yè)的研究生以及高年級本科生學(xué)習(xí)數(shù)理統(tǒng)計課程的教材或教學(xué)參考書。
本書內(nèi)容涵蓋概率論預(yù)備知識、統(tǒng)計基礎(chǔ)、參數(shù)估計、假設(shè)檢驗、區(qū)間估計及回歸分析;
為適用應(yīng)用統(tǒng)計專業(yè)碩士培養(yǎng)的新形式,本書強調(diào)方法的應(yīng)用,淡化理論的證明;
為開闊讀者視野,附錄介紹了R語言的使用、非參數(shù)密度估計及非參數(shù)回歸等內(nèi)容;
書中很多例題都附有R軟件實現(xiàn),各章均配有一定數(shù)量的習(xí)題。
統(tǒng)計學(xué)主要是用來研究如何有效地收集、處理和分析實際數(shù)據(jù)的一門學(xué)科,統(tǒng)計學(xué)的本質(zhì)在于挖掘原始數(shù)據(jù)中的潛在信息,通過有效且有針對性的統(tǒng)計分析與推斷,為解決實際問題提供具有參考價值的建議。在2011年以前,統(tǒng)計學(xué)科分別隸屬于兩個一級學(xué)科,即應(yīng)用經(jīng)濟學(xué)和數(shù)學(xué);2011年以后,國務(wù)院學(xué)位委員會通過了新的學(xué)位授予和人才培養(yǎng)學(xué)科目錄,統(tǒng)計學(xué)科上升為一級學(xué)科。這一方面說明了統(tǒng)計學(xué)這個學(xué)科本身的重要性,為未來統(tǒng)計學(xué)的快速發(fā)展提供了更加廣闊的舞臺和空間,同時這也對高等院校人才培養(yǎng)模式提出了新的要求。
經(jīng)國務(wù)院學(xué)位委員會批準(zhǔn),我國自2011年起開始招收培養(yǎng)應(yīng)用統(tǒng)計專業(yè)碩士,到目前已經(jīng)連續(xù)招收了六屆,且全國每年招生規(guī)模不斷擴大。該專業(yè)學(xué)位設(shè)置的主要目的是為政府部門、大中型企業(yè)、咨詢和研究機構(gòu)培養(yǎng)高層次、應(yīng)用型統(tǒng)計專門人才。相對于學(xué)術(shù)性碩士的培養(yǎng)而言,應(yīng)用統(tǒng)計專業(yè)碩士培養(yǎng)的主要特點是“高層次、應(yīng)用型”。從課程設(shè)置體系來看,“應(yīng)用數(shù)理統(tǒng)計”課程是應(yīng)用統(tǒng)計專業(yè)碩士培養(yǎng)最為重要的基礎(chǔ)課和核心課,是后繼各類專業(yè)課的基礎(chǔ)。從學(xué)科定義上來看,數(shù)理統(tǒng)計主要是用來研究如何有效地收集、處理和分析數(shù)據(jù)的一門學(xué)科,通過對隨機現(xiàn)象有限次的觀測或試驗得到的數(shù)據(jù)進行歸納、分析,并據(jù)此對整體的數(shù)量規(guī)律性做出推斷或判斷。數(shù)理統(tǒng)計既強調(diào)統(tǒng)計理論數(shù)學(xué)闡述,如參數(shù)估計、非參數(shù)估計、相關(guān)與回歸分析等,同時又非常注重統(tǒng)計方法的實際應(yīng)用,數(shù)理統(tǒng)計對統(tǒng)計數(shù)據(jù)分析方法的影響是顯著的,在對應(yīng)用統(tǒng)計專業(yè)碩士的培養(yǎng)中發(fā)揮著重要作用。
鑒于應(yīng)用統(tǒng)計專業(yè)碩士推出的時間較短,國內(nèi)有針對性的數(shù)理統(tǒng)計教材很少,為了適應(yīng)應(yīng)用統(tǒng)計專業(yè)碩士培養(yǎng)快速發(fā)展的新形式,我們著手編寫了本書。作者認為,“數(shù)理統(tǒng)計”作為應(yīng)用統(tǒng)計專業(yè)碩士教學(xué)的一門基礎(chǔ)課,在課程內(nèi)容選編上既要體現(xiàn)不同于本科課程內(nèi)容的“高層次”,又要體現(xiàn)出不同于傳統(tǒng)學(xué)術(shù)型碩士課程內(nèi)容的“應(yīng)用型”,盡量做到理論方法與應(yīng)用的有機融合?紤]到某些結(jié)論的證明過程過于煩瑣,初學(xué)者往往感到困惑,在編寫過程中我們強調(diào)方法的應(yīng)用,淡化理論證明,注重案例教學(xué)。
值得注意的是,計算機的誕生與迅猛發(fā)展,為數(shù)據(jù)處理提供了強有力的技術(shù)支持。統(tǒng)計的學(xué)習(xí)與使用離不開計算機,離不開統(tǒng)計軟件。目前常用的統(tǒng)計軟件主要有SPSS、SAS、MATLAB、STATISTICA、R語言等。R 軟件作為一種免費的開源統(tǒng)計軟件,已經(jīng)在統(tǒng)計學(xué)、運籌學(xué)、生物信息學(xué)、經(jīng)濟學(xué)、工程學(xué)等諸多領(lǐng)域得到廣泛應(yīng)用。由于設(shè)計上的特點,R語言并不局限某一類問題。配合不同的功能擴展包,以及各種靈活使用的基本工具,R 語言能夠應(yīng)用的領(lǐng)域相當(dāng)廣泛。在本書中,我們將采用R語言作為主要的教學(xué)軟件。對于一些常用的結(jié)論,我們將通過R語言來實現(xiàn)。本書強調(diào)統(tǒng)計方法的R語言實現(xiàn)也是基于應(yīng)用的目的。
本書共分6章,其中第1章由姜玉英編寫,第2、3、6章由劉強編寫,第4、5章及附錄由王琳編寫,書中的大部分程序由王琳編寫,最后由劉強負責(zé)統(tǒng)一定稿。
本書內(nèi)容涵蓋了概率論預(yù)備知識、統(tǒng)計基礎(chǔ)知識、參數(shù)估計、假設(shè)檢驗、區(qū)間估計及回歸分析。為了方便讀者學(xué)習(xí)和實際應(yīng)用,本書在附錄中介紹了R語言的使用、非參數(shù)密度估計及非參數(shù)回歸等內(nèi)容,以開闊讀者的應(yīng)用視野。全部講授完本書大約需要48學(xué)時,如果將R軟件的學(xué)習(xí)與應(yīng)用放到課后,則32學(xué)時左右即可完成本書內(nèi)容的講授。
本書的初稿在首都經(jīng)濟貿(mào)易大學(xué)應(yīng)用統(tǒng)計專業(yè)碩士班講授過多年,雖然經(jīng)過多次修改,總感不足,趁此出版之際,我們對講義又進行了大幅的整理與修訂,希望本書的出版能為應(yīng)用統(tǒng)計專業(yè)碩士的教學(xué)貢獻一份綿薄之力。
在本書的撰寫過程中,北京工業(yè)大學(xué)薛留根教授、程維虎教授,首都經(jīng)濟貿(mào)易大學(xué)統(tǒng)計學(xué)院紀(jì)宏教授、張寶學(xué)教授、馬立平教授都給予了極大的支持和熱心的幫助。電子工業(yè)出版社高等教育分社的譚海平社長和王二華編輯也為本書的出版付出了很大努力,在此一并表示感謝。本書的撰寫也得到了北京市青年拔尖人才培育計劃項目(CIT&TCD201404133)和首都經(jīng)濟貿(mào)易大學(xué)專業(yè)學(xué)位碩士教育系列教材建設(shè)項目的資助。
由于作者水平有限,盡管盡了很大努力,但書中仍不免存在錯謬之處,懇請國內(nèi)同行及讀者不吝指正。電子郵箱為:cuebliuqiang@163.com。
作 者
2016年11月
劉強教授,博士生導(dǎo)師,現(xiàn)任首都經(jīng)濟貿(mào)易大學(xué)統(tǒng)計學(xué)院副院長,兼任全國工業(yè)統(tǒng)計教學(xué)研究會常務(wù)理事兼常務(wù)副秘書長,北京應(yīng)用統(tǒng)計學(xué)會常務(wù)理事,中國商業(yè)經(jīng)濟學(xué)會經(jīng)濟數(shù)學(xué)研究分會常務(wù)理事,北京大數(shù)據(jù)協(xié)會理事等。主要從事應(yīng)用數(shù)理統(tǒng)計、經(jīng)濟數(shù)據(jù)分析、非參數(shù)統(tǒng)計以及復(fù)雜數(shù)據(jù)分析等方面的教學(xué)、科研工作。王琳,首都經(jīng)濟貿(mào)易大學(xué)統(tǒng)計學(xué)院講師,美國匹茲堡大學(xué)生物統(tǒng)計系訪問學(xué)者。主要從事生物信息學(xué)和計算生物學(xué)方面的研究,主持包括國家自然科學(xué)基金在內(nèi)課題多項,發(fā)表SCI學(xué)術(shù)論文近十篇。
目 錄
第1章 預(yù)備知識 1
1.1 隨機事件及其概率 2
1.1.1 樣本空間與隨機事件 2
1.1.2 事件間的關(guān)系及運算 2
1.1.3 概率的定義及性質(zhì) 3
1.1.4 條件概率與事件的獨立性 4
1.2 隨機變量及其分布 5
1.2.1 隨機變量及其分布 5
1.2.2 離散型隨機變量及其分布率 6
1.2.3 連續(xù)型隨機變量及其概率密度 7
1.2.4 隨機變量函數(shù)的分布 9
1.3 多維隨機變量及其性質(zhì) 10
1.3.1 多維隨機變量及其分布 10
1.3.2 邊緣分布與條件分布 11
1.3.3 隨機變量的獨立性 12
1.3.4 隨機向量函數(shù)的分布 12
1.3.5 隨機向量的變換及其分布 13
1.4 隨機變量的數(shù)字特征 13
1.4.1 數(shù)學(xué)期望與方差 13
1.4.2 矩、協(xié)方差陣及相關(guān)系數(shù) 16
1.4.3 條件數(shù)學(xué)期望 17
1.5 特征函數(shù)及其性質(zhì) 18
1.6 大數(shù)定律與中心極限定理 19
1.6.1 隨機變量序列的收斂性 19
1.6.2 大數(shù)定律 20
1.6.3 中心極限定理 21
習(xí)題1 22
第2章 統(tǒng)計基礎(chǔ) 24
2.1 一些基本概念 24
2.1.1 總體與樣本 24
2.1.2 放回與不放回抽樣 26
2.1.3 參數(shù)與非參數(shù)分布族 26
2.1.4 統(tǒng)計量與抽樣分布 27
2.2 三大抽樣分布 29
2.2.1 c2分布 29
2.2.2 t分布 32
2.2.3 F分布 34
2.2.4 兩個重要的結(jié)論 36
2.3 常見分布族 37
2.3.1 伽馬分布族 37
2.3.2 Fisher Z分布族 38
2.3.3 貝塔分布族 39
2.3.4 韋布爾分布族 41
2.3.5 多項分布族 41
2.3.6 指數(shù)型分布族 42
2.4 常用統(tǒng)計量 43
2.4.1 經(jīng)驗分布函數(shù) 44
2.4.2 次序統(tǒng)計量 45
2.4.3 樣本p分位數(shù) 47
2.5 充分統(tǒng)計量 48
2.5.1 充分統(tǒng)計量 48
2.5.2 因子分解定理 50
2.5.3 指數(shù)型分布族的充分統(tǒng)計量 52
2.6 完備統(tǒng)計量 52
2.6.1 分布族的完備性 52
2.6.2 完備統(tǒng)計量 53
2.6.3 指數(shù)型分布族的完備統(tǒng)計量 54
2.7 常用統(tǒng)計圖形 55
2.7.1 直方圖 55
2.7.2 莖葉圖 59
2.7.3 箱線圖 60
2.7.4 散點圖 62
2.7.5 折線圖 65
習(xí)題2 66
第3章 點估計 69
3.1 點估計與優(yōu)良性 69
3.1.1 點估計的概念 69
3.1.2 無偏性 69
3.1.3 有效性 70
3.1.4 均方誤差準(zhǔn)則 71
3.1.5 相合性 71
3.1.6 漸近正態(tài)性 73
3.2 矩估計 74
3.3 極大似然估計 75
3.3.1 極大似然估計的原理 76
3.3.2 極大似然估計的性質(zhì) 80
3.4 一致最小方差無偏估計 80
3.4.1 一致最小方差無偏估計的概念 80
3.4.2 零無偏估計法 82
3.4.3 充分完備統(tǒng)計量法 83
3.5 Cramer-Rao不等式 83
3.5.1 C-R正則分布族與Fisher信息 83
3.5.2 統(tǒng)計量的Fisher信息 86
3.5.3 信息不等式與有效估計 86
3.6 U統(tǒng)計量 89
3.7 同變估計 90
3.7.1 同變性的引入 90
3.7.2 最優(yōu)同變估計 91
3.7.3 Pitman估計 92
習(xí)題3 93
第4章 假設(shè)檢驗 95
4.1 基本概念 95
4.1.1 假設(shè)檢驗問題 95
4.1.2 拒絕域與檢驗統(tǒng)計量 96
4.1.3 兩類錯誤和功效函數(shù) 96
4.1.4 Neyman-Pearson原則 97
4.1.5 檢驗函數(shù)與充分統(tǒng)計量 98
4.2 Neyman-Pearson基本引理 99
4.2.1 最大功效檢驗 99
4.2.2 一致最大功效檢驗 101
4.3 似然比檢驗 102
4.4 正態(tài)總體的參數(shù)檢驗 104
4.4.1 均值的檢驗 104
4.4.2 方差的檢驗 109
4.5 非參數(shù)假設(shè)檢驗 112
4.5.1 皮爾遜?2擬合檢驗 113
4.5.2 柯爾莫哥洛夫-斯米爾諾夫
檢驗法 116
4.5.3 符號檢驗法 118
4.5.4 Wilcoxon符號秩檢驗 121
4.5.5 Wilcoxon-Mann-Whitney秩和
檢驗 124
4.5.6 游程檢驗 126
習(xí)題4 127
第5章 區(qū)間估計 130
5.1 區(qū)間估計的基本概念 130
5.2 置信區(qū)間(置信域)的構(gòu)造 133
5.2.1 樞軸量法 133
5.2.2 假設(shè)檢驗法 136
5.2.3 近似分布法 138
5.3 一致最精確置信區(qū)間(置信限) 138
習(xí)題5 140
第6章 回歸分析 142
6.1 引言 142
6.2 線性回歸模型 144
6.2.1 最小二乘估計 145
6.2.2 最小二乘估計的性質(zhì) 148
6.3 模型的評價與檢驗 150
6.3.1 模型的評價 150
6.3.2 模型的檢驗 152
6.4 響應(yīng)變量的預(yù)測 156
6.5 廣義最小二乘估計 157
6.6 回歸診斷 158
6.6.1 殘差分析 159
6.6.2 影響分析 163
6.6.3 多重共線性分析 166
6.7 有偏估計 169
6.7.1 嶺估計 169
6.7.2 主成分回歸 172
6.8 Box-Cox變換 175
習(xí)題6 178
附錄A R語言簡介 181
附錄B 非參數(shù)密度估計 198
附錄C 非參數(shù)回歸 208
附錄D 常用的統(tǒng)計表 216
參考文獻 239