《深入淺出統(tǒng)計學》具有“深入淺出系列”的一貫特色,提供符合直覺的理解方式,讓統(tǒng)計理論的學習既有趣又自然。從應(yīng)對考試到解決實際問題,無論你是學生還是數(shù)據(jù)分析師,都能從中受益。本書涵蓋的知識點包括:信息可視化、概率計算、幾何分布、二項分布及泊松分布、正態(tài)分布、統(tǒng)計抽樣、置信區(qū)間的構(gòu)建、假設(shè)檢驗、卡方分布、相關(guān)與回歸等等,完整涵蓋AP考試范圍。本書運用充滿互動性的真實世界情節(jié),教給你有關(guān)這門學科的所有基礎(chǔ),為這個枯燥的領(lǐng)域帶來鮮活的樂趣,不僅讓你充分掌握統(tǒng)計學的要義,更會告訴你如何將統(tǒng)計理論應(yīng)用到日常生活中。
道恩?格里菲思(Dawn Griffiths)曾獲得數(shù)學專業(yè)的一級榮譽學位,后又轉(zhuǎn)向從事軟件開發(fā)事業(yè),目前將IT咨詢、寫作及數(shù)學集于一身。道恩曾拒絕了一份研究極為罕見的微積分方程的博士獎學金,在她不從事深入淺出系列圖書的寫作的時候,她的興趣在打太極拳、織梭結(jié)花邊和烹飪美食上。
道恩?格里菲思(Dawn Griffiths)曾獲得數(shù)學專業(yè)的一級榮譽學位,后又轉(zhuǎn)向從事軟件開發(fā)事業(yè),目前將IT咨詢、寫作及數(shù)學集于一身。道恩曾拒絕了一份研究極為罕見的微積分方程的博士獎學金,在她不從事深入淺出系列圖書的寫作的時候,她的興趣在打太極拳、織梭結(jié)花邊和烹飪美食上。
序言
1 信息圖形化:第一印象
2 集中趨勢的量度:中庸之道
3 分散性與變異性的量度:強大的“距”
4 概率計算:把握機會
5 離散概率分布的運用:善用期望
6 排列與組合:排序、排位、排
7 幾何分布、二項分布及泊松分布:堅持離散
8 正態(tài)分布的運用:保持正態(tài)
9 再談?wù)龖B(tài)分布的運用:超越正態(tài)
10 統(tǒng)計抽樣的運用:抽取樣本
11 總體和樣本的估計:進行預(yù)測
12 置信區(qū)間的構(gòu)建:自信地猜測
13 假設(shè)檢驗的運用:研究證據(jù)
14 χ2分布:繼續(xù)探討……
15 相關(guān)與回歸:我的線條如何?
附錄i 尾聲:正文未及的十大拓展
附錄ii 統(tǒng)計表:快來查表
細分目錄及各章引子
序言
大腦對待統(tǒng)計學的態(tài)度。一邊是你努力想學會一些知識,一邊是你的大腦忙著開小差。你的大腦在想:“最好把位置留給更重要的事,像該離哪些野生動物遠點啊,像光著身子滑雪是不是個壞點子啊。”既然如此,你該如何引誘你的大腦意識到,懂得統(tǒng)計學是你安身立命的根本?
誰適合閱讀本書? xxx
我們了解你在想什么 xxxi
元認知 xxxiii
征服大腦 xxxv
本書自述 xxxvi
技術(shù)顧問組 xxxviii
致謝 xxxix
1
信息圖形化
第一印象
在為手頭數(shù)據(jù)無法給出事情真相而發(fā)愁嗎?統(tǒng)計能化繁為簡,幫助你讓一堆堆令人困惑的數(shù)據(jù)發(fā)揮作用。當你發(fā)現(xiàn)數(shù)據(jù)的真相后,接下來就需要借助可視化的方法表現(xiàn)出來,使之公之于眾。為了找到最合適的圖表完成這個過程,請你整理衣衫,帶上最好的計算尺,和我們一起趕往“統(tǒng)計邦”吧。
統(tǒng)計量無處不在 2
為何學習統(tǒng)計學? 3
從兩張圖說起 4
呆板的餅圖 8
條形圖更具精確性 10
垂直條形圖 10
水平條形圖 11
標度的影響力 12
使用頻數(shù)標度 13
處理多批數(shù)據(jù) 14
類別與數(shù)字 18
處理分組數(shù)據(jù) 19
繪制直方圖起步:求出長方形寬度 20
第1步:求長方形寬度 26
第2步:求長方形高度 27
第3步:畫出直方圖 28
認識累積頻數(shù) 34
繪制累積頻數(shù)圖 35
選擇正確的圖形 39
2
集中趨勢的量度
中庸之道
有時候,把握問題核心才是當務(wù)之急。從一大堆數(shù)字中看出模式和趨勢可能頗為不易,而求出平均數(shù)往往是把握全局的第一步。有了平均數(shù)就能迅速找出數(shù)據(jù)中最具代表性的數(shù)值,得出重要結(jié)論。在本章中,我們將介紹幾種方法,幫助你計算最重要的統(tǒng)計量—均值、中位數(shù)、眾數(shù)。你將開始學習如何有效地匯總數(shù)據(jù),盡可能得出簡練、有用的結(jié)果。
歡迎來到健身俱樂部 46
均值:平均數(shù)的一般量度 47
均值數(shù)學 48
處理未知條件 49
再說均值 50
再說健身俱樂部 53
人人都在練功夫 54
我們的數(shù)據(jù)中存在異常值 57
真兇是異常值 58
飲水機邊的對話 60
尋找中位數(shù) 61
求中位數(shù)三步法: 62
生意日益興隆 65
小鴨呱呱游泳班 66
均值和中位數(shù)出了什么問題? 69
我們該怎么處理這樣的數(shù)據(jù)呢? 69
均值訪談 71
認識眾數(shù) 73
求眾數(shù)三步法 74
3
分散性與變異性的量度
強大的“距”
世事可靠不可靠,我們該問誰?平均數(shù)在尋找數(shù)據(jù)集典型值方面十分了得,但平均數(shù)并不能說明一切。平均數(shù)能讓你知道數(shù)據(jù)中心所在,但若要給數(shù)據(jù)下結(jié)論,僅有均值、中位數(shù)和眾數(shù)往往無法提供充足信息。在本章中,我們將開始分析各種距和差,讓你的數(shù)據(jù)分析技術(shù)進入新境界。
招聘:隊員一名 84
我們需要比較球員得分 85
使用全距區(qū)分數(shù)據(jù)集 86
異常值帶來的問題 89
我們需要擺脫異常值 91
四分位數(shù)出手相救 92
四分位距剔除異常值 93
剖析四分位數(shù) 94
我們并不局限于使用四分位數(shù) 98
什么是百分位數(shù)? 99
用箱線圖繪制各種“距” 100
變異性比分散性更具體 104
計算平均距離 105
我們可以用方差計算變異性…… 106
但標準差才是更直觀的量度方法 107
標準差訪談 108
方差速算法 113
碰上需要比較基準的情況該怎么辦? 118
使用標準分比較不同數(shù)據(jù)集中的數(shù)值 119
標準分釋義 120
統(tǒng)計邦全明星籃球隊贏了聯(lián)賽! 125
4
概率計算
把握機會
人生無常瞬息之間的變化有時難以一一料定。但有些事情會比其他事情更有可能發(fā)生,這就為概率理論提供了大顯身手的舞臺。通過概率能評估出現(xiàn)各種結(jié)果的可能性,讓你預(yù)測未來。知悉可能出現(xiàn)的結(jié)果則可幫助你作出有根據(jù)的決策。本章將讓你了解更多概率知識,學會如何掌控未來!
肥蛋大滿貫 128
轉(zhuǎn)起來吧,輪盤! 129
幾率有多大? 132
求解輪盤概率 135
維恩圖:概率的圖形表示 136
你還可以將幾個概率相加 142
互斥事件與相交事件 147
交集帶來的問題 148
更多表示法 149
又一次倒霉的轉(zhuǎn)動…… 155
設(shè)定條件 156
求解條件概率 157
利用概率樹還能計算條件概率 159
概率樹使用訣竅 161
第1步:求P(黑∩偶) 167
第2步:求P(偶) 169
第3步:求P(黑|偶) 170
利用全概率公式求解P(B) 172
認識貝葉斯定理 173
如果幾個事件互有影響,則為相關(guān)事件 181
如果幾個事件互不影響,則為獨立事件 182
再談獨立事件概率計算 183
5
離散概率分布的運用
善用期望
意外從天而降,未來如何演變?前文講到如何通過概率得知發(fā)生某些事件的可能性的大小?上Ц怕什⒎侨f能,它無法指出所發(fā)生的這些事情的整體影響,也無法指出這種整體影響對你的具體影響。不錯,你有時會在輪盤賭中大賺特賺,但你賺到的錢真的填得平那些賠掉的錢嗎?在本章中,我們將講述如何利用概率預(yù)測長期結(jié)果,以及如何量度這些預(yù)測結(jié)果的確定性。
重回肥蛋賭場 198
我們可以寫出老虎機概率分布 201
期望指示預(yù)測結(jié)果…… 204
方差指示結(jié)果的分散性 205
方差和概率分布 206
讓我們算算老虎機的方差 207
肥蛋改了價碼 212
E(X)與E(Y)之間存在線性關(guān)系 217
老虎機變換 218
線性變換的通用公式 219
每一次拉桿為一個獨立觀測值 222
觀測值速算法 223
新老虎機在等你 229
E(X) + E(Y)= E(X + Y) 230
E(X) – E(Y)= E(X – Y) 231
線性變換也可以做加減運算 232
發(fā)了! 238
6
排列與組合
排序、排位、排
順序有時很重要 一 清點某些事物的所有可能排序方法耗時頗巨,可這卻是計算某些概率必不可少的過程 一 麻煩就在這里。在本章中,我們將介紹推導出這類信息的簡便方法,為你免除清點一切可能結(jié)果的煩惱。來吧,讓我們看看如何計算概率。
統(tǒng)計邦德比杯馬賽 242
三馬賽正在進行 243
馬兒們有幾種穿越終點線的方式? 245
計算排位數(shù)目 246
圓形排位 247
花樣賽開始了 251
按個體排名與按種類排名不是一回事 252
我們需要按種類排列動物 253
推導出用于重復(fù)排列的公式 254
二十馬賽正在進行 257
前三甲歸屬方式有幾種? 258
何為排列 259
假如馬匹排名無關(guān)緊要 260
何為組合 261
組合訪談 262
比賽結(jié)束 268
7
幾何分布、二項分布及泊松分布
堅持離散
計算概率分布頗為費時。前面講到如何計算和利用概率分布,不過,如果方法更簡單一些,計算速度更快一些,效果豈不更好?在本章中,我們將介紹一些特殊的概率分布,這些概率分布有著十分固定的模式。只要懂得這些模式并善加利用,就能以前所未有的速度計算概率、期望、方差。接著讀吧,讓我們一起來認識幾何分布、二項分布及泊松分布。
我們需要求出查德的概率分布 273
這種概率分布有一種固定模式 274
概率分布可以用代數(shù)式表示 277
幾何分布對不等式同樣有用 279
幾何分布的期望模式 280
期望是 1/p 281
求當前分布的方差 283
幾何分布簡明指南 284
轉(zhuǎn)椅贏贏贏! 287
你已經(jīng)掌握了幾何分布 287
玩下去,還是轉(zhuǎn)身走? 291
推廣到求3個問題的概率 293
進一步推導概率算式 296
期望和方差如何計算? 298
二項分布的期望與方差 301
二項分布簡明指南 302
泊松分布的期望和方差 308
概率分布是怎樣的? 312
組合泊松變量 313
偽裝下的泊松分布 316
泊松分布簡明指南 319
8
正態(tài)分布的運用
保持正態(tài)
離散概率分布并非無所不能。到目前為止,我們接觸到的都是可以指定確切數(shù)值的概率分布。然而并非所有數(shù)據(jù)集合都是如此,還有幾類數(shù)據(jù)并不符合我們之前遇到的概率分布。我們將在這一章里講解所謂的連續(xù)型概率分布,并介紹最重要的概率分布類型之一 — 正態(tài)分布。
離散數(shù)據(jù)可取確切值…… 326
但并非所有數(shù)值型數(shù)據(jù)都是離散的 327
推遲幾分鐘? 328
我們需要求連續(xù)數(shù)據(jù)的概率分布 329
概率密度函數(shù)可用于描述連續(xù)數(shù)據(jù) 330
概率 = 面積 331
欲算概率,先求f(x)…… 332
再求面積,可得概率 333
概率算好了 337
尋找靈魂伴侶 338
男伴模型 339
正態(tài)分布是連續(xù)數(shù)據(jù)的“理想”模型 340
如何求正態(tài)概率? 341
正態(tài)概率計算三步法 342
第1步:確定分布 343
第2步:標準化為N(0, 1) 344
欲完成標準化,先移動均值…… 345
然后收窄 345
現(xiàn)在,為要計算其概率的特定數(shù)值求出Z 346
第3步:用方便易用的概率表查找概率 349
9
再談?wù)龖B(tài)分布的運用
超越正態(tài)
但愿所有的概率分布都是正態(tài)分布。有了正態(tài)分布,日子好過多了—既能一口氣查出整個范圍的概率,又能留下點時間玩游戲,誰還會花時間一個一個地計算概率呢?在本章中,你將學習如何閃電般解決更復(fù)雜的問題,還將懂得如何將正態(tài)分布的便利運用到其他概率分布上。
雙雙登上愛情過山車 363
正態(tài)新娘 + 正態(tài)新郎 364
終究還是體重問題 365
綜合體重符合哪種分布? 367
求解概率 370
更多人想坐愛情過山車 375
線性變換描述了數(shù)據(jù)的基本變化…… 376
而獨立觀察結(jié)果描述的是你有多少數(shù)值 377
獨立觀察結(jié)果的期望和方差 378
接著玩,還是轉(zhuǎn)身走? 383
正態(tài)分布出手相救 386
何時用正態(tài)分布近似代替二項分布 389
再談?wù)龖B(tài)近似 394
二項分布是離散分布,正態(tài)分布則是連續(xù)分布 395
在計算近似值之前先進行連續(xù)性修正 396
組合訪談 404
大家坐上愛情過山車 405
何時用正態(tài)分布近似代替泊松分布 407
婚禮成功! 413
10
統(tǒng)計抽樣的運用
抽取樣本
統(tǒng)計需要處理數(shù)據(jù),數(shù)據(jù)從何而來?有時候數(shù)據(jù)很容易收集 — 例如參加一家健身俱樂部的人員的年齡,或一家游戲公司的銷售數(shù)據(jù);但有時候不太容易,這時候該怎么辦? — 當事件數(shù)量十分龐大時,很難決定該從何處著手收集數(shù)據(jù)。在本章中,我們將看看如何在實際工作中成功收集數(shù)據(jù) — 有效地、正確地、省時省錢地收集數(shù)據(jù)。歡迎來到抽樣天地。
曼帝糖果公司口味檢驗 416
糖球吃光了 417
對糖球樣本而非糖球總體進行檢驗 418
抽樣方法 419
當抽樣有誤時 420
如何設(shè)計樣本 422
確定抽樣空間 423
樣本有時會發(fā)生偏倚 424
偏倚的來源 425
如何選擇樣本 430
簡單隨機抽樣 430
如何選取簡單隨機樣本 431
其他類型的抽樣 432
我們可以用分層抽樣…… 432
或可用整群抽樣…… 433
或甚至可用系統(tǒng)抽樣 433
曼帝糖果公司有了樣本 439
11
總體和樣本的估計
進行預(yù)測
得樣本而知總體,不亦樂乎?若想成為樣本專家,首先要懂得如何最有效地利用到手的樣本—利用樣本準確地預(yù)測總體,并以一定方式說明預(yù)測結(jié)果的可靠程度。在本章中,我們將講解如何通過樣本了解總體,以及如何通過總體了解樣本。
糖球口味到底能持續(xù)多久? 442
讓我們首先估計總體均值 443
點估計量可以近似總體參數(shù) 444
讓我們估計總體方差 448
我們需要一個有別于樣本方差的點估計量 449
哪個公式用在哪里? 451
這是一個比例問題 454
這和抽樣有什么關(guān)系? 459
比例的抽樣分布 460
Ps的期望是多少? 462
Ps的方差是多少? 463
求解Ps的分布 464
Ps符合正態(tài)分布 465
我們需要求樣本均值的概率 471
均值的抽樣分布 472
求X的期望 474
X的方差是多少? 476
X如何分布? 480
當n很大時,X仍然可以用正態(tài)分布近似 481
使用中心極限定理 482
12
置信區(qū)間的構(gòu)建
自信地猜測
有時候樣本無法給出足夠正確的結(jié)果。前面講到如何用點估計量估計總體均值、方差或一定比例的精確值。問題在于,你怎么能肯定自己的估計完全正確?畢竟,你僅僅依靠一個樣本對總體作出假設(shè),如果這個樣本出問題怎么辦?本章將介紹另一種估計總體統(tǒng)計量的方法 — 一種考慮了不確定性的方法。拿出你的概率表,我們將向你講解置信區(qū)間的來龍去脈。
曼帝糖果出事了 488
精度引起的問題 489
認識置信區(qū)間 490
求解置信區(qū)間四步驟 491
第1步:選擇總體統(tǒng)計量 492
第2步:求出所選統(tǒng)計量的抽樣分布 492
第3步:決定置信水平 494
第4步:求出置信上下限 496
先求Z 497
用m改寫不等式 498
最后求X的數(shù)值 501
你求出了置信區(qū)間 502
步驟總結(jié) 503
置信區(qū)間簡便算法 504
第1步:選擇總體統(tǒng)計量 508
第2步:求X的概率分布 509
第3步:決定置信水平 512
第4步:求出置信上下限 513
t分布與正態(tài)分布比較 515
13
假設(shè)檢驗的運用
研究證據(jù)
他人的言論未必句句真實可信。問題是如何判斷他人的言論何時真,何時假?假設(shè)檢驗為你提供了一種方法—利用樣本檢驗各種統(tǒng)計斷言是否可能屬實。通過假設(shè)檢驗可以權(quán)衡證據(jù),檢驗極限結(jié)果—是純屬巧合,還是存在其他內(nèi)在根據(jù)?讓我們一起閱讀本章,看看如何利用假設(shè)檢驗證實或打消你內(nèi)心深處的疑慮。
統(tǒng)計邦新上市的神奇藥品 522
縱觀全局 526
假設(shè)檢驗六步驟 527
第1步:確定假設(shè) 528
第2步:選擇檢驗統(tǒng)計量 531
第3步:確定拒絕域 532
第4步:求出p值 535
第5步:樣本結(jié)果位于拒絕域中嗎? 537
第6步:作出決策 537
如果樣本增大會怎么樣? 540
讓我們再進行一次假設(shè)檢驗 543
第1步:確定假設(shè) 543
第2步:選擇檢驗統(tǒng)計量 544
在我們的檢驗統(tǒng)計中用正態(tài)分布近似二項分布 547
第3步:求出拒絕域 548
讓我們從第一類錯誤講起 556
再談第二類錯誤 557
發(fā)現(xiàn)鼾克檢驗的錯誤 558
我們需要求數(shù)值范圍 559
求P(第二類錯誤) 560
認識功效 561
14
x2分布
繼續(xù)探討……
有時候事實與期望并不相符。當以一種特定的概率分布為某種情況建模時,對于事物的長期可能結(jié)果,你有十分清晰的想法?扇绻谕c事實存在差別呢?你該如何判斷?—這些偏差是正常波動,還是說明概率模型存在問題?本章將講解如何利用χ2分布分析結(jié)果,排除可疑結(jié)果。
肥蛋賭場可能有麻煩 568
讓我們從老虎機開始 569
用2檢驗評估差異 571
檢驗統(tǒng)計量代表什么? 572
x2分布的兩個主要用途 573
表示自由度 574
顯著性是多少? 575
x 2假設(shè)檢驗 576
你解開了老虎機之謎 579
肥蛋遇到了新問題 585
x 2分布可以檢驗獨立性 586
可用概率求出期望頻數(shù) 587
頻數(shù)是多少? 588
我們還需要計算自由度 591
自由度計算方法歸納 596
得出算式…… 597
你救了肥蛋賭場 599
15
相關(guān)與回歸
我的線條如何?
你是否曾經(jīng)為某兩件事的相互關(guān)系困惑不已?前面講過的統(tǒng)計量只描述一個變量—如個人身高、籃球隊員得分或是糖球口味持續(xù)時間,但是,另外還有一些統(tǒng)計量可以說明變量之間的關(guān)系。了解事物的相互關(guān)系可以豐富你的信息,讓你了解真相,使你立于不敗之地。來吧,讓我們?yōu)槟憬榻B發(fā)現(xiàn)事物關(guān)系的秘訣: 相關(guān)與回歸。
讓我們分析天晴時數(shù)和聽眾人數(shù) 607
數(shù)據(jù)類型探討 608
二變量數(shù)據(jù)可視化 609
散點圖為你指出模式 612
相關(guān)關(guān)系與因果關(guān)系 614
用最佳擬合線預(yù)測數(shù)值 618
最佳猜測仍是猜測 619
我們需要將誤差最小化 620
認識誤差平方和 621
求最佳擬合線公式 622
求最佳擬合線斜率 623
求最佳擬合線的斜率,第二部分 624
b求出來了,a呢? 625
你已經(jīng)找出了關(guān)系 629
讓我們查看一些相關(guān)關(guān)系 630
用相關(guān)系數(shù)量度直線與數(shù)據(jù)的擬合度 631
相關(guān)系數(shù)r有專用計算公式 632
求音樂會數(shù)據(jù)的r 633
求音樂會數(shù)據(jù)的r(續(xù)) 634
i
附錄I:尾聲
正文未及的十大拓展
正文既已,余興未盡。我們覺得還有一些內(nèi)容是你需要知道的,對這些內(nèi)容只字不提恐有不妥,不過,其實也只需要簡單地提一提—我們誠摯地希望為你呈上一本厚薄適度的書,免得你為了捧起這本書學習還得先去健身中心練練臂力。因此,請先通讀一遍這里的知識點,再合上本書。
#1. 數(shù)據(jù)的其他表現(xiàn)形式 644
#2. 分布剖析 645
#3. 實驗 646
#4. 最小二乘回歸法的其他公式 648
#5. 決定系數(shù) 649
#6. 非線性關(guān)系 650
#7. 回歸線斜率的置信區(qū)間 651
#8. 抽樣分布 – 兩個均值之間的差異 652
#9. 抽樣分布 – 兩個比例之間的差異 653
#10. 連續(xù)概率分布的E(X)和Var(X) 654
ii
附錄II:統(tǒng)計表
快來查表
缺少值得信賴的概率表該怎么辦?僅僅了解概率分布是不夠的,有時還需要在標準概率表中查找概率。這份附錄給出了正態(tài)分布、t分布和Χ2分布的概率表,可在其中盡情查找各種概率。
標準正態(tài)分布表 658
t分布臨界值 660
2 臨界值 661