統(tǒng)計挖掘與機(jī)器學(xué)習(xí):大數(shù)據(jù)預(yù)測建模和分析技術(shù)(原書第3版)
定 價:149 元
叢書名:數(shù)據(jù)科學(xué)與工程技術(shù)叢書
- 作者:[美]布魯斯·拉特納(Bruce Ratner)
- 出版時間:2021/9/1
- ISBN:9787111689942
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP311.13
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
本書是一本區(qū)分統(tǒng)計數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘的圖書。它創(chuàng)造性地匯編了數(shù)據(jù)挖掘技術(shù),解決了對經(jīng)典和現(xiàn)代統(tǒng)計方法框架的擴(kuò)展,用于預(yù)測建模和大數(shù)據(jù)分析。SM-DM為數(shù)據(jù)挖掘領(lǐng)域新晉的數(shù)據(jù)科學(xué)家所面臨的共同問題提供了適當(dāng)?shù)慕鉀Q方案。它的展示側(cè)重于數(shù)據(jù)科學(xué)家(通常被稱為統(tǒng)計學(xué)家、數(shù)據(jù)采礦者和數(shù)據(jù)分析師)的需求,提供實(shí)用但又強(qiáng)大的、簡單而又有洞察力的量化技術(shù),其中大部分使用了新機(jī)器學(xué)習(xí)影響改進(jìn)的舊統(tǒng)計方法。
本書創(chuàng)造性地匯編了數(shù)據(jù)挖掘技術(shù),將統(tǒng)計數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘進(jìn)行了區(qū)分,對經(jīng)典和現(xiàn)代統(tǒng)計方法框架進(jìn)行了擴(kuò)展,以用于預(yù)測建模和大數(shù)據(jù)分析。本書為數(shù)據(jù)挖掘領(lǐng)域新晉的數(shù)據(jù)科學(xué)家所面臨的共同問題提供了適當(dāng)?shù)慕鉀Q方案,并側(cè)重于數(shù)據(jù)科學(xué)家的需求,提供了實(shí)用且強(qiáng)大、簡單而富有洞察力的量化技術(shù),其中大部分使用了受新機(jī)器學(xué)習(xí)影響改進(jìn)的舊統(tǒng)計方法。 在這本暢銷書的新版里,作者大幅修改并重新組織章節(jié)內(nèi)容,新增了一些富有創(chuàng)意且用途廣泛的機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘技術(shù)方面的內(nèi)容。簡單而有針對性的量化處理方法使得本書在數(shù)據(jù)挖掘圖書領(lǐng)域別具一格。
第3版前言
大數(shù)據(jù)的預(yù)測分析法在本書第2版出版之后的四年來一直保持著穩(wěn)定的熱度。我之所以決定寫作新版,不是因?yàn)榈?版的成功,而是因?yàn)槲沂盏降拇罅空娣答仯ㄗx者來信)。而且,重要的是,我需要分享解決問題的方法。這些問題還沒有被人們普遍接受的、可靠的或者已知的解決方案。與上一版一樣,約翰·圖基(John Tukey)原則是推進(jìn)統(tǒng)計學(xué)的發(fā)展以及提高靈活性、實(shí)用性、創(chuàng)新性和普遍性所必需的,是各章介紹的新分析法和建模方法論的試金石。
第3版的主要目標(biāo)如下:
1)擴(kuò)充核心內(nèi)容,包括解決問題的策略和方法,它們來自預(yù)測分析學(xué)術(shù)會議和統(tǒng)計建模研討會,以及我對Statistics on the Table [1]的一些想法。
2)重新編輯現(xiàn)有章節(jié),提高寫作質(zhì)量;修改結(jié)尾部分,使內(nèi)容更緊湊。
3)提供本書推薦的分析方法和建模的統(tǒng)計子程序。我使用Base SAS和STAT/SAS。這些子程序也可以從 http://www.geniq.net/articles.html#section9下載,代碼很容易轉(zhuǎn)換成用戶喜歡的其他語言。
在第2版的基礎(chǔ)上,本書新增了13章,它們穿插在原來的章節(jié)中間,以限度地保證內(nèi)容的連貫性。新章節(jié)如下:
第2章介紹統(tǒng)計學(xué)與數(shù)據(jù)科學(xué)。如果人們不留意,可能就會按下刪除鍵,刪掉統(tǒng)計學(xué)和統(tǒng)計學(xué)家,代之以科學(xué)和數(shù)據(jù)科學(xué)家。我討論了近期出現(xiàn)的術(shù)語數(shù)據(jù)科學(xué)是否意味著統(tǒng)計學(xué)是一個發(fā)展更快的領(lǐng)域的子集合,或者數(shù)據(jù)科學(xué)是否掩蓋了當(dāng)前的統(tǒng)計學(xué)應(yīng)用狀況。
第8章介紹一個市場份額估算模型,其獨(dú)特之處是不采用常規(guī)的基于抽樣調(diào)研的市場份額情境分析,而是采用主成分分析(PCA)作為估算一個真實(shí)案例的市場份額的基礎(chǔ)。我提供了構(gòu)建這個案例研究的市場份額模型的SAS子程序。
第11章介紹無抽樣調(diào)研數(shù)據(jù)預(yù)測錢包份額。這種預(yù)測錢包份額(SOW)的日常方法需要抽樣調(diào)研數(shù)據(jù)。由于抽樣調(diào)研工作耗時多、成本高,而且會出現(xiàn)不可靠數(shù)據(jù),所以通常不采用。我提供了一種不需要數(shù)據(jù)就能預(yù)測SOW的兩步法。步定義一個準(zhǔn)SOW并通過模擬法對總金額進(jìn)行估算。第二步采用分?jǐn)?shù)邏輯斯諦回歸法預(yù)測SOW_q,巧妙地將普通的邏輯斯諦回歸用于比例或比率不變的因變量。我給出了詳細(xì)的案例分析和SAS子程序,讀者會發(fā)現(xiàn)這種方法很有價值。
第19章提出了一種基于模型的潛在類別分析(LCA)聚類方法。這種細(xì)分的創(chuàng)新型策略包含在時間序列數(shù)據(jù)的應(yīng)用之中。時間序列LCA模型是一種完全不同的方法,可以作為處理截面數(shù)據(jù)集中的時間序列數(shù)據(jù)的模板。這種LCA法可以替代目前流行的基于數(shù)據(jù)的啟發(fā)式k均值法。我提供了SAS子程序,數(shù)據(jù)挖掘人員可以用來執(zhí)行與演示類似的市場細(xì)分工作。我還提供了一種將時間序列數(shù)據(jù)合并到其他截面數(shù)據(jù)集中的獨(dú)特方法。
隨后是第20章。文獻(xiàn)通常會介紹各種可以用來進(jìn)行市場細(xì)分的聚類方法,而有關(guān)如何解讀細(xì)分結(jié)果的文獻(xiàn)卻寥寥無幾。這一章提供了一種理解客戶細(xì)分的便捷方法。我用一個常見的簡單例子說明新方法,以充分展示這種方法的威力。本章提供了執(zhí)行這種新方法所用的SAS子程序,數(shù)據(jù)挖掘人員可以將這個有價值的統(tǒng)計技術(shù)收入工具箱。
第21章是第20章的擴(kuò)展。本章的目的是提供一種理解統(tǒng)計回歸模型的簡單方法,即普通小二乘法和邏輯斯諦回歸(LR)模型。我用一個LR模型演示了這種方法,展示了這種方法的威力。這種方法含有補(bǔ)充信息,用于彌補(bǔ)一直以來人們需要依靠回歸系數(shù)才能理解統(tǒng)計回歸模型的不足。我提供了SAS子程序,可以作為其他統(tǒng)計方法的一個有價值的補(bǔ)充。
第23章介紹大數(shù)據(jù)建模,接在使用CHAID作為歸因方法的章節(jié)之后。缺失的數(shù)據(jù)會警告統(tǒng)計學(xué)家:除非你知道如何接納我,否則你毫無勝算。在大數(shù)據(jù)出現(xiàn)之前,用傳統(tǒng)的基于數(shù)據(jù)的方法(完整案例分析)處理任何數(shù)據(jù)集都會出現(xiàn)問題。這些方法能否有效用于大數(shù)據(jù)分析令人懷疑。我提出了一個兩步法,即先用完整的回應(yīng)數(shù)據(jù)建模,然后用PCA對不完整的回應(yīng)數(shù)據(jù)建模。這兩個模型可以單獨(dú)使用,也可以與具體任務(wù)目標(biāo)結(jié)合使用。我提供了這種方法的SAS子程序,它會成為統(tǒng)計建模者的一個有用工具。
第24章高度融合了藝術(shù)、科學(xué)、數(shù)字和詩歌,它們都受到了埃及金字塔、達(dá)·芬奇和愛因斯坦的啟發(fā)。這一章會引發(fā)你的思考。
第27章是對前一章的補(bǔ)充。營銷人員使用十分位分析評估他們的回應(yīng)模型相對于隨機(jī)獲得的回應(yīng)的可預(yù)測優(yōu)勢。我定義了兩種新指標(biāo),即回應(yīng)模型十分位分析精確度和隨機(jī)模型十分位精確度,可以讓營銷人員對回應(yīng)模型的優(yōu)缺點(diǎn)進(jìn)行更深入的評估。我提供了構(gòu)建這兩種新指標(biāo)的SAS子程序,這會成為市場營銷統(tǒng)計學(xué)家的可靠工具。
第28章將評估回應(yīng)模型的方法擴(kuò)展到適當(dāng)使用對照組(文獻(xiàn)中使用諸如提升或凈提升度模型這類名稱),以替代第27章中討論的隨機(jī)模型。有關(guān)凈提升度模型的文獻(xiàn)有很多,有些相互矛盾而且容易引起混淆。我提供了另一種方法T-C凈提升度模型,這是一個簡單、直觀、可靠、易于實(shí)現(xiàn)和理解的模型,緩解了有關(guān)這個主題的文獻(xiàn)之間的不相容情況。我提供了T-C凈提升度模型的SAS子程序,統(tǒng)計學(xué)家可以用于建模,而不必購買昂貴的軟件。
對于統(tǒng)計學(xué)家來說,當(dāng)踏上數(shù)據(jù)處理旅程時,第34章會給
第3版前言
第2版前言
致謝
關(guān)于作者
第1章 引論 1
1.1 個人計算機(jī)與統(tǒng)計學(xué) 1
1.2 統(tǒng)計學(xué)和數(shù)據(jù)分析 2
1.3 EDA簡介 3
1.4 EDA范式 4
1.5 EDA的弱點(diǎn) 5
1.6 小數(shù)據(jù)和大數(shù)據(jù) 5
1.6.1 數(shù)據(jù)規(guī)模特征 6
1.6.2 數(shù)據(jù)規(guī)模:個人觀點(diǎn) 7
1.7 數(shù)據(jù)挖掘范式 7
1.8 統(tǒng)計學(xué)和機(jī)器學(xué)習(xí) 8
1.9 統(tǒng)計數(shù)據(jù)挖掘 9
參考資料 9
第2章 數(shù)據(jù)處理相關(guān)學(xué)科:統(tǒng)計學(xué)和數(shù)據(jù)科學(xué) 11
2.1 引言 11
2.2 背景 11
2.3 統(tǒng)計學(xué)與數(shù)據(jù)科學(xué)的比較 12
2.4 討論:統(tǒng)計學(xué)與數(shù)據(jù)科學(xué)的不同之處 18
2.5 本章小結(jié) 19
2.6 結(jié)語 19
參考資料 19
第3章 變量評估的兩種基本數(shù)據(jù)挖掘方法 21
3.1 引言 21
3.2 相關(guān)系數(shù) 21
3.3 散點(diǎn)圖 22
3.4 數(shù)據(jù)挖掘 24
3.4.1 示例3.1 24
3.4.2 示例3.2 24
3.5 平滑散點(diǎn)圖 25
3.6 一般關(guān)聯(lián)性檢驗(yàn) 27
3.7 本章小結(jié) 28
參考資料 29
第4章 用于評估成對變量的基于CHAID的數(shù)據(jù)挖掘方法 30
4.1 引言 30
4.2 散點(diǎn)圖 30
4.3 平滑散點(diǎn)圖 31
4.4 CHAID入門 32
4.5 用更平滑的散點(diǎn)圖進(jìn)行基于CHAID的數(shù)據(jù)挖掘 33
4.6 本章小結(jié) 36
參考資料 37
第5章 校直數(shù)據(jù)的簡單性和可取性對建模十分重要 38
5.1 引言 38
5.2 數(shù)據(jù)的直度和對稱度 38
5.3 數(shù)據(jù)挖掘是高級概念 39
5.4 相關(guān)系數(shù) 39
5.5 (xx3,yy3)散點(diǎn)圖 40
5.6 挖掘(xx3,yy3)關(guān)系 41
5.7 基于遺傳算法的數(shù)據(jù)挖掘如何處理數(shù)據(jù) 43
5.8 校直多個變量 43
5.9 本章小結(jié) 44
參考資料 44
第6章 排序數(shù)據(jù)對稱化:提高數(shù)據(jù)預(yù)測能力的統(tǒng)計數(shù)據(jù)挖掘方法 45
6.1 引言 45
6.2 量度范圍 45
6.3 莖葉圖 47
6.4 箱線圖 47
6.5 排序數(shù)據(jù)對稱處理方法的圖示 47
6.5.1 示例1 48
6.5.2 示例2 50
6.6 本章小結(jié) 56
參考資料 56
第7章 主成分分析:多變量評估的統(tǒng)計數(shù)據(jù)挖掘方法 57
7.1 引言 57
7.2 EDA重新表述范式 57
7.3 關(guān)鍵點(diǎn) 58
7.4 PCA基礎(chǔ) 58
7.5 示例詳解 58
7.6 PCA的代數(shù)特征 59
7.7 一個不常見示例 60
7.7.1 R_CD元素(X1,X2,X3,X4,X5,X6)主成分分析 61
7.7.2 R_CD元素(X1,X2,X3,X4,X5,X6)主成分分析結(jié)果 61
7.8 用PCA構(gòu)造準(zhǔn)交互變量 62
7.9 本章小結(jié) 66
第8章 市場份額估算:一個特殊的數(shù)據(jù)挖掘案例 67
8.1 引言 67
8.2 背景 67
8.3 一個特殊的數(shù)據(jù)挖掘案例 68
8.4 構(gòu)建RAL的YUM市場份額模型 69
8.4.1 市場份額模型的十分位分析 76
8.4.2 YUM_3mos市場份額模型的結(jié)論 76
8.5 本章小結(jié) 77
附錄8.A 生成 PROMO_Code啞變量 77
附錄8.B PROMO_Code啞變量的PCA 77
附錄8.C PROMO_Code啞變量上的邏輯斯諦回歸YUM_3mos 78
附錄8.D 生成YUM_3mos_wo_PROMO_CodeEff 78
附錄 8.E 將變量標(biāo)準(zhǔn)化為位于[0, 1]內(nèi) 78
參考資料 79
第9章 相關(guān)系數(shù)在[-1, 1]內(nèi)取值,是這樣嗎 80
9.1 引言 80
9.2 相關(guān)系數(shù)的基礎(chǔ)知識 80
9.3 計算相關(guān)系數(shù) 81
9.4 重新配對 82
9.5 計算經(jīng)調(diào)整的相關(guān)系數(shù) 84
9.6 重新配對的意義 84
9.7 本章小結(jié) 84
第10章 邏輯斯諦回歸:回應(yīng)建模方法 85
10.1 引言 85
10.2 邏輯斯諦回歸模型 86
10.2.1 示例 86
10.2.2 為LRM打分 87
10.3 案例分析 88
10.4 logit值和logit散點(diǎn)圖 89
10.5 校直數(shù)據(jù)的重要性 90
10.6 校直數(shù)據(jù)的重述 91
10.6.1 冪階梯法 91
10.6.2 突起規(guī)則 91
10.6.3 測量校直數(shù)據(jù) 92
10.7 校直示例數(shù)據(jù) 92
10.7.1 FD2_OPEN的重述 93
10.7.2 INVESTMENT的重述 94
10.8 在突起規(guī)則不適用的情況下選用的技術(shù) 95
10.8.1 擬合logit值散點(diǎn)圖 95
10.8.2 平滑預(yù)測值與實(shí)際值散點(diǎn)圖 96
10.9 MOS_OPEN的重述 96
10.10 評估變量的重要性 99
10.10.1 計算G統(tǒng)計量 99
10.10.2 單變量的重要性 100
10.10.3 變量子集合的重要性 100
10.10.4 不同變量子集合的重要性比較 100
10.11 案例的重要變量 101
10.12 變量的相對重要性 102
10.13 案例變量的子集合 103
10.14 模型預(yù)測準(zhǔn)確性的可視化指標(biāo) 104
10.14.1 得分組的平滑殘差散點(diǎn)圖 104
10.14.2 基于十分位組的平滑預(yù)測與實(shí)際值散點(diǎn)圖 106
10.