本書(shū)為數(shù)據(jù)挖掘入門(mén)級(jí)教材,共分8章,主要內(nèi)容分為三個(gè)專(zhuān)題:技術(shù)、數(shù)據(jù)和評(píng)估。技術(shù)專(zhuān)題包括決策樹(shù)技術(shù)、K-means算法、關(guān)聯(lián)分析技術(shù)、神經(jīng)網(wǎng)絡(luò)技術(shù)、回歸分析技術(shù)、貝葉斯分析、凝聚聚類(lèi)、概念分層聚類(lèi)、混合模型聚類(lèi)技術(shù)的EM算法、時(shí)間序列分析和基于Web的數(shù)據(jù)挖掘等常用的機(jī)器學(xué)習(xí)方法和統(tǒng)計(jì)技術(shù)。數(shù)據(jù)專(zhuān)題包括數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)處理模型和數(shù)據(jù)倉(cāng)庫(kù)及OLAP技術(shù)。評(píng)估專(zhuān)題包括利用檢驗(yàn)集分類(lèi)正確率和混淆矩陣,并結(jié)合檢驗(yàn)集置信區(qū)間評(píng)估有指導(dǎo)學(xué)習(xí)模型,使用無(wú)指導(dǎo)聚類(lèi)技術(shù)評(píng)估有指導(dǎo)模型,利用Lift和假設(shè)檢驗(yàn)比較兩個(gè)有指導(dǎo)學(xué)習(xí)模型,使用MS Excel 2010和經(jīng)典的假設(shè)檢驗(yàn)?zāi)P驮u(píng)估屬性,使用簇質(zhì)量度量方法和有指導(dǎo)學(xué)習(xí)技術(shù)評(píng)估無(wú)指導(dǎo)聚類(lèi)模型。
本書(shū)秉承教材風(fēng)格,強(qiáng)調(diào)廣度講解。注重成熟模型和開(kāi)源工具的使用,以提高學(xué)習(xí)者的應(yīng)用能力為目標(biāo);注重結(jié)合實(shí)例和實(shí)驗(yàn),加強(qiáng)基本概念和原理的理解和運(yùn)用;注重實(shí)例的趣味性和生活性,提高學(xué)習(xí)者學(xué)習(xí)的積極性。使用章后練習(xí)、計(jì)算和實(shí)驗(yàn)作業(yè)鞏固和檢驗(yàn)所學(xué)內(nèi)容;使用詞匯表附錄,解釋和規(guī)范數(shù)據(jù)挖掘?qū)W科專(zhuān)業(yè)術(shù)語(yǔ);使用適合教學(xué)的簡(jiǎn)單易用開(kāi)源的Weka和通用的MS Excel軟件工具實(shí)施數(shù)據(jù)挖掘驗(yàn)證和體驗(yàn)數(shù)據(jù)挖掘的精妙。
本書(shū)可作為普通高等院校計(jì)算機(jī)科學(xué)、信息科學(xué)、數(shù)學(xué)和統(tǒng)計(jì)學(xué)專(zhuān)業(yè)的入門(mén)教材,也可作為如經(jīng)濟(jì)學(xué)、管理學(xué)、檔案學(xué)等對(duì)數(shù)據(jù)管理、數(shù)據(jù)分析與數(shù)據(jù)挖掘有教學(xué)需求的其他相關(guān)專(zhuān)業(yè)的基礎(chǔ)教材。同時(shí),對(duì)數(shù)據(jù)挖掘技術(shù)和方法感興趣,致力于相關(guān)方面的研究和應(yīng)用的其他讀者,也可以從本書(shū)中獲取基本的指導(dǎo)和體驗(yàn)。
本書(shū)配有教學(xué)幻燈片、大部分章后習(xí)題和實(shí)驗(yàn)的參考答案以及課程大綱。
未來(lái)學(xué)家約翰·奈斯比特(John Naisbitt)驚呼:“人類(lèi)正被數(shù)據(jù)淹沒(méi),卻饑渴于信息!睆暮棋珶o(wú)際的數(shù)據(jù)海洋中發(fā)現(xiàn)潛在的、有價(jià)值的信息,是這個(gè)大數(shù)據(jù)時(shí)代的一個(gè)標(biāo)志性工作。
數(shù)據(jù)挖掘(Data Mining)是利用一種或多種計(jì)算機(jī)學(xué)習(xí)技術(shù),從數(shù)據(jù)中自動(dòng)分析并提取信息的處理過(guò)程,其目的是發(fā)現(xiàn)數(shù)據(jù)中潛在的和有價(jià)值的信息、知識(shí)、規(guī)律、聯(lián)系、模式,從而為解釋當(dāng)前行為和預(yù)測(cè)未來(lái)結(jié)果提供支持。數(shù)據(jù)挖掘一般使用機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、聯(lián)機(jī)分析處理、專(zhuān)家系統(tǒng)和模式識(shí)別等多種方法來(lái)實(shí)現(xiàn),是一門(mén)交叉學(xué)科,涉及數(shù)據(jù)庫(kù)技術(shù)、人工智能技術(shù)、統(tǒng)計(jì)學(xué)方法、可視化技術(shù)、并行計(jì)算等。數(shù)據(jù)挖掘是一種商業(yè)智能信息處理技術(shù),其圍繞商業(yè)目標(biāo),對(duì)大量商業(yè)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù),揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性,是一種深層次的商業(yè)數(shù)據(jù)分析方法。
本書(shū)作為一本數(shù)據(jù)挖掘的入門(mén)級(jí)教材,關(guān)注于數(shù)據(jù)挖掘的基本概念、基本原理和基本技術(shù)的介紹和實(shí)踐應(yīng)用。全書(shū)圍繞知識(shí)發(fā)現(xiàn)過(guò)程中的數(shù)據(jù)專(zhuān)題、技術(shù)專(zhuān)題和評(píng)估專(zhuān)題展開(kāi),包含大量實(shí)例和實(shí)驗(yàn)。實(shí)驗(yàn)采用Weka開(kāi)源數(shù)據(jù)挖掘工具和MS Excel 2010,兩者作為教學(xué)軟件,具有很好的通用性和易學(xué)易用性。本書(shū)最后附有詞匯表和數(shù)據(jù)挖掘數(shù)據(jù)集,包括了書(shū)中涉及的數(shù)據(jù)挖掘的最基本詞匯、例子及實(shí)驗(yàn)所用數(shù)據(jù)集。其中數(shù)據(jù)集有來(lái)自UCI的共享數(shù)據(jù)集,也有為了舉例和實(shí)驗(yàn)而設(shè)計(jì)的假想數(shù)據(jù)集。
本書(shū)分為8章和兩個(gè)附錄,其中戴紅編寫(xiě)了8章中的大部分內(nèi)容,常子冠和于寧編寫(xiě)了附錄A和附錄B,以及前8章的部分內(nèi)容。
本書(shū)目標(biāo)
本書(shū)希望幫助讀者達(dá)到以下學(xué)習(xí)目標(biāo)。
了解數(shù)據(jù)挖掘的技術(shù)定義和商業(yè)定義、作用和應(yīng)用領(lǐng)域。
了解數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)、數(shù)據(jù)查詢(xún)、專(zhuān)家系統(tǒng)的關(guān)系。
掌握數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的處理過(guò)程。
掌握數(shù)據(jù)挖掘的基本技術(shù)和方法,包括有指導(dǎo)的學(xué)習(xí)技術(shù)——決策樹(shù)技術(shù)、產(chǎn)生式規(guī)則、神經(jīng)網(wǎng)絡(luò)技術(shù)和統(tǒng)計(jì)分析方法,以及無(wú)指導(dǎo)聚類(lèi)技術(shù)和關(guān)聯(lián)分析方法。
掌握數(shù)據(jù)挖掘的評(píng)估技術(shù),包括數(shù)據(jù)評(píng)估和模型評(píng)估方法。
了解數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)目標(biāo)和結(jié)構(gòu)。
了解聯(lián)機(jī)分析處理(OLAP)的目標(biāo)和數(shù)據(jù)分析方法。
掌握時(shí)間序列分析方法,了解基于Web的數(shù)據(jù)挖掘目標(biāo)、方法和技術(shù)。
能夠使用Weka軟件工具,應(yīng)用各種數(shù)據(jù)挖掘算法,建立分類(lèi)和聚類(lèi)模型并進(jìn)行關(guān)聯(lián)分析,嘗試解決實(shí)際問(wèn)題。
能夠使用MS Excel進(jìn)行數(shù)據(jù)相關(guān)性分析,建立回歸模型,以及使用Excel的數(shù)據(jù)透視表和數(shù)據(jù)透視圖進(jìn)行OLAP分析。
本書(shū)讀者
本書(shū)既可作為計(jì)算機(jī)科學(xué)、信息科學(xué)、數(shù)學(xué)和統(tǒng)計(jì)學(xué)專(zhuān)業(yè)的入門(mén)教材,也可作為如經(jīng)濟(jì)學(xué)、管理學(xué)、檔案學(xué)等,對(duì)數(shù)據(jù)管理、數(shù)據(jù)分析與數(shù)據(jù)挖掘有教學(xué)需求的其他相關(guān)專(zhuān)業(yè)的基礎(chǔ)教材。同時(shí),對(duì)數(shù)據(jù)挖掘技術(shù)和方法感興趣,致力于相關(guān)方面的研究和應(yīng)用的其他讀者,也可以從本書(shū)中獲取基本的指導(dǎo)和體驗(yàn)。
本書(shū)特點(diǎn)
本書(shū)強(qiáng)調(diào)基本概念、基本原理、基本技術(shù)的廣度講解。注重成熟模型和開(kāi)源工具的介紹和使用;注重對(duì)數(shù)據(jù)挖掘經(jīng)典算法過(guò)程的可理解性描述,而非聚焦細(xì)節(jié)的剖析,以提高授課學(xué)生的應(yīng)用能力;注重結(jié)合基礎(chǔ)實(shí)用案例,通過(guò)案例加強(qiáng)基本概念和原理的理解和運(yùn)用;同時(shí)注重提高實(shí)例的趣味性和生活性,以提高學(xué)生的學(xué)習(xí)積極性。
本書(shū)秉承教材風(fēng)格,使用實(shí)例和實(shí)驗(yàn)來(lái)描述和驗(yàn)證概念、原理和技術(shù);使用章后練習(xí)、計(jì)算和實(shí)驗(yàn)作業(yè)鞏固和檢驗(yàn)所學(xué)內(nèi)容;使用詞匯表附錄,解釋和規(guī)范數(shù)據(jù)挖掘?qū)W科專(zhuān)業(yè)術(shù)語(yǔ);使用適合教學(xué)的簡(jiǎn)單易用開(kāi)源的Weka和通用的MS Excel軟件工具實(shí)施數(shù)據(jù)挖掘,驗(yàn)證和體驗(yàn)數(shù)據(jù)挖掘的精妙。
本書(shū)內(nèi)容
第1章 認(rèn)識(shí)數(shù)據(jù)挖掘。主要是對(duì)數(shù)據(jù)挖掘作全面的概述,包括數(shù)據(jù)挖掘的基本概念、作用、過(guò)程、方法、技術(shù)和應(yīng)用。同時(shí)介紹了本書(shū)使用的開(kāi)源數(shù)據(jù)挖掘軟件Weka。
從第2章到第8章,可分為三個(gè)專(zhuān)題:技術(shù)專(zhuān)題、數(shù)據(jù)專(zhuān)題和評(píng)估專(zhuān)題。
技術(shù)專(zhuān)題
第2章 基本數(shù)據(jù)挖掘技術(shù)。介紹有指導(dǎo)學(xué)習(xí)技術(shù)中的決策樹(shù)算法、無(wú)指導(dǎo)聚類(lèi)和K-means算法,重點(diǎn)討論生成關(guān)聯(lián)規(guī)則技術(shù)和針對(duì)不同問(wèn)題如何考慮選擇不同的數(shù)據(jù)挖掘技術(shù)和算法。第6章 神經(jīng)網(wǎng)絡(luò)技術(shù)。介紹神經(jīng)網(wǎng)絡(luò)的基本概念、結(jié)構(gòu)模型、反向傳播學(xué)習(xí)、自組織學(xué)習(xí)方法和神經(jīng)網(wǎng)絡(luò)技術(shù)的優(yōu)勢(shì)和缺點(diǎn),討論神經(jīng)網(wǎng)絡(luò)的輸入和輸出數(shù)據(jù)的要求,詳細(xì)描述反向傳播學(xué)習(xí)算法和自組織學(xué)習(xí)方法的一次迭代過(guò)程,并通過(guò)兩個(gè)實(shí)驗(yàn),介紹了使用Weka軟件實(shí)現(xiàn)BP前饋神經(jīng)網(wǎng)絡(luò)模型的過(guò)程。第7章 統(tǒng)計(jì)技術(shù)。介紹數(shù)據(jù)挖掘中幾種常用的統(tǒng)計(jì)技術(shù),包括線(xiàn)性回歸、非線(xiàn)性回歸和樹(shù)回歸,貝葉斯分類(lèi)器,聚類(lèi)技術(shù)中的凝聚聚類(lèi)、概念分層聚類(lèi)和混合模型聚類(lèi)技術(shù)的EM算法,對(duì)比了統(tǒng)計(jì)技術(shù)和機(jī)器學(xué)習(xí)方法的不同之處,為針對(duì)不同的問(wèn)題和數(shù)據(jù)情況選擇不同的數(shù)據(jù)挖掘技術(shù)提供參考。第8章 時(shí)間序列分析和基于Web的挖掘。介紹如何使用神經(jīng)網(wǎng)絡(luò)技術(shù)和線(xiàn)性回歸方法建立預(yù)測(cè)模型,解決時(shí)間序列預(yù)測(cè)問(wèn)題,使用數(shù)據(jù)挖掘?qū)eb站點(diǎn)進(jìn)行自動(dòng)化評(píng)估和提供個(gè)性化服務(wù),并就Web站點(diǎn)的自適應(yīng)調(diào)整和改善進(jìn)行了簡(jiǎn)單闡述,同時(shí)針對(duì)多模型應(yīng)用中的兩種著名方法裝袋和推進(jìn)進(jìn)行了簡(jiǎn)單介紹。
數(shù)據(jù)專(zhuān)題
第3章 數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)。介紹了知識(shí)發(fā)現(xiàn)的基本概念、基本過(guò)程和典型模型,重點(diǎn)剖析知識(shí)發(fā)現(xiàn)過(guò)程中的每個(gè)步驟的任務(wù)和方法,并通過(guò)一個(gè)案例說(shuō)明知識(shí)發(fā)現(xiàn)的整個(gè)過(guò)程。第4章 數(shù)據(jù)倉(cāng)庫(kù)。概括性地闡述了數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)的基本概念和特點(diǎn),介紹了數(shù)據(jù)倉(cāng)庫(kù)模型的設(shè)計(jì),重點(diǎn)討論最常用的星型模型、雪花模型和星座模型的設(shè)計(jì),并解釋了數(shù)據(jù)集市和決策支持系統(tǒng)的基本概念。通過(guò)一個(gè)實(shí)驗(yàn),描述了從決策支持的角度,對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行多維分析的方法。最后介紹了利用MS Excel數(shù)據(jù)透視表和數(shù)據(jù)透視圖建立多維數(shù)據(jù)分析模型的方法。
評(píng)估專(zhuān)題
第5章 評(píng)估技術(shù)。概述了數(shù)據(jù)挖掘過(guò)程中評(píng)估的內(nèi)容和工具,介紹了具有分類(lèi)輸出的有指導(dǎo)學(xué)習(xí)模型的最基本評(píng)估工具——檢驗(yàn)集分類(lèi)正確率和混淆矩陣、數(shù)值型輸出模型的評(píng)估、檢驗(yàn)置信區(qū)間的計(jì)算以及無(wú)指導(dǎo)聚類(lèi)技術(shù)對(duì)于有指導(dǎo)學(xué)習(xí)模型的評(píng)估作用、有指導(dǎo)學(xué)習(xí)模型的比較方法,重點(diǎn)討論了利用Lift和假設(shè)檢驗(yàn)對(duì)兩個(gè)有指導(dǎo)學(xué)習(xí)模型的性能進(jìn)行比較。同時(shí),討論了屬性評(píng)估,使用MS Excel的函數(shù)和散點(diǎn)圖進(jìn)行屬性相關(guān)性分析,以及在屬性選擇中,如何通過(guò)應(yīng)用經(jīng)典的假設(shè)檢驗(yàn)?zāi)P蛠?lái)確定數(shù)值屬性的重要性。本章最后給出了兩種無(wú)指導(dǎo)聚類(lèi)模型的評(píng)估方法。
附錄 本書(shū)有兩個(gè)附錄:附錄A為詞匯表,包含了各章以及Weka軟件中出現(xiàn)的主要詞匯和關(guān)鍵術(shù)語(yǔ);附錄B為本書(shū)各章實(shí)例、實(shí)驗(yàn)、章后習(xí)題中涉及的數(shù)據(jù)集的相關(guān)描述,有來(lái)自UCI的網(wǎng)絡(luò)共享數(shù)據(jù)集,也有假想的數(shù)據(jù)集。
第1章 認(rèn)識(shí)數(shù)據(jù)挖掘 1
1.1 數(shù)據(jù)挖掘的定義 1
1.2 機(jī)器學(xué)習(xí) 2
1.2.1 概念學(xué)習(xí) 2
1.2.2 歸納學(xué)習(xí) 3
1.2.3 有指導(dǎo)的學(xué)習(xí) 4
1.2.4 無(wú)指導(dǎo)的聚類(lèi) 7
1.3 數(shù)據(jù)查詢(xún) 8
1.4 專(zhuān)家系統(tǒng) 8
1.5 數(shù)據(jù)挖掘的過(guò)程 9
1.5.1 準(zhǔn)備數(shù)據(jù) 10
1.5.2 挖掘數(shù)據(jù) 10
1.5.3 解釋和評(píng)估數(shù)據(jù) 10
1.5.4 模型應(yīng)用 11
1.6 數(shù)據(jù)挖掘的作用 11
1.6.1 分類(lèi) 11
1.6.2 估計(jì) 12
1.6.3 預(yù)測(cè) 12
1.6.4 無(wú)指導(dǎo)聚類(lèi) 12
1.6.5 關(guān)聯(lián)關(guān)系分析 13
1.7 數(shù)據(jù)挖掘技術(shù) 13
1.7.1 神經(jīng)網(wǎng)絡(luò) 14
1.7.2 回歸分析 14
1.7.3 關(guān)聯(lián)分析 15
1.7.4 聚類(lèi)技術(shù) 16
1.8 數(shù)據(jù)挖掘的應(yīng)用 16
1.8.1 應(yīng)用領(lǐng)域 16
1.8.2 成功案例 18
1.9 Weka數(shù)據(jù)挖掘軟件 19
1.9.1 Weka簡(jiǎn)介 19
1.9.2 使用Weka建立決策樹(shù)模型 22
1.9.3 使用Weka進(jìn)行聚類(lèi) 25
1.9.4 使用Weka進(jìn)行關(guān)聯(lián)分析 26
本章小結(jié) 27
習(xí)題 28
第2章 基本數(shù)據(jù)挖掘技術(shù) 30
2.1 決策樹(shù) 30
2.1.1 決策樹(shù)算法的一般過(guò)程 31
2.1.2 決策樹(shù)算法的關(guān)鍵技術(shù) 32
2.1.3 決策樹(shù)規(guī)則 40
2.1.4 其他決策樹(shù)算法 41
2.1.5 決策樹(shù)小結(jié) 41
2.2 關(guān)聯(lián)規(guī)則 42
2.2.1 關(guān)聯(lián)規(guī)則概述 42
2.2.2 關(guān)聯(lián)分析 43
2.2.3 關(guān)聯(lián)規(guī)則小結(jié) 46
2.3 聚類(lèi)分析技術(shù) 47
2.3.1 K-means算法 48
2.3.2 K-means算法小結(jié) 51
2.4 數(shù)據(jù)挖掘技術(shù)的選擇 51
本章小結(jié) 52
習(xí)題 53
第3章 數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn) 55
3.1 知識(shí)發(fā)現(xiàn)的基本過(guò)程 55
3.1.1 KDD過(guò)程模型 55
3.1.2 知識(shí)發(fā)現(xiàn)軟件 57
3.1.3 KDD過(guò)程的參與者 58
3.2 KDD過(guò)程模型的應(yīng)用 58
3.2.1 步驟1:商業(yè)理解 58
3.2.2 步驟2:數(shù)據(jù)理解 59
3.2.3 步驟3:數(shù)據(jù)準(zhǔn)備 60
3.2.4 步驟4:建模 65
3.2.5 評(píng)估 66
3.2.6 部署和采取行動(dòng) 66
3.3 實(shí)驗(yàn):KDD案例 66
本章小結(jié) 72
習(xí)題 73
第4章 數(shù)據(jù)倉(cāng)庫(kù) 74
4.1 數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù) 74
4.1.1 數(shù)據(jù)(庫(kù))模型 75
4.1.2 規(guī)范化與反向規(guī)范化 77
4.2 設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù) 79
4.2.1 數(shù)據(jù)抽取、清洗、變換和加載 79
4.2.2 數(shù)據(jù)倉(cāng)庫(kù)模型 82
4.2.3 數(shù)據(jù)集市 85
4.2.4 決策支持系統(tǒng) 86
4.3 聯(lián)機(jī)分析處理 87
4.3.1 概述 87
4.3.2 實(shí)驗(yàn):使用OLAP輔助駕駛員行為分析 90
4.4 使用Excel數(shù)據(jù)透視表和數(shù)據(jù)透視圖分析數(shù)據(jù) 93
4.4.1 創(chuàng)建簡(jiǎn)單數(shù)據(jù)透視表和透視圖 93
4.4.2 創(chuàng)建多維透視表和透視圖 97
本章小結(jié) 100
習(xí)題 100
第5章 評(píng)估技術(shù) 102
5.1 數(shù)據(jù)挖掘評(píng)估概述 102
5.1.1 評(píng)估內(nèi)容 102
5.1.2 評(píng)估工具 103
5.2 評(píng)估有指導(dǎo)學(xué)習(xí)模型 108
5.2.1 評(píng)估分類(lèi)類(lèi)型輸出模型 108
5.2.2 評(píng)估數(shù)值型輸出模型 109
5.2.3 計(jì)算檢驗(yàn)集置信區(qū)間 111
5.2.4 無(wú)指導(dǎo)聚類(lèi)技術(shù)的評(píng)估作用 112
5.3 比較有指導(dǎo)學(xué)習(xí)模型 112
5.3.1 使用Lift比較模型 112
5.3.2 通過(guò)假設(shè)檢驗(yàn)比較模型 114
5.4 屬性評(píng)估 115
5.4.1 數(shù)值型屬性的冗余檢查 115
5.4.2 數(shù)值屬性顯著性的假設(shè)檢驗(yàn) 117
5.5 評(píng)估無(wú)指導(dǎo)聚類(lèi)模型 118
本章小結(jié) 118
習(xí)題 119
第6章 神經(jīng)網(wǎng)絡(luò)技術(shù) 120
6.1 神經(jīng)網(wǎng)絡(luò)概述 120
6.1.1 神經(jīng)網(wǎng)絡(luò)模型 120
6.1.2 神經(jīng)網(wǎng)絡(luò)的輸入和輸出數(shù)據(jù)格式 121
6.1.3 激勵(lì)函數(shù) 123
6.2 神經(jīng)網(wǎng)絡(luò)訓(xùn)練 124
6.2.1 反向傳播學(xué)習(xí) 124
6.2.2 自組織映射的無(wú)指導(dǎo)聚類(lèi) 127
6.2.3 實(shí)驗(yàn):應(yīng)用BP算法建立前饋神經(jīng)網(wǎng)絡(luò) 130
6.3 神經(jīng)網(wǎng)絡(luò)模型的優(yōu)勢(shì)和缺點(diǎn) 138
本章小結(jié) 138
習(xí)題 139
第7章 統(tǒng)計(jì)技術(shù) 141
7.1 回歸分析 141
7.1.1 線(xiàn)性回歸分析 142
7.1.2 非線(xiàn)性回歸 149
7.1.3 樹(shù)回歸 151
7.2 貝葉斯分析 152
7.3 聚類(lèi)技術(shù) 156
7.3.1 分層聚類(lèi) 156
7.3.2 基于模型的聚類(lèi) 163
7.4 數(shù)據(jù)挖掘中的統(tǒng)計(jì)技術(shù)與機(jī)器學(xué)習(xí)技術(shù) 165
本章小結(jié) 165
習(xí)題 167
第8章 時(shí)間序列和基于Web的數(shù)據(jù)挖掘 169
8.1 時(shí)間序列分析 169
8.1.1 概述 169
8.1.2 線(xiàn)性回歸分析解決時(shí)間序列問(wèn)題 173
8.1.3 神經(jīng)網(wǎng)絡(luò)技術(shù)解決時(shí)間序列問(wèn)題 175
8.2 基于Web的數(shù)據(jù)挖掘 176
8.2.1 概述 176
8.2.2 Web文本挖掘 178
8.2.3 Web使用挖掘 179
8.3 多模型分類(lèi)技術(shù) 185
8.3.1 裝袋技術(shù) 185
8.3.2 推進(jìn)技術(shù) 185
本章小結(jié) 186
習(xí)題 187
附錄A 詞匯表 188
附錄B 數(shù)據(jù)挖掘數(shù)據(jù)集 201
參考文獻(xiàn)