欧美情趣综合网在线观看免费,激情无码一区二区三区

本書從算法的角度介紹數(shù)據(jù)挖掘所使用的主要原理與技術(shù)。為了更好地理解數(shù)據(jù)挖掘技術(shù)如何用于各種類型的數(shù)據(jù)，研究這些原理與技術(shù)是至關(guān)重要的。
本書所涵蓋的主題包括：數(shù)據(jù)預處理、預測建模、關(guān)聯(lián)分析、聚類分析、異常檢測和避免錯誤發(fā)現(xiàn)。通過介紹每個主題的基本概念和算法，為讀者提供將數(shù)據(jù)挖掘應用于實際問題所需的必要背景以及使用方法。

自12年前的第1版以來，數(shù)據(jù)分析領域發(fā)生了很大的變化。采集數(shù)據(jù)和用數(shù)據(jù)做決策的速率不斷提高，采集到的數(shù)據(jù)數(shù)量和種類也在不斷增加。事實上，“大數(shù)據(jù)”這個術(shù)語已被用于指代那些可獲得的海量、多樣的數(shù)據(jù)集。此外，“數(shù)據(jù)科學”這個術(shù)語也被用于描述一個新興領域，其中，數(shù)據(jù)挖掘、機器學習、統(tǒng)計學等諸多領域的工具和技術(shù)，被用于從數(shù)據(jù)（通常是大數(shù)據(jù)）中提取出可實際應用的見解。
數(shù)據(jù)的增長為數(shù)據(jù)分析的各領域創(chuàng)造了大量的機會。其中，有著廣泛應用的預測建模領域的發(fā)展最引人注目。例如，在神經(jīng)網(wǎng)絡（也稱為深度學習）方面取得的最新進展，已經(jīng)在許多具有挑戰(zhàn)性的領域（如圖像分類、語音識別以及文本分類和理解）表現(xiàn)出令人矚目的成果。即使那些發(fā)展不是特別顯著的領域（例如聚類、關(guān)聯(lián)分析和異常檢測等）也在不斷前進。這個新版本就是對這些發(fā)展的響應。
概述　與第1版相同，本書第2版全面介紹了數(shù)據(jù)挖掘，方便學生、教師、研究人員和專業(yè)人士理解有關(guān)概念和技術(shù)。本書涵蓋的主題包括：數(shù)據(jù)預處理、預測建模、關(guān)聯(lián)分析、聚類分析、異常檢測和避免錯誤發(fā)現(xiàn)。通過介紹每個主題的基本概念和算法，為讀者提供將數(shù)據(jù)挖掘應用于實際問題所需的必要背景。與第1版一樣，分類、關(guān)聯(lián)分析和聚類分析都分兩章講述。前面一章（介紹章）講述基本概念、代表性算法和評估技術(shù)，后面一章（高級章）深入討論高級概念和算法。同第1版一樣，這樣做的目的是使讀者透徹地理解數(shù)據(jù)挖掘的基礎知識，同時論述更多重要的高級主題。由于這種安排，本書既可用作教材也可用作參考書。
為了幫助讀者更好地理解書中講述的概念，我們提供了大量的示例、圖表和習題，并在網(wǎng)上公開了原有習題的答案。除了第10章的新習題，其余習題與第1版的基本一致。教師可以通過網(wǎng)絡獲取各章的新習題及其答案。對更高級的主題、重要的歷史文獻和當前趨勢感興趣的讀者，可以在每一章結(jié)尾找到文獻注釋，本版對這部分內(nèi)容做了較大的更新。此外，還提供了一個覆蓋本書所有主題的索引。
第2版的新內(nèi)容　內(nèi)容上主要的更新是與分類相關(guān)的兩章內(nèi)容（第3章和第4章）。第3章仍使用決策樹分類器進行講解，但對適用于各種分類方法的主題討論進行了大量的擴充，這些主題包括：過擬合、欠擬合、訓練規(guī)模的影響、模型復雜度、模型選擇以及模型評估中常見的缺陷等。第4章的每一節(jié)幾乎都進行了重大更新，著重擴展了貝葉斯網(wǎng)絡、支持向量機和人工神經(jīng)網(wǎng)絡的內(nèi)容。對深度網(wǎng)絡，我們單獨增加了一節(jié)來介紹該領域當前的發(fā)展。我們還更新了4.11節(jié)“類不平衡問題”中有關(guān)評估方法的討論。
關(guān)聯(lián)分析內(nèi)容的改進則更具體。我們對關(guān)聯(lián)模式評估部分（第5章）以及序列和圖形挖掘部分（第6章）進行了全面修訂。對聚類分析的修訂也很具體。在聚類分析的介紹章（第7章）增添了K均值初始化技術(shù)并更新了簇評估的討論。聚類分析的高級章（第8章）新添了關(guān)于譜圖聚類的內(nèi)容。對異常檢測部分也進行了大量的修訂和擴展。我們保留并更新了現(xiàn)有方法，如統(tǒng)計學、基于最近鄰/密度方法和基于聚類方法，同時介紹了基于重構(gòu)的方法、單類分類和信息論方法�；谥貥�(gòu)的方法通過深度學習范疇中的自編碼網(wǎng)絡進行闡述。關(guān)于數(shù)據(jù)的第2章也進行了更新，更新內(nèi)容包括對互信息的討論和基于核技術(shù)的討論。
第10章討論了如何避免錯誤發(fā)現(xiàn)并產(chǎn)生正確的結(jié)果，這一章的內(nèi)容是全新的并且在當前關(guān)于數(shù)據(jù)挖掘的教科書中也是新穎的。該章討論了關(guān)于避免虛假結(jié)果的統(tǒng)計概念（統(tǒng)計顯著性、p值、錯誤發(fā)現(xiàn)率、置換檢驗等），這些是對其他章中相關(guān)內(nèi)容的補充，然后在介紹數(shù)據(jù)挖掘技術(shù)的內(nèi)容中對這些概念進行了闡述。這一章還強調(diào)了對數(shù)據(jù)分析結(jié)果的有效性和可重復性的關(guān)注。新增的最后一章，是認識到這個主題的重要性后的產(chǎn)物，同時也是對“在分析數(shù)據(jù)時需要對相關(guān)領域有更深入的理解”這一觀點的認可。
本版紙書刪除了數(shù)據(jù)探索章節(jié)以及附錄，但仍將其保留在網(wǎng)上。本版附錄對大數(shù)據(jù)環(huán)境下的可伸縮性進行了簡要討論。
致教師　作為一本教材，本書廣泛適用于高年級本科生和研究生教學。由于學習這門課程的學生背景不同，他們可能不具備廣博的統(tǒng)計學和數(shù)據(jù)庫知識，因此本書只要求最低限度的預備知識。數(shù)據(jù)庫知識不是必需的，但我們假定讀者有一定的統(tǒng)計學或數(shù)學背景，這些背景會讓他們更容易學習某些內(nèi)容。與以前一樣，本書或者更確切地說是討論主要數(shù)據(jù)挖掘主題的各章，都盡可能自成一體。因此，這些主題的講授次序相當靈活。其中第2章、第3章、第5章、第7章和第9章是核心內(nèi)容。對于第10章，建議至少給出粗略的介紹，以在學生解釋他們的數(shù)據(jù)分析結(jié)果時引起一些注意。盡管應先介紹數(shù)據(jù)（第2章），但可以按任意順序來講授基本分類（第3章）、關(guān)聯(lián)分析（第5章）和聚類分析（第7章）。由于異常檢測（第9章）與分類（第3章）和聚類分析（第7章）具備先后關(guān)系，所以后兩章應先于第9章進行講解。同時，可以根據(jù)時間安排和興趣，從高級分類、關(guān)聯(lián)分析和聚類分析章節(jié)（第4章、第6章、第8章）中選擇多種主題進行講解。我們還建議通過數(shù)據(jù)挖掘中的項目或?qū)嵺`練習來強化聽課效果，雖然它們要花費一些時間，但這種實踐作業(yè)可以大

你還可能感興趣

我要評論