未满14小箩利无码视频网站,久久亚洲AⅤ无码精品午夜麻豆,野花日本免费观看高清电影8

本書是數(shù)據(jù)挖掘和機器學習領域的經典暢銷教材，被國內外眾多名校選用。第4版新增了關于深度學習和概率方法的重要章節(jié)，同時，備受歡迎的機器學習軟件Weka也再度升級。書中全面覆蓋了該領域的實用技術，致力于幫助讀者理解不同技術的工作方式和應用方式，從而學會在工程實踐和商業(yè)項目中解決真實問題。本書適合作為高等院校相關課程的教材，同時也適合業(yè)內技術人員閱讀參考。

前　　言
Data Mining: Practical Machine Learning Tools and Techniques, Fourth Edition
計算和通信的結合建立了一個以信息為基礎的新領域。但絕大多數(shù)信息尚處于原始狀態(tài)，即以數(shù)據(jù)形式存在的狀態(tài)。假如我們將數(shù)據(jù)定義為被記錄下來的事實，那么“信息”就是隱藏于這些記錄事實的數(shù)據(jù)中的一系列模式或預期。在數(shù)據(jù)庫中蘊藏了大量具有潛在重要性的信息，這些信息尚未被發(fā)現(xiàn)和利用，我們的任務就是將這些信息釋放出來。
數(shù)據(jù)挖掘是將隱含的、尚不為人知的同時又是潛在有用的信息從數(shù)據(jù)中提取出來。為此我們編寫計算機程序，自動在數(shù)據(jù)庫中篩選有用的規(guī)律或模式。如果能發(fā)現(xiàn)一些明顯的模式，則可以將其歸納出來，以對未來的數(shù)據(jù)進行準確預測。當然，數(shù)據(jù)挖掘結果中肯定會出現(xiàn)一些問題，比如許多模式可能是價值不大的或者沒有實際意義的，還有一些可能是虛假的，或者是由于某些具體數(shù)據(jù)集的巧合而產生的。在現(xiàn)實世界中，數(shù)據(jù)是不完美的：有些被人為篡改，有些會丟失。我們觀察到的所有東西都不是完全精確的：任何規(guī)律都有例外，并且總會出現(xiàn)不符合任何一個規(guī)律的實例。算法必須具有足夠的健壯性以應付不完美的數(shù)據(jù)，并能提取出不精確但有用的規(guī)律。
機器學習為數(shù)據(jù)挖掘提供了技術基礎，能夠將信息從數(shù)據(jù)庫的原始數(shù)據(jù)中提取出來，以可以理解的形式表達，并可用于多種用途。這是一種抽象化過程：如實地全盤接收現(xiàn)有數(shù)據(jù)，然后在此基礎上推導出所有隱藏在這些數(shù)據(jù)中的結構。本書將介紹在數(shù)據(jù)挖掘實踐中為了發(fā)現(xiàn)和描述數(shù)據(jù)中的結構模式而采用的機器學習工具與技術。
就像所有新興技術都會受到商界的強烈關注一樣，關于數(shù)據(jù)挖掘應用的報道可謂是鋪天蓋地。夸張的報道宣稱通過設立學習算法就能從浩瀚的數(shù)據(jù)汪洋中發(fā)現(xiàn)那些神秘的規(guī)律，其實機器學習絕沒有什么魔法，也沒有什么隱藏的力量，更沒有什么巫術，有的只是一些能將有用信息從原始數(shù)據(jù)中提取出來的簡單和實用的技術。本書將介紹這些技術，并展示它們是如何工作的。
在許多應用中，機器學習使得從數(shù)據(jù)樣本中獲取結構描述成為可能。這種結構描述可用于預測、解釋和理解。有些數(shù)據(jù)挖掘應用側重于預測，即從數(shù)據(jù)所描述的過去預測將來在新情況下會發(fā)生什么，通常是預測新的樣本分類。但也許人們更感興趣的是，“學習”的結果是一個可以用來對樣本進行分類的真實結構描述。這種結構描述不僅支持預測，也支持解釋和理解。根據(jù)經驗，在絕大多數(shù)數(shù)據(jù)挖掘實踐應用中，用戶感興趣的莫過于掌握樣本的本質。事實上，這是機器學習優(yōu)于傳統(tǒng)統(tǒng)計模型的一個主要優(yōu)點。
本書詮釋了多種多樣的機器學習方法。其中部分出于方便教學的目的而僅僅羅列了一些簡單方案，以清楚解釋基本思想如何實現(xiàn)。其他則更多考慮到具體實現(xiàn)而列舉了很多應用于實際工作中的真實系統(tǒng)。在這些方法中，有很多都是近幾年發(fā)展起來的。
我們創(chuàng)建了一套綜合軟件以說明書中的思想。軟件名稱是懷卡托智能分析環(huán)境（Waikato
Environment for Knowledge Analysis），簡稱Weka，它的Java源代碼參見www.cs.waikato.ac.nz/ml/weka。Weka幾乎可以完整地、產業(yè)化地實現(xiàn)本書中所包含的所有技術。它包括了機器學習方法的說明性代碼以及具體實現(xiàn)。針對一些簡單技術，它提供了清楚而簡潔的實例，以幫助理解機器學習中的相關機理。Weka還提供了一個工作平臺，完整、實用、高水準地實現(xiàn)了很多流行的學習方案，這些方案能夠運用于實際的數(shù)據(jù)挖掘項目或學術研究。最后，它還包括了一個形如Java類庫的框架，這個框架支持嵌入式機器學習的應用乃至新學習方案的實現(xiàn)。
本書旨在介紹用于數(shù)據(jù)挖掘領域的機器學習工具和技術。讀完本書后，你將對這些技術有所了解，并能體會到它們的功效和實用價值。如果你希望用自己的數(shù)據(jù)進行實驗，用Weka就能輕松做到。但Weka絕不是唯一的選擇，例如，免費統(tǒng)計計算環(huán)境R就包含許多機器學習算法。Python編程語言的愛好者可能更喜歡流行的scikit-learn庫。用于分布式計算的現(xiàn)代“大數(shù)據(jù)”框架也支持機器學習，如Apache Spark。在實際應用中，部署機器學習的選擇有很多。本書僅討論基本的學習算法，沒有深入研究特定軟件的實現(xiàn)細節(jié)，但會在恰當?shù)奈恢弥赋鏊懻摰乃惴ǹ梢栽赪eka軟件的什么位置找到。本書還簡要介紹了其他機器學習軟件，如用于高維數(shù)據(jù)的“深度學習”。不過，大多數(shù)具體軟件的信息被歸納到了附錄中。
提供數(shù)據(jù)挖掘案例研究的商業(yè)書籍中往往涉及一些非常實用的方法，這些方法與當前機器學習教材中出現(xiàn)的更理論化、更原則化的方法之間存在鴻溝，本書跨越了這個鴻溝。這個鴻溝相當大，為了讓機器學習技術應用得到成果，需要理解它們是如何工作的。這不是一種可以盲目應用而后便期待好結果出現(xiàn)的技術。不同的問題需要用不同的技術解決，但是根據(jù)實際問題來選擇合適的技術并非易事，你需要知道到底有多少種可能的解決方案。本書所論及的技術范圍相當廣泛，并不囿于某種特定的商業(yè)軟件或方案。書中給出了大量實例，但是展示實例所采用的數(shù)據(jù)集卻小得足以讓你搞清楚實例的整個過程。真實的數(shù)據(jù)集太大，不能做到這一點（而且真實數(shù)據(jù)集的獲取常受限于商業(yè)機密）。本書所選擇的

你還可能感興趣

我要評論