为您提供欧美不卡一区二区三区,欧美熟a五月婷婷丁香网

　　本書主要介紹數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)的基本原理和應(yīng)用方法。全書共分為12章，主要內(nèi)容包括數(shù)據(jù)倉庫的概念和體系結(jié)構(gòu)、數(shù)據(jù)倉庫的數(shù)據(jù)存儲(chǔ)和處理、數(shù)據(jù)倉庫系統(tǒng)的設(shè)計(jì)與開發(fā)、關(guān)聯(lián)規(guī)則、數(shù)據(jù)分類、數(shù)據(jù)聚類、貝葉斯網(wǎng)絡(luò)、粗糙集、神經(jīng)網(wǎng)絡(luò)、遺傳算法、統(tǒng)計(jì)分析、文本和Web挖掘。　　本書既重視理論知識(shí)的講解，又強(qiáng)調(diào)應(yīng)用技能的培養(yǎng)。每章首先介紹算法的主要思想和理論基礎(chǔ)，之后利用算法去解決實(shí)例中給出的任務(wù)，而且對(duì)于數(shù)據(jù)倉庫的組建方法和多數(shù)章節(jié)中的數(shù)據(jù)挖掘算法，書中都使用Microsoft SQL Server 2005進(jìn)行了操作實(shí)現(xiàn)。通過對(duì)具體實(shí)例的學(xué)習(xí)和實(shí)踐，使讀者掌握數(shù)據(jù)倉庫和數(shù)據(jù)挖掘中必要的知識(shí)點(diǎn)，達(dá)到學(xué)以致用的目的。　　本書每章均配有習(xí)題，習(xí)題形式為選擇題、簡(jiǎn)答題和操作題，可以幫助讀者進(jìn)一步掌握和鞏固所學(xué)知識(shí)。此外，本書提供多媒體教學(xué)課件和習(xí)題參考答案，讀者可到清華大學(xué)出版社網(wǎng)站http://www.tup.com.cn/下載。　　本書可以作為高等學(xué)校計(jì)算機(jī)及相關(guān)專業(yè)本科、研究生的數(shù)據(jù)倉庫和數(shù)據(jù)挖掘教材，也可供相關(guān)領(lǐng)域的廣大科技工作人員和高校師生參考。

　　隨著計(jì)算機(jī)和信息時(shí)代的迅猛發(fā)展，人類收集、存儲(chǔ)和訪問數(shù)據(jù)的能力大大增強(qiáng)，快速增長的海量數(shù)據(jù)集已經(jīng)遠(yuǎn)遠(yuǎn)超出了人類的理解能力，傳統(tǒng)的數(shù)據(jù)分析工具也顯得力不從心。如何才能不被這些海量數(shù)據(jù)淹沒，而是有效地組織這些數(shù)據(jù)，并且從中找出有價(jià)值的知識(shí)，幫助人類制定正確的決策？針對(duì)這一問題，數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生，并且顯示出強(qiáng)大的生命力。要將海量數(shù)據(jù)轉(zhuǎn)換成為有用的信息和知識(shí)，首先要有效地收集和組織數(shù)據(jù)。數(shù)據(jù)倉庫是良好的數(shù)據(jù)收集和組織工具，它的任務(wù)是搜集來自各個(gè)業(yè)務(wù)系統(tǒng)的有用數(shù)據(jù)，存放在一個(gè)集成的儲(chǔ)存區(qū)內(nèi)。在數(shù)據(jù)倉庫豐富完整的數(shù)據(jù)基礎(chǔ)上，數(shù)據(jù)挖掘技術(shù)可以從中挖掘出有價(jià)值的知識(shí)，從而幫助決策者正確決策。

　　本書主要介紹數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)的基本原理和應(yīng)用方法，全書共分為12章，主要內(nèi)容包括數(shù)據(jù)倉庫的概念和體系結(jié)構(gòu)、數(shù)據(jù)倉庫的數(shù)據(jù)存儲(chǔ)和處理、數(shù)據(jù)倉庫系統(tǒng)的設(shè)計(jì)與開發(fā)、關(guān)聯(lián)規(guī)則、數(shù)據(jù)分類、數(shù)據(jù)聚類、貝葉斯網(wǎng)絡(luò)、粗糙集、神經(jīng)網(wǎng)絡(luò)、遺傳算法、統(tǒng)計(jì)分析、文本和Web挖掘。其中，前3章主要介紹數(shù)據(jù)倉庫的基本原理和數(shù)據(jù)倉庫系統(tǒng)的組建方法，后面的章節(jié)介紹當(dāng)前流行的數(shù)據(jù)挖掘算法的主要思想和理論基礎(chǔ)，并且給出豐富的應(yīng)用實(shí)例。

　　本書緊跟數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)的發(fā)展和人才培養(yǎng)的目標(biāo)，有以下幾個(gè)特點(diǎn)。

　　（1）可讀性強(qiáng)，文字?jǐn)⑹錾钊霚\出，易讀易用，即使是初學(xué)者，閱讀起來也比較容易。

　�。�2）概念清晰，條理清楚，內(nèi)容取舍合理。

　�。�3）本書強(qiáng)調(diào)基礎(chǔ)，重視實(shí)例。各章節(jié)都以經(jīng)典算法為主，介紹其主要思想和基本原理，并且給出恰當(dāng)和豐富的實(shí)例。

　�。�4）書中實(shí)例和課后習(xí)題實(shí)用、豐富，通過練習(xí)，讀者可以對(duì)各個(gè)知識(shí)點(diǎn)從不同角度得到訓(xùn)練，掌握和鞏固所學(xué)知識(shí)。

　�。�5）教學(xué)資源豐富，本書提供多媒體教學(xué)課件和習(xí)題參考答案，方便教學(xué)。對(duì)于上述資源，讀者可到清華大學(xué)出版社的網(wǎng)站http://www.tup.com.cn/下載。

　　（6）對(duì)于數(shù)據(jù)倉庫的組建方法和多數(shù)章節(jié)中的數(shù)據(jù)挖掘算法，本書都使用MicrosoftSQLServer2005進(jìn)行了操作實(shí)現(xiàn)，這種做法與市場(chǎng)主流開發(fā)工具和技術(shù)同步，有利于讀者走向社會(huì)。

　　本書各章節(jié)之間銜接自然，同時(shí)各章節(jié)又有一定的獨(dú)立性，讀者可按教材的自然順序?qū)W習(xí)，也可以根據(jù)實(shí)際情況挑選需要的章節(jié)學(xué)習(xí)。

　　本書可以作為高等學(xué)校計(jì)算機(jī)及相關(guān)專業(yè)本科、研究生學(xué)習(xí)數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的教材，也可供相關(guān)領(lǐng)域的廣大科技工作人員和高校師生參考。

　　本書由陳志泊擔(dān)任主編，第1~3章由聶耿青編寫，第5章、第6章和第11章由韓慧編寫，第4章和第10章由孫俏編寫，第7~9章和第12章由王建新編寫。

　　由于時(shí)間倉促，加之編者水平有限，對(duì)于書中不足之處敬請(qǐng)讀者批評(píng)指正。

　　編者

　　2017年8月

　　第5章

　　數(shù)據(jù)分類

　　隨著計(jì)算機(jī)和信息時(shí)代的到來，人類收集、存儲(chǔ)和訪問數(shù)據(jù)的能力大大增強(qiáng)，快速增長的海量數(shù)據(jù)集被存儲(chǔ)在大型數(shù)據(jù)庫中，隨時(shí)充斥著我們的計(jì)算機(jī)、網(wǎng)絡(luò)和生活，理解如此豐富的數(shù)據(jù)已經(jīng)遠(yuǎn)遠(yuǎn)超出人類的能力，原有的數(shù)據(jù)分析工具也顯得力不從心。為了不被數(shù)據(jù)淹沒，而是從中及時(shí)發(fā)現(xiàn)有價(jià)值的信息，從而制定正確的決策，數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生，并且顯示出強(qiáng)大的生命力。數(shù)據(jù)挖掘的方法多種多樣，包括關(guān)聯(lián)規(guī)則挖掘、分類、聚類和統(tǒng)計(jì)分析等，其中分類問題是數(shù)據(jù)挖掘領(lǐng)域中研究和應(yīng)用最為廣泛的技術(shù)之一，如何更精確、更有效地分類一直是人們追求的目標(biāo)。

　　5.1引例

　　分類是指把數(shù)據(jù)樣本映射到一個(gè)事先定義的類中的學(xué)習(xí)過程，即給定一組輸入的屬性向量及其對(duì)應(yīng)的類，用基于歸納的學(xué)習(xí)算法得出分類。

　　分類問題是數(shù)據(jù)挖掘領(lǐng)域中研究和應(yīng)用最為廣泛的技術(shù)之一，許多分類算法被包含在統(tǒng)計(jì)分析工具的軟件包中，作為專門的分類工具來使用。分類問題在商業(yè)、銀行業(yè)、醫(yī)療診斷、生物學(xué)、文本挖掘和因特網(wǎng)篩選等領(lǐng)域都有廣泛應(yīng)用。例如，在銀行業(yè)中，分類方法可以輔助工作人員將正常信用卡用戶和欺詐信用卡用戶進(jìn)行分類，從而采取有效措施減小銀行的損失；在醫(yī)療診斷中，分類方法可以幫助醫(yī)療人員將正常細(xì)胞和癌變細(xì)胞進(jìn)行分類，從而及時(shí)制定救治方案，挽救病人的生命；在因特網(wǎng)篩選中，分類方法可以協(xié)助網(wǎng)絡(luò)工作人員將正常郵件和垃圾郵件進(jìn)行分類，從而制定有效的垃圾郵件過濾機(jī)制，防止垃圾郵件干擾人們的正常生活。

　　分類問題中使用的數(shù)據(jù)集是用什么形式來表示的呢？如表5.1所示，數(shù)據(jù)集通過描述屬性和類別屬性來表示。其中，第一行中的Age，Salary稱為數(shù)據(jù)樣本的描述屬性，Class稱為數(shù)據(jù)樣本的類別屬性。從第二行開始的內(nèi)容分別對(duì)應(yīng)描述屬性和類別屬性的具體取值。

　　表5.1分類問題的示例數(shù)據(jù)集

　　AgeSalaryClass

　　30highc1

　　25highc2

　　21lowc2

　　43highc1

　　18lowc2

　　33lowc1

　　︙︙︙

　　在分類問題中，描述屬性可以是連續(xù)型屬性(continuousattribute)，也可以是離散型屬性(discreteattribute)；而類別屬性必須是離散型屬性。所謂連續(xù)型屬性，是指在某一個(gè)區(qū)間或者無窮區(qū)間內(nèi)該屬性的取值是連續(xù)的，表5.1中的屬性Age就是連續(xù)型屬性；離散型屬性是指該屬性的取值是不連續(xù)的，表5.1中的屬性Salary和Class就是離散型屬性。Salary的具體取值是high和low，表示工資的高和低

　　,Class的具體取值是c1和c2，表示該數(shù)據(jù)集分為兩個(gè)類別。在具體的應(yīng)用中，針對(duì)不同的算法，有時(shí)需要將連續(xù)屬性轉(zhuǎn)化為離散屬性。

　　通過上述介紹，可以將分類問題中使用的數(shù)據(jù)集表示為X={(xi,yi)|i=1,2,…,

　　total}，其中數(shù)據(jù)樣本xi(i=1,2,…,total)用d維特征向量xi=(xi1,xi2,…,xid)來表示，xi1,xi2,…,xid分別對(duì)應(yīng)d個(gè)描述屬性A1,A2,…,Ad的具體取值；yi表示數(shù)據(jù)樣本xi的類標(biāo)號(hào)。假設(shè)給定數(shù)據(jù)集包含m個(gè)類別，則yi∈{c1,c2,…,cm}，其中c1,c2,…,cm是類別屬性C的具體取值，也稱為類標(biāo)號(hào)。對(duì)于未知類標(biāo)號(hào)的數(shù)據(jù)樣本x，用d維特征向量x=(x1,x2,…,xd)來表示。

你還可能感興趣

我要評(píng)論