本書是數(shù)據(jù)挖掘精髓的濃縮。第1章用通俗易懂的語(yǔ)言回答五個(gè)基本問題,包括什么是數(shù)據(jù),什么是大數(shù)據(jù),什么是數(shù)據(jù)挖掘,以及數(shù)據(jù)挖掘能挖掘出哪些東西和會(huì)產(chǎn)生什么價(jià)值。然后用6章的篇幅介紹k-均值、k-近鄰、樸素貝葉斯、決策樹、回歸分析和關(guān)聯(lián)規(guī)則挖掘等6種方法。第8章介紹一些實(shí)際的應(yīng)用,演示簡(jiǎn)單的數(shù)據(jù)挖掘方法如何產(chǎn)生巨大的價(jià)值。本書可供高校的數(shù)據(jù)科學(xué)與大數(shù)據(jù)、智能科學(xué)與技術(shù)、人工智能、計(jì)算機(jī)科學(xué)與技術(shù)和統(tǒng)計(jì)類、應(yīng)用數(shù)學(xué)等相關(guān)專業(yè)的學(xué)生作為教材使用,也可供高校的商科大數(shù)據(jù)、金融等專業(yè)的學(xué)生、優(yōu)秀的中學(xué)生、科技企業(yè)的管理者和相關(guān)行業(yè)的投資人學(xué)習(xí)參考。
周濤,電子科技大學(xué)教授,主要從事統(tǒng)計(jì)物理與復(fù)雜性方面的研究。在Physics Reports、PNAS、Nature Communications等國(guó)際SCI期刊發(fā)表300余篇學(xué)術(shù)論文,引用18000余次,H指數(shù)為65。2009年獲教育部自然科學(xué)一等獎(jiǎng),2011年獲第十二屆中國(guó)青年科技獎(jiǎng),2014年起歷年入選Elesvier最具國(guó)際影響力中國(guó)科學(xué)家名單(物理天文類)。2015年當(dāng)選第十二屆中華全國(guó)青聯(lián)常務(wù)委員,并擔(dān)任科學(xué)技術(shù)界別工作委員會(huì)副主任。2015年當(dāng)選全國(guó)十大科技創(chuàng)新人物。2017年獲全國(guó)創(chuàng)新爭(zhēng)先獎(jiǎng)。
目 錄
第1章 概述 1
1.1 什么是數(shù)據(jù) 1
1.2 什么是大數(shù)據(jù) 3
1.3 什么是數(shù)據(jù)挖掘 6
1.4 能挖掘出什么 8
1.5 會(huì)產(chǎn)生什么價(jià)值 10
第2章 k-均值 12
2.1 基本算法 13
2.2 k-均值示例 15
2.3 k-均值算法的局限性 21
練習(xí)賽 21
第3章 k-近鄰 24
3.1 k-近鄰基本算法 25
3.2 評(píng)價(jià)分類效果的常見指標(biāo) 26
3.3 影響算法精確度的若干問題 28
3.4 k-近鄰算法示例 31
練習(xí)賽 35
第4章 樸素貝葉斯 36
4.1 貝葉斯定理 36
4.2 貝葉斯基本算法 39
4.3 貝葉斯算法案例 41
4.4 處理連續(xù)特征 45
練習(xí)賽 46
第5章 回歸 47
5.1 線性回歸的最簡(jiǎn)示例 47
5.2 線性回歸的一般形式 53
5.3 邏輯回歸的最簡(jiǎn)示例 55
5.4 邏輯回歸的一般形式 59
5.5 小結(jié)和討論 60
練習(xí)賽 62
第6章 決策樹 63
6.1 構(gòu)建決策樹 63
6.2 經(jīng)典決策樹:ID3、C4.5和CART 66
6.3 連續(xù)值、缺失值和剪枝 70
6.4 小結(jié)和討論 75
練習(xí)賽 77
第7章 關(guān)聯(lián)規(guī)則挖掘 78
7.1 基本算法思想 78
7.2 Apriori算法示例 80
7.3 小結(jié)和討論 85
練習(xí)賽 86
第8章 數(shù)據(jù)挖掘應(yīng)用創(chuàng)新案例 87
8.1 提升生產(chǎn)制造過程的良品率 87
8.2 刻畫全球化對(duì)碳排放的影響 89
8.3 捕捉電商評(píng)論中的用戶情感 91
8.4 實(shí)時(shí)發(fā)現(xiàn)微博中的熱點(diǎn)事件 94
推薦閱讀材料 96