大數(shù)據(jù)分析與挖掘已經(jīng)廣泛應用于各行各業(yè)。本書以項目實踐為基礎,對大數(shù)據(jù)分析與挖掘的基礎知識進行了介紹,總結了機器學習、大數(shù)據(jù)分析與挖掘過程、數(shù)據(jù)分析挖掘框架和庫,分析了當前的研究熱點與前沿技術。為了增強本書的實用性、提高讀者的動手能力,本書結合案例討論了爬蟲與數(shù)據(jù)處理、Echarts和Python可視化、描述性分析、并聯(lián)分析、回歸與分類、聚類、序列挖掘等基本方法的實現(xiàn)與實踐。本書結合實際案例,探討了文本分析、主題模型、推薦系統(tǒng)、知識圖譜、情感分析等高級實現(xiàn)與實踐。此外,本書還介紹了大數(shù)據(jù)分析與挖掘在管理領域的應用案例。本書配有電子課件等教學資源,讀者可登錄華信教育資源網(wǎng)(www.hxedu.com.cn)下載使用。本書適合作為高等學校數(shù)據(jù)挖掘、商務智能、數(shù)據(jù)分析等課程的教材,也可供數(shù)據(jù)分析與數(shù)據(jù)挖掘從業(yè)人員閱讀,還可供從事數(shù)據(jù)挖掘、機器學習應用研究的科研人員參考。
萬欣,武漢紡織大學管理學院副教授,畢業(yè)于日本電氣通信大學,工學博士(社會智能信息學),主要研究方向:商務智能、機器學習、數(shù)據(jù)挖掘、推薦系統(tǒng)等。曾就職于國內(nèi)外多家上市公司從事技術研發(fā)、軟件開發(fā)工作。以第一作者發(fā)表論文十幾篇,其中被SCI、EI收錄十余篇。大數(shù)據(jù)分析與挖掘領域教學經(jīng)驗豐富。
目 錄
第1篇 緒 論
第1章 大數(shù)據(jù)分析與挖掘的概念與理論
1.1 概述
1.2 機器學習
1.2.1 機器學習的定義
1.2.2 機器學習類型
1.2.3 機器學習的應用與工具
1.3 數(shù)據(jù)挖掘與知識發(fā)現(xiàn)過程
1.3.1 CRISP-DM
1.3.2 知識發(fā)現(xiàn)
1.4 大數(shù)據(jù)分析與挖掘中的研究熱點與前沿
1.4.1 商務智能研究熱點與前沿
1.4.2 大數(shù)據(jù)分析熱點與前沿
1.4.3 機器學習熱點與前沿
1.4.4 數(shù)據(jù)挖掘熱點與前沿
1.4.5 本章小結
本章參考文獻
本書涉及的環(huán)境、語言、框架和庫
第2篇 基礎實踐篇
第2章 爬蟲與數(shù)據(jù)處理——“茶顏悅色”話題情感趨向的影響因素
2.1 相關理論
2.1.1 Python爬蟲
2.1.2 其他相關理論
2.2 背景與分析目標
2.3 數(shù)據(jù)采集與處理
2.3.1 茶顏悅色品牌的選擇
2.3.2 數(shù)據(jù)的選擇
2.3.3 數(shù)據(jù)的采集
2.3.4 數(shù)據(jù)的處理
2.4 數(shù)據(jù)的分析與挖掘
2.4.1 情緒分析
2.4.2 詞云分析
2.5 拓展思考
2.6 本章小結
本章參考文獻
第3章 Echarts可視化——B站視頻分區(qū)熱度及其影響因素分析
3.1 Echarts介紹及使用
3.1.1 Echarts實例
3.1.2 系列
3.1.3 組件
3.1.4 用option描述圖表
3.1.5 組件的定位
3.1.6 坐標系
3.1.7 小例子:實現(xiàn)日歷圖
3.1.8 自定義配置參數(shù)
3.2 其他相關理論
3.2.1 主題模型
3.2.2 數(shù)據(jù)預處理
3.3 背景與分析目標
3.4 數(shù)據(jù)采集與處理
3.4.1 數(shù)據(jù)采集
3.4.2 數(shù)據(jù)處理
3.5 數(shù)據(jù)分析與挖掘
3.5.1 分區(qū)熱度
3.5.2 影響因素之視頻標題分析
3.5.3 影響因素之視頻時長和視頻發(fā)布時間分析
3.6 拓展思考
3.7 本章小結
本章參考文獻
第4章 Python可視化——社科基金項目選題分析
4.1 Python可視化
4.2 背景與分析目標
4.3 數(shù)據(jù)采集與處理
4.4 數(shù)據(jù)分析與挖掘
4.4.1 Matplotlib可視化分析
4.4.2 詞云圖
4.4.3 知識圖譜
4.5 拓展思考
4.6 本章小結
本章參考文獻
第5章 描述性分析——熱映電影背后的成因分析
5.1 描述性分析
5.1.1 描述性分析的含義
5.1.2 基于Python的描述性統(tǒng)計分析
5.2 背景與分析目標
5.2.1 背景
5.2.2 分析目標
5.3 數(shù)據(jù)采集與處理
5.3.1 數(shù)據(jù)采集
5.3.2 數(shù)據(jù)處理
5.4 數(shù)據(jù)分析與挖掘
5.4.1 電影行業(yè)的整體發(fā)展情況
5.4.2 電影類型隨時間的變化趨勢
5.5 拓展思考
5.5.1 數(shù)據(jù)分析的意義
5.5.2 數(shù)據(jù)分析的分類
5.6 本章小結
本章參考文獻
第6章 關聯(lián)分析——提高相親旅游成功率的分析
6.1 相關理論
6.1.1 關聯(lián)分析概念
6.1.2 頻繁項集挖掘方法
6.2 背景與分析目標
6.3 數(shù)據(jù)采集與處理
6.3.1 數(shù)據(jù)采集
6.3.2 數(shù)據(jù)預處理
6.4 數(shù)據(jù)分析與挖掘
6.4.1 用戶屬性定位
6.4.2 旅游路線及內(nèi)容規(guī)劃
6.4.3 總結
6.5 拓展思考
6.5.1 理論意義
6.5.2 實踐意義
6.5.3 優(yōu)點
6.5.4 不足之處
6.6 本章小結
本章參考文獻
第7章 回歸與分類——二手房房價影響因素及預測分析
7.1 回歸與分類
7.1.1 回歸分析
7.1.2 分類與預測
7.2 背景與分析目標
7.3 數(shù)據(jù)采集與處理
7.4 數(shù)據(jù)分析與挖掘
7.4.1 數(shù)據(jù)分析
7.4.2 機器學習與預測房價
7.5 拓展思考
7.6 本章小結
本章參考文獻
第8章 分類——民宿價格和評分影響因素分析
8.1 相關理論
8.1.1 分類
8.1.2 線性回歸
8.2 背景與分析目標
8.3 數(shù)據(jù)采集與處理
8.3.1 數(shù)據(jù)采集
8.3.2 數(shù)據(jù)預處理
8.4 數(shù)據(jù)分析與挖掘
8.4.1 民宿價格影響因素分析
8.4.2 民宿評分影響因素分析
8.4.3 結論與對策建議
8.5 拓展思考
8.5.1 理論意義
8.5.2 實踐意義
8.5.3 不足之處
8.6 本章小結
本章參考文獻
第9章 聚類——新冠肺炎疫情分析及微博評論的數(shù)據(jù)挖掘
9.1 聚類
9.1.1 聚類方法
9.1.2 K-means
9.1.3 DBSCAN
9.2 背景與分析目標
9.3 數(shù)據(jù)采集與處理
9.3.1 數(shù)據(jù)選擇
9.3.2 數(shù)據(jù)采集
9.3.3 數(shù)據(jù)預處理
9.4 數(shù)據(jù)分析與挖掘
9.4.1 疫情數(shù)據(jù)擬合分析
9.4.2 評論數(shù)據(jù)信息挖掘
9.5 拓展思考
9.5.1 理論意義
9.5.2 實踐意義
9.6 本章小結
本章參考文獻
第10章 序列挖掘——景區(qū)日客流量影響因素分析與預測
10.1 相關理論
10.1.1 序列挖掘
10.1.2 其他相關理論
10.2 背景與分析目標
10.3 數(shù)據(jù)采集與處理
10.3.1 數(shù)據(jù)采集
10.3.2 影響因素分析
10.3.3 數(shù)據(jù)處理
10.4 數(shù)據(jù)分析與挖掘
10.4.1 平穩(wěn)時間序列分析
10.4.2 非平穩(wěn)時間序列分析
10.4.3 其他時間序列分析
10.5 拓展思考
10.5.1 理論意義
10.5.2 實踐意義
10.5.3 優(yōu)點
10.5.4 不足之處
10.6 本章小結
本章參考文獻
第3篇 提高實踐篇
第11章 文本分析——政府工作報告分析
11.1 文本分析相關理論
11.1.1 概念和方法
11.1.2 工具
11.2 背景與分析目標
11.3 數(shù)據(jù)采集與處理
11.4 數(shù)據(jù)分析與挖掘
11.5 本章小結
本章參考文獻
第12章 主題模型——生育價值觀變化分析
12.1 主題模型
12.1.1 LSI
12.1.2 PLSI
12.1.3 PLSA
12.1.4 LDA
12.2 背景與分析目標
12.3 數(shù)據(jù)采集與處理
12.3.1 數(shù)據(jù)選擇
12.3.2 數(shù)據(jù)采集
12.3.3 數(shù)據(jù)預處理
12.4 數(shù)據(jù)分析與挖掘
12.4.1 各因素影響研究分析
12.4.2 評論數(shù)據(jù)的特征分析
12.4.3 語義網(wǎng)絡分析
12.4.4 情感分析
12.4.5 LDA主題構建
12.5 拓展思考
12.5.1 理論意義
12.5.2 實踐意義
12.5.3 優(yōu)點
12.5.4 不足之處
12.6 本章小結
本章參考文獻
第13章 推薦系統(tǒng)——基于牛客網(wǎng)的職位推薦分析
13.1 推薦系統(tǒng)
13.1.1 基于內(nèi)容的推薦
13.1.2 協(xié)同過濾推薦
13.1.3 混合式推薦
13.2 背景與分析目標
13.3 數(shù)據(jù)采集與處理
13.4 數(shù)據(jù)分析與挖掘
13.4.1 可視化分析
13.4.2 推薦系統(tǒng)設計與開發(fā)
13.4.3 知識圖譜
13.5 拓展思考
13.5.1 理論意義
13.5.2 實踐意義
13.5.3 優(yōu)點
13.5.4 不足之處
13.6 本章小結
本章參考文獻
第14章 知識圖譜——影評分析
14.1 相關理論
14.1.1 知識圖譜
14.1.2 其他相關理論
14.2 背景與分析目標
14.3 數(shù)據(jù)采集與處理
14.3.1 數(shù)據(jù)采集
14.3.2 數(shù)據(jù)描述
14.3.3 數(shù)據(jù)預處理
14.4 數(shù)據(jù)分析與挖掘
14.4.1 知識圖譜的構建
14.4.2 TF-IDF特征提取
14.4.3 情感分析
14.4.4 LDA主題模型
14.5 拓展思考
14.5.1 理論意義
14.5.2 實踐意義
14.5.3 優(yōu)點
14.5.4 不足之處
14.6 本章小結
本章參考文獻
第15章 情感分析——景區(qū)印象分析
15.1 相關理論
15.1.1 情感分析
15.1.2 其他相關理論
15.2 背景與分析目標
15.2.1 背景
15.2.2 分析目標
15.2.3 A01景區(qū)的競爭形勢
15.3 數(shù)據(jù)采集與處理
15.3.1 數(shù)據(jù)爬取與清洗
15.3.2 分詞與去停用詞
15.4 情感分析
15.4.1 關鍵詞提取(TF-IDF)
15.4.2 詞云圖
15.4.3 情感分類(正、負面情感)
15.4.4 LDA主題模型
15.5 數(shù)據(jù)分析與挖掘
15.5.1 描述性統(tǒng)計
15.5.2 社會關系網(wǎng)絡
15.5.3 SPSS分析
15.5.4 SWOT分析
15.6 拓展思考
15.7 本章小結
本章參考文獻
第4篇 管理應用篇
第16章 網(wǎng)紅經(jīng)濟背景下審丑現(xiàn)象的受眾心理及原因分析——以馬某某事件為例
16.1 引言
16.2 文獻回顧及相關理論
16.2.1 文獻回顧
16.2.2 相關理論
16.3 數(shù)據(jù)來源與處理
16.3.1 數(shù)據(jù)來源
16.3.2 數(shù)據(jù)處理
16.3.3 研究方法
16.4 數(shù)據(jù)挖掘與分析
16.4.1 博文關鍵詞詞頻分析
16.4.2 原因類博文分析
16.4.3 評論數(shù)據(jù)分析
16.5 本章小結
16.5.1 丑味網(wǎng)紅流行的原因
16.5.2 用戶追捧審丑文化的原因
本章參考文獻
第17章 丁真走紅背后的那些事——基于微博數(shù)據(jù)分析
17.1 引言
17.2 文獻回顧
17.3 研究方法及理論基礎
17.3.1 研究方法
17.3.2 理論基礎
17.4 數(shù)據(jù)挖掘與分析
17.4.1 數(shù)據(jù)爬取
17.4.2 數(shù)據(jù)處理
17.4.3 分析過程與結果
17.5 本章小結
本章參考文獻
第18章 “準社會交往”原則下網(wǎng)紅受歡迎的原因分析——基于丁真微博數(shù)據(jù)
18.1 引言
18.2 文獻回顧
18.3 理論與方法
18.4 數(shù)據(jù)挖掘與分析
18.4.1 數(shù)據(jù)爬取
18.4.2 數(shù)據(jù)處理
18.4.3 分析過程與結果
18.5 本章小結
18.5.1 結論
18.5.2 啟示
18.5.3 不足之處
本章參考文獻
第19章 基于粉絲經(jīng)濟理論對消費者購買行為影響因素的分析
19.1 引言
19.2 相關理論
19.2.1 粉絲經(jīng)濟
19.2.2 購買意愿
19.3 數(shù)據(jù)爬取
19.4 數(shù)據(jù)處理
19.4.1 分詞處理
19.4.2 數(shù)據(jù)數(shù)值化
19.5 數(shù)據(jù)分析
19.5.1 多元線性回歸分析
19.5.2 一元分析與多元分析混合
19.6 情感分析
19.6.1 數(shù)據(jù)篩選
19.6.2 一般消費者情感分析
19.6.3 粉絲消費者情感分析
19.6.4 對比結論
19.7 粉絲經(jīng)濟亂象
19.8 建議
本章參考文獻