數(shù)據(jù)挖掘已經(jīng)廣泛應用于各行各業(yè),并催生了數(shù)據(jù)分析師的興起。本書結(jié)合項目實踐,首先對數(shù)據(jù)挖掘的核心問題進行了總結(jié),并以保險推薦為例說明數(shù)據(jù)挖掘過程中每個步驟需要關(guān)注之處; 然后,結(jié)合香水銷售分析,討論可視化圖形的基本應用。為增強本書的實用性,提高讀者的動手能力,后續(xù)章節(jié)詳細地分析了數(shù)據(jù)挖掘在銀行信用卡、餐飲、商務(wù)酒店、制造業(yè)、公安等領(lǐng)域的應用。此外,本書還介紹了卷積神經(jīng)網(wǎng)絡(luò)在音頻數(shù)據(jù)處理方面的實際應用。
本書內(nèi)容深入淺出,案例生動形象,可以作為高校相關(guān)專業(yè)數(shù)據(jù)挖掘機器學習商務(wù)數(shù)據(jù)分析等課程的實驗教材,也可以供學習數(shù)據(jù)分析的社會人士參考。
數(shù)據(jù)挖掘是一個多學科交叉的領(lǐng)域,本書通過少數(shù)實際的具體案例,闡述數(shù)據(jù)分析項目分析的過程以及一些要點,可作為普通高等學校數(shù)據(jù)挖掘、商務(wù)數(shù)據(jù)分析、商務(wù)智能等課程的案例和實驗指導材料,也可供有志于數(shù)據(jù)分析師的讀者參考。
前言
目前,高校的數(shù)據(jù)分析類課程(如數(shù)據(jù)挖掘、機器學習、大數(shù)據(jù)分析等)教學方式大多以知識點為核心組織教學,學生主要以學習知識為主,工程應用實踐機會較少。教師將所要教授的知識點在課堂上講述,課后再以作業(yè)練習、課程實驗、課程設(shè)計等形式幫助學生深入理解課堂上所學的知識。盡管為提高教學效果,目前許多高校嘗試了大型開放式網(wǎng)絡(luò)課程(Massive Open Online Course,MOOC)、翻轉(zhuǎn)課堂、移動課堂、同伴學習和小規(guī)模限制性在線課程(Small Private Online Course,SPOC)等教學方法的改革,但總體上來說,對于應用性較強的課程教學,還存在改進的空間,尤其是對學生的動手實踐能力要求較高的數(shù)據(jù)分析類課程,F(xiàn)有的教學方法在傳授理論知識時,缺少實際應用環(huán)節(jié)的支持,學生缺少在實際應用的背景下充分理解所學知識的機會,難以培養(yǎng)學生應用專業(yè)知識分析解決問題的技能和創(chuàng)新思維能力。
數(shù)據(jù)分析的方法是科學,但這些方法的選擇和應用過程因問題而異,帶有很強的藝術(shù)性。在現(xiàn)有專業(yè)課程教學模式下,學生僅僅了解需要學習基本的理論知識,缺少實踐動手經(jīng)歷,難以獲得這些知識的應用技巧,很少接觸與企業(yè)實際項目相關(guān)的內(nèi)容,因此學生的應用能力較弱,與企業(yè)實際的需求脫節(jié)。例如,在數(shù)據(jù)分析課程中,一般的教學方式是教師將具體數(shù)據(jù)分析的方法教授給學生,學生能夠理解算法或方法的內(nèi)容,但難以解決實際項目中應用具體算法碰到的問題。目前亟待克服數(shù)據(jù)分析類課程教學脫離企業(yè)所需能力的培養(yǎng)痛點,在課程學習的知識基礎(chǔ)上,解決實際問題,引導學生解決數(shù)據(jù)分析實際問題的必要技能和思維方法。
實際上,數(shù)據(jù)分析絕大部分的教材和書籍還基本停留在基本理論和方法的介紹,實驗部分的內(nèi)容比較簡單或者缺失,實際應用的內(nèi)容不足。還有些實戰(zhàn)性的書籍沒有按照教材的方式編寫,案例也比較粗略,數(shù)據(jù)分析過程中的一些技能解釋膚淺。有關(guān)實際項目中數(shù)據(jù)分析過程思路的分析以及難點解析對教學,尤其是對實驗或案例教學非常重要。最近幾年,作者與多家企業(yè)合作,在數(shù)據(jù)分析領(lǐng)域辛苦耕耘,親自參與了多個實際數(shù)據(jù)分析項目,熟悉數(shù)據(jù)分析過程的酸甜苦辣,希望通過本教材彌補國內(nèi)數(shù)據(jù)分析實用教材的不足,也希望本教材的出版能改善國內(nèi)數(shù)據(jù)分析類課程教學資料短缺的情況。
學習數(shù)據(jù)分析的最好方法就是做中學,使用實際數(shù)據(jù)解決實際問題,而不是單純學習技術(shù)。實際上,有效的數(shù)據(jù)分析需要對業(yè)務(wù)進行深入理解,在此基礎(chǔ)上形成有效的分析思路,并通過實驗反復比較,才能真正解決客戶的問題。在數(shù)據(jù)時代,現(xiàn)實應用中往往不乏數(shù)據(jù)。從生活中的小數(shù)據(jù)、簡單問題開始,做各種假設(shè),探索其中的規(guī)律。不斷嘗試常用的分析語言、工具和技術(shù),在應用中不斷學習新的知識,彌補課堂教學的不足,尤其是體會數(shù)據(jù)分析過程中書本上難得看到的分析技巧,并在應用中舉一反三。如此反復,隨著分析問題的深入,不斷提高分析能力,體會數(shù)據(jù)分析的艱辛和解決客戶問題的快樂。
本教材不局限于數(shù)據(jù)分析基本理論和基本方法的介紹,而是立足實際應用,突出實際數(shù)據(jù)分析項目中的思路,以及數(shù)據(jù)分析中的難點。但希望讀者具有一定的統(tǒng)計學、機器學習(數(shù)據(jù)挖掘)、數(shù)據(jù)科學,以及必要的相關(guān)專業(yè)知識。也不追求過多的案例堆積,希望讀者能理解數(shù)據(jù)分析的思路,舉一反三。這些內(nèi)容是作者多年項目實踐和教學成果的總結(jié),其中的分析思路只有參與實際的項目,才能體驗到數(shù)據(jù)分析的難點和藝術(shù)性,這是目前教學過程中培養(yǎng)學生工程性思維的重要問題,也是真正提高學生創(chuàng)新能力和動手能力的手段。這些內(nèi)容是數(shù)據(jù)分析的基礎(chǔ),也是從事大數(shù)據(jù)分析必須掌握的知識和技能。有關(guān)數(shù)據(jù)挖掘常用算法的介紹,讀者可以參閱作者已經(jīng)出版的教材《商務(wù)智能(第4版)》(清華大學出版社,2016年)或其他專業(yè)書籍。
全書分為11章,具體的內(nèi)容簡介如下:
第1章從數(shù)據(jù)分析的流程出發(fā),討論了在數(shù)據(jù)分析各個階段需要做的工作以及經(jīng)常遇到的主要問題,尤其是數(shù)據(jù)挖掘算法使用時容易遇到的難題。數(shù)據(jù)挖掘過程有一定的標準,但是針對具體的業(yè)務(wù)需求,如何設(shè)計合理、有效的數(shù)據(jù)分析流程,需要有一定的經(jīng)驗和技巧,數(shù)據(jù)的預處理、算法的選擇等主要步驟都充分體現(xiàn)了數(shù)據(jù)挖掘的藝術(shù)性。
第2章以保險產(chǎn)品推薦項目為例,突出了數(shù)據(jù)挖掘選擇合適的算法并非很簡單的事情,需要在理解分析問題以及對多種算法熟悉的基礎(chǔ)上,通過實驗對初選的幾種算法進行比較、調(diào)優(yōu),才能選擇對解決問題效果比較好的算法。
第3章介紹了多維分析常用的可視化圖形,這是數(shù)據(jù)分析的基本功。這些圖形可以幫助數(shù)據(jù)分析師探索數(shù)據(jù),找出數(shù)據(jù)中存在的問題以及基本規(guī)律。
第4章介紹了IBM SPSS Modeler 18數(shù)據(jù)挖掘工具的常用組件。在學習數(shù)據(jù)分析的不同階段,根據(jù)學習者的基礎(chǔ)、問題的分析難度等,可以選擇不同的工具或平臺。盡管分析工具并不是數(shù)據(jù)挖掘最重要的事情,但學習成本低、功能強大的分析工具對于問題的解決也是不可少的。對于編程基礎(chǔ)有限的數(shù)據(jù)分析師,可以選擇類似IBM SPSS Modeler 18的挖掘工具或TensorFlow等開源工具。盡管如此,對于有一定數(shù)據(jù)分析基礎(chǔ)的讀者,推薦學習Python、R等針對數(shù)據(jù)分析的語言,這些語言比較靈活,功能也十分強大。
第5章對香水的銷售數(shù)據(jù)進行分析,討論受歡迎的香水以及特點,并找出影響香水銷售的主要因素,為香水的營銷提供依據(jù)。
第6章對銀行的客戶信用記錄、申請客戶信息、拖欠歷史記錄、消費歷史記錄等人口屬性、交易數(shù)據(jù)進行綜合分析,討論用戶銀行信用卡拖欠和欺詐行為特征,為銀行推廣信用卡以及風險管理提供依據(jù)。
第7章從大眾點評網(wǎng)抓取火鍋店海底撈的菜品介紹以及客戶評論數(shù)據(jù),以客戶為中心,分析客戶對火鍋的偏好,為火鍋店的選址、菜品的選擇和設(shè)計,以及火鍋店的競爭力都提供了參考。
第8章以攜程網(wǎng)上某商務(wù)賓館的客戶評分、評論數(shù)據(jù)為基礎(chǔ),通過情感分析,分析了客戶對商務(wù)賓館的偏好,并了解客戶的消費行為,比較多家商務(wù)賓館的競爭優(yōu)劣勢,為商務(wù)賓館改進經(jīng)營提供了參考。
第9章在某耐熱導線工廠最近2年的質(zhì)量管理數(shù)據(jù)的基礎(chǔ)上,分析了這些數(shù)據(jù)存在的問題,探索耐熱導線的加工流程中幾個工序之間半成品或成品質(zhì)量指標的關(guān)系,提高最終產(chǎn)品的合格率。
第10章利用公安人口數(shù)據(jù)和違法犯罪人員行為特點的數(shù)據(jù),建立風險評分模型,實現(xiàn)對高危人群的特征分析,識別具有違法、犯罪、可疑或可能的高危人員。
第11章討論深度學習在音頻處理領(lǐng)域的應用,介紹了常用的深度神經(jīng)網(wǎng)絡(luò)模型,重點分析卷積神經(jīng)網(wǎng)絡(luò)在音頻質(zhì)量評價領(lǐng)域的應用。
數(shù)據(jù)挖掘是一個多學科交叉的領(lǐng)域,本書通過少數(shù)實際的具體案例,闡述數(shù)據(jù)分析項目的過程以及一些要點,可作為普通高等學校數(shù)據(jù)挖掘商務(wù)數(shù)據(jù)分析商務(wù)智能等課程的案例和實驗指導材料,也可供有志于數(shù)據(jù)分析師的讀者參考。配套實驗數(shù)據(jù)、源代碼、軟件等可以從清華大學出版社網(wǎng)站下載。由于作者水平有限,書中難免有錯誤之處,希望讀者不吝指出。
在寫作的過程中,胡遠文、于召鑫、黃黎明、蒲實、朱榮斌等在資料收集方面做了一些工作,在此表示感謝。
趙衛(wèi)東2017年8月
復旦大學
目錄
第1章數(shù)據(jù)分析過程的主要問題
1.1業(yè)務(wù)理解
1.2數(shù)據(jù)理解
1.3數(shù)據(jù)質(zhì)量問題與預處理
1.4數(shù)據(jù)分析常見陷阱
1.5數(shù)據(jù)分析方法的選擇
1.5.1分類算法
1.5.2聚類算法
1.5.3關(guān)聯(lián)分析
1.5.4回歸分析
1.5.5深度學習
1.5.6統(tǒng)計方法
1.6數(shù)據(jù)分析結(jié)果的評價
1.6.1分類算法的評價
1.6.2聚類結(jié)果的評價
1.6.3關(guān)聯(lián)分析的評價
1.6.4回歸分析結(jié)果的評價
1.6.5深度學習的評價
1.7數(shù)據(jù)分析團隊的組建
1.7.1項目經(jīng)理
1.7.2業(yè)務(wù)專家
1.7.3數(shù)據(jù)工程師
1.7.4數(shù)據(jù)建模人員
1.7.5可視化人員
1.7.6評估人員
1.8數(shù)據(jù)分析人才培養(yǎng)的難題
1.8.1數(shù)理要求高
1.8.2跨學科綜合能力
1.8.3國內(nèi)技術(shù)資料少
1.8.4實踐機會少
第2章數(shù)據(jù)挖掘算法的選擇保險產(chǎn)品推薦
2.1業(yè)務(wù)理解
2.2數(shù)據(jù)分析目標
2.3數(shù)據(jù)探索
2.3.1數(shù)據(jù)質(zhì)量評估
2.3.2探索數(shù)據(jù)統(tǒng)計特性
2.3.3數(shù)據(jù)降維
2.4模型選擇過程
2.4.1算法初選
2.4.2算法驗證
2.4.3算法優(yōu)化
2.4.4平衡數(shù)據(jù)集
2.4.5修改模型參數(shù)
2.5總結(jié)
第3章常用可視化的多維分析
3.1箱圖
3.2雷達圖
3.3標簽云
3.4氣泡圖
3.5樹圖
3.6地圖
3.7高低圖
3.8雙軸圖
3.9關(guān)系圖
3.10熱圖
第4章SPSS Modeler建模組件介紹
4.1數(shù)據(jù)預處理組件
4.1.1數(shù)據(jù)清理組件
4.1.2數(shù)據(jù)集成組件
4.1.3數(shù)據(jù)選擇組件
4.1.4數(shù)據(jù)變換組件
4.2數(shù)據(jù)挖掘建模組件
4.2.1模型篩選
4.2.2自動建模
4.2.3決策樹模型
4.2.4貝葉斯網(wǎng)絡(luò)模型
4.2.5神經(jīng)網(wǎng)絡(luò)模型
4.2.6支持向量機模型
4.2.7時間序列模型
4.2.8統(tǒng)計模型
4.2.9聚類模型
4.2.10關(guān)聯(lián)分析
4.2.11KNN模型
4.2.12數(shù)據(jù)挖掘模式評估
4.3知識表示
4.3.1圖形節(jié)點
4.3.2數(shù)據(jù)輸出
4.3.3數(shù)據(jù)導出
第5章香水銷售分析
5.1香水銷售數(shù)據(jù)預處理
5.2香水銷售數(shù)據(jù)統(tǒng)計分析
5.3影響香水銷量的因素分析
5.4香水適用場所關(guān)聯(lián)分析
5.5香水聚類分析
5.6香水營銷建議
第6章銀行信用卡欺詐與拖欠行為分析
6.1客戶信用等級影響因素
6.1.1客戶信用卡申請數(shù)據(jù)預處理
6.1.2信用卡申請成功影響因素
6.2信用卡客戶信用等級影響因素
6.3基于消費的信用等級影響因素
6.4信用卡欺詐判斷模型
6.4.1基于Apriori算法的欺詐模型
6.4.2基于判別的欺詐模型
6.4.3基于分類算法的欺詐模型
6.5欺詐人口屬性分析
6.5.1欺詐人口屬性統(tǒng)計分析
6.5.2基于邏輯回歸的欺詐人口屬性分析
6.5.3逾期還款的客戶特征
6.5.4基于決策樹分析逾期客戶特征
6.5.5基于回歸分析逾期客戶特征
6.5.6根據(jù)消費歷史分析客戶特征
6.5.7基于聚類分析客戶特征
6.5.8基于客戶細分的聚類分析
第7章海底撈火鍋運營分析
7.1火鍋相關(guān)數(shù)據(jù)抓取
7.2數(shù)據(jù)預處理
7.3數(shù)據(jù)分析
7.3.1海底撈運營分析
7.3.2店鋪選址分析
7.4菜品關(guān)聯(lián)分析
7.5用戶評論與評分的關(guān)聯(lián)分析
7.6顧客情感分析
第8章商務(wù)賓館競爭分析
8.1目前經(jīng)濟型酒店行業(yè)競爭態(tài)勢
8.2用戶相關(guān)數(shù)據(jù)準備
8.3通過Python編程抓取評論
8.4數(shù)據(jù)預處理
8.5商務(wù)賓館客戶數(shù)據(jù)分析
8.5.1酒店評分影響因素
8.5.2酒店評分與酒店業(yè)績關(guān)系
8.5.3酒店評分分析
8.5.4客戶情感分析
8.5.5競爭分析
8.6建議
第9章耐熱導線工廠質(zhì)量管理數(shù)據(jù)分析
9.1項目概述
9.2耐熱導線生產(chǎn)質(zhì)量數(shù)據(jù)預處理
9.3耐熱鋁線質(zhì)量檢測數(shù)據(jù)分析
第10章基于邏輯回歸模型的高危人員分析
10.1高危人員分析需求
10.2高危人群相關(guān)數(shù)據(jù)收集與預處理
10.3建立模型
第11章卷積神經(jīng)網(wǎng)絡(luò)在音頻質(zhì)量評價領(lǐng)域的應用
11.1深度學習基礎(chǔ)
11.1.1深度學習的發(fā)展過程
11.1.2深度學習常用技術(shù)框架
11.1.3常用的深度學習算法
11.2音頻質(zhì)量評價
11.2.1音頻樣本及特征預處理
11.2.2音頻特征選擇
11.2.3卷積神經(jīng)網(wǎng)絡(luò)模型訓練
11.2.4模型參數(shù)調(diào)優(yōu)
11.3性能驗證
參考文獻