Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)(第2版)
定 價(jià):79 元
叢書(shū)名:大數(shù)據(jù)技術(shù)叢書(shū)
內(nèi)容簡(jiǎn)介本書(shū)是Python數(shù)據(jù)分析與挖掘領(lǐng)域的公認(rèn)的事實(shí)標(biāo)準(zhǔn),第1版銷售超過(guò)10萬(wàn)冊(cè),銷售勢(shì)頭依然強(qiáng)勁,被國(guó)內(nèi)100余所高等院校采用為教材,同時(shí)也被廣大數(shù)據(jù)科學(xué)工作者奉為經(jīng)典。作者在大數(shù)據(jù)挖掘與分析等領(lǐng)域有10余年的工程實(shí)踐、教學(xué)和創(chuàng)辦企業(yè)的經(jīng)驗(yàn),不僅掌握行業(yè)的*技術(shù)和實(shí)踐方法,而且洞悉學(xué)生和老師的需求與痛點(diǎn),這為本書(shū)的內(nèi)容和形式提供了強(qiáng)有力的保障,這是本書(shū)第1版能大獲成功的關(guān)鍵因素。全書(shū)共13章,分為三個(gè)部分,從技術(shù)理論、工程實(shí)踐和進(jìn)階提升三個(gè)維度對(duì)數(shù)據(jù)分析與挖掘進(jìn)行了詳細(xì)的講解。*部分 基礎(chǔ)篇(第1~5章)主要講解了Python數(shù)據(jù)分析與挖掘的工具和技術(shù)理論,包括數(shù)據(jù)挖掘的基礎(chǔ)知識(shí)、Python數(shù)據(jù)挖掘與建模工具、數(shù)據(jù)挖掘的建模過(guò)程,以及挖掘建模的常用算法和原理等內(nèi)容。第二部分 實(shí)戰(zhàn)篇(第6~12章)通過(guò)工程實(shí)踐案例講解了數(shù)據(jù)挖掘技術(shù)在金融、航空、零售、能源、制造、電商等行業(yè)的應(yīng)用。在案例組織結(jié)構(gòu)上,本書(shū)按照介紹案例背景與挖掘目標(biāo)闡述分析方法與過(guò)程完成模型構(gòu)建的順序進(jìn)行,在建模過(guò)程關(guān)鍵環(huán)節(jié),穿插程序?qū)崿F(xiàn)代碼。*后,通過(guò)上機(jī)實(shí)踐加深對(duì)案例應(yīng)用中的數(shù)據(jù)挖掘技術(shù)的理解。第三部分 提高篇(第13章)重點(diǎn)講解了基于Python引擎的開(kāi)源數(shù)據(jù)挖掘建模平臺(tái)(TipDM)的功能和使用方法,以航空公司客戶價(jià)值分析為案例,介紹了如何使用該平臺(tái)快速搭建數(shù)據(jù)分析與挖掘工程。本書(shū)不僅提供TipDM這樣的上機(jī)實(shí)踐環(huán)境,而且還提供配套的案例建模數(shù)據(jù)、Python源代碼、教學(xué)PPT。
(1)暢銷書(shū)全新升級(jí),第1版銷售超過(guò)10萬(wàn)冊(cè),被國(guó)內(nèi)100余所高等院校采用為教材,同時(shí)被廣大數(shù)據(jù)科學(xué)工作者奉為經(jīng)典,是該領(lǐng)域公認(rèn)的事實(shí)標(biāo)準(zhǔn)。(2)作者在大數(shù)據(jù)挖掘與分析等領(lǐng)域有10余年的工程實(shí)踐、教學(xué)和創(chuàng)辦企業(yè)的經(jīng)驗(yàn),不僅掌握行業(yè)的*技術(shù)和實(shí)踐方法,而且洞悉學(xué)生和老師的需求與痛點(diǎn)。(3)本書(shū)提供豐富的配套資源,如上機(jī)環(huán)境、Python源代碼、案例建模數(shù)據(jù)、教學(xué)PPT。
為什么要寫(xiě)這本書(shū)LinkedIn通過(guò)對(duì)全球超過(guò)3.3億用戶的工作經(jīng)歷和技能進(jìn)行分析后得出,在目前炙手可熱的25項(xiàng)技能中,數(shù)據(jù)挖掘人才需求排名第一。那么數(shù)據(jù)挖掘是什么呢?數(shù)據(jù)挖掘是從大量數(shù)據(jù)(包括文本)中挖掘出隱含的、先前未知的、對(duì)決策有潛在價(jià)值的關(guān)系、模式和趨勢(shì),并用這些知識(shí)和規(guī)則建立用于決策支持的模型,提供預(yù)測(cè)性決策支持的方法、工具和過(guò)程。數(shù)據(jù)挖掘有助于企業(yè)發(fā)現(xiàn)業(yè)務(wù)的趨勢(shì),揭示已知的事實(shí),預(yù)測(cè)未知的結(jié)果,因此,數(shù)據(jù)挖掘已成為企業(yè)保持競(jìng)爭(zhēng)力的必要方法。與國(guó)外相比,我國(guó)信息化程度仍不算高,企業(yè)內(nèi)部信息也不完整,零售、銀行、保險(xiǎn)、證券等行業(yè)對(duì)數(shù)據(jù)挖掘的應(yīng)用還不太理想。但隨著市場(chǎng)競(jìng)爭(zhēng)的加劇,各行業(yè)對(duì)數(shù)據(jù)挖掘技術(shù)的需求越來(lái)越強(qiáng)烈,可以預(yù)計(jì),未來(lái)幾年各行業(yè)的數(shù)據(jù)分析應(yīng)用一定會(huì)從傳統(tǒng)的統(tǒng)計(jì)分析發(fā)展到大規(guī)模的數(shù)據(jù)挖掘應(yīng)用。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)過(guò)剩、人才短缺,數(shù)據(jù)挖掘?qū)I(yè)人才的培養(yǎng)將離不開(kāi)專業(yè)知識(shí)和職業(yè)經(jīng)驗(yàn)積累。所以,本書(shū)注重?cái)?shù)據(jù)挖掘理論與項(xiàng)目案例實(shí)踐相結(jié)合,讓讀者獲得真實(shí)的數(shù)據(jù)挖掘?qū)W習(xí)與實(shí)踐環(huán)境,更快、更好地學(xué)習(xí)數(shù)據(jù)挖掘知識(shí)并積累職業(yè)經(jīng)驗(yàn)。總的來(lái)說(shuō),隨著云時(shí)代的來(lái)臨,大數(shù)據(jù)技術(shù)將具有越來(lái)越重要的戰(zhàn)略意義。大數(shù)據(jù)已經(jīng)滲透到每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為重要的生產(chǎn)要素,人們對(duì)于海量數(shù)據(jù)的運(yùn)用將預(yù)示著新一輪生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)。大數(shù)據(jù)分析技術(shù)將幫助企業(yè)用戶在合理的時(shí)間內(nèi)攫取、管理、處理、整理海量數(shù)據(jù),為企業(yè)經(jīng)營(yíng)決策提供積極幫助。大數(shù)據(jù)分析作為數(shù)據(jù)存儲(chǔ)和挖掘分析的前沿技術(shù),廣泛應(yīng)用于物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)等戰(zhàn)略性新興產(chǎn)業(yè)。雖然目前大數(shù)據(jù)在國(guó)內(nèi)還處于初級(jí)階段,但是其商業(yè)價(jià)值已經(jīng)顯現(xiàn)出來(lái),特別是有實(shí)踐經(jīng)驗(yàn)的大數(shù)據(jù)分析人才更是各企業(yè)爭(zhēng)奪的焦點(diǎn)。為了滿足日益增長(zhǎng)的大數(shù)據(jù)分析人才需求,很多高校開(kāi)始嘗試開(kāi)設(shè)不同程度的大數(shù)據(jù)分析課程。大數(shù)據(jù)分析作為大數(shù)據(jù)時(shí)代的核心技術(shù),必將成為高校數(shù)學(xué)與統(tǒng)計(jì)學(xué)專業(yè)的重要課程之一。第2版與第1版的區(qū)別本書(shū)在第1版的基礎(chǔ)上進(jìn)行了代碼與內(nèi)容的全方位升級(jí)。在代碼方面,將整書(shū)代碼由Python 2升級(jí)至Python 3.6。在內(nèi)容方面,對(duì)基礎(chǔ)篇和實(shí)戰(zhàn)篇均做了升級(jí)。基礎(chǔ)篇具體升級(jí)內(nèi)容如下。第1章增加了章節(jié)的引言;修改了1.5節(jié)中對(duì)TipDM開(kāi)源數(shù)據(jù)挖掘建模平臺(tái)的介紹。第2章修改了2.4節(jié)中對(duì)配套附件的說(shuō)明。第3章增加3.2節(jié)所有圖形繪制的代碼。第4章修改了4.1.1節(jié)中對(duì)牛頓插值法原理的描述。第5章修改了5.1.3節(jié)中對(duì)邏輯回歸模型的評(píng)價(jià)和相關(guān)解釋;5.2.4節(jié)中更新了圖5-17。實(shí)戰(zhàn)篇具體升級(jí)內(nèi)容如下。第6章為原書(shū)第13章,新增了對(duì)Lasso回歸方法、灰色預(yù)測(cè)算法、SVR算法原理的介紹;將原書(shū)的神經(jīng)網(wǎng)絡(luò)算法改為SVR算法;刪除增值稅預(yù)測(cè)模型、營(yíng)業(yè)稅預(yù)測(cè)模型、企業(yè)所得稅預(yù)測(cè)模型、個(gè)人所得稅預(yù)測(cè)模型和政府性基金收入預(yù)測(cè)模型的內(nèi)容;修改了拓展思考。第7章增加了章節(jié)的引言;7.2.2節(jié)增加了分布分析;7.2.3節(jié)增加了RFM模型的介紹;7.2.4節(jié)增加了客戶分群雷達(dá)圖的繪制代碼。新增第8章商品零售購(gòu)物籃分析一章。第9章增加了章節(jié)的引言;9.2.2節(jié)增加了數(shù)據(jù)預(yù)處理的Python實(shí)現(xiàn)代碼;9.2.3節(jié)中將原書(shū)的支持向量機(jī)算法改為決策樹(shù)算法。第10章增加了章節(jié)的引言;原書(shū)的10.2.1數(shù)據(jù)抽取改為10.2.1數(shù)據(jù)探索分析,并增加了有無(wú)水流和水流量屬性的探索分析;10.2.2節(jié)增加了屬性構(gòu)造的Python實(shí)現(xiàn)代碼,原書(shū)數(shù)據(jù)清洗的內(nèi)容移到屬性構(gòu)造中實(shí)現(xiàn)。第11章為原書(shū)第12章,增加了章節(jié)的引言;11.2.3節(jié)刪除了網(wǎng)頁(yè)排名的內(nèi)容;11.2.5節(jié)優(yōu)化了基于協(xié)同過(guò)濾算法的Python實(shí)現(xiàn)代碼,新增了模型評(píng)價(jià)的代碼,并修改了模型評(píng)價(jià)的描述。第12章為原書(shū)第15章,增加了章節(jié)的引言;刪除原書(shū)15.2.1評(píng)論數(shù)據(jù)采集的內(nèi)容;12.2.1節(jié)優(yōu)化了預(yù)處理的方法,并增加了Python實(shí)現(xiàn)代碼;12.2.2節(jié)優(yōu)化了分詞的方法,并增加了Python實(shí)現(xiàn)代碼;12.2.3構(gòu)建模型修改了情感傾向分析的描述,增加了尋找最優(yōu)主題數(shù)的內(nèi)容,以及相關(guān)的Python實(shí)現(xiàn)代碼。刪除原書(shū)第6章電力竊漏電用戶自動(dòng)識(shí)別第8章中醫(yī)證型關(guān)聯(lián)規(guī)則挖掘第11章應(yīng)用系統(tǒng)負(fù)載分析與磁盤(pán)容量預(yù)測(cè)第14章基于基站定位數(shù)據(jù)的商圈分析這4章。此外,本版本還額外增加了提高篇,即第13章基于Python引擎的開(kāi)源數(shù)據(jù)挖掘建模平臺(tái)(TipDM),基于開(kāi)源數(shù)據(jù)挖掘建模平臺(tái)(TipDM)實(shí)現(xiàn)案例,不僅能夠幫助企業(yè)建立自己的數(shù)據(jù)挖掘平臺(tái),而且能輔助編程能力較弱的讀者更好地理解案例。本書(shū)特色本書(shū)作者從實(shí)踐出發(fā),結(jié)合大量數(shù)據(jù)挖掘工程案例及教學(xué)經(jīng)驗(yàn),以真實(shí)案例為主線,深入淺出地介紹了數(shù)據(jù)挖掘建模過(guò)程中的有關(guān)任務(wù):數(shù)據(jù)探索、數(shù)據(jù)預(yù)處理、分類與預(yù)測(cè)、聚類分析、時(shí)序預(yù)測(cè)、關(guān)聯(lián)規(guī)則挖掘、智能推薦、偏差檢測(cè)等。因此,本書(shū)的編排以解決某個(gè)應(yīng)用的挖掘目標(biāo)為前提,先介紹案例背景,提出挖掘目標(biāo),再闡述分析方法與過(guò)程,最后完成模型構(gòu)建。在介紹建模的過(guò)程中同時(shí)穿插操作訓(xùn)練,把相關(guān)的知識(shí)點(diǎn)嵌入相應(yīng)的操作過(guò)程中。為方便讀者輕松獲取真實(shí)的實(shí)驗(yàn)環(huán)境,本書(shū)使用大家熟知的Python語(yǔ)言對(duì)樣本數(shù)據(jù)進(jìn)行處理,以進(jìn)行挖掘建模。為了幫助讀者更好地使用本書(shū),本書(shū)提供配套的原始數(shù)據(jù)文件、Python程序代碼,讀者可以從泰迪杯數(shù)據(jù)挖掘挑戰(zhàn)賽網(wǎng)站(http://www.tipdm.org/tj/1615.jhtml)免費(fèi)下載。為方便教師授課,本書(shū)還提供了PPT課件,教師可到網(wǎng)址http://www.tipdm.org/tj/840.jhtml咨詢獲取。本書(shū)適用對(duì)象開(kāi)設(shè)數(shù)據(jù)挖掘課程的高校的教師和學(xué)生。目前,國(guó)內(nèi)不少高校將數(shù)據(jù)挖掘引入本科教學(xué)中,在數(shù)學(xué)、計(jì)算機(jī)、自動(dòng)化、電子信息、金融等專業(yè)開(kāi)設(shè)了數(shù)據(jù)挖掘技術(shù)的相關(guān)課程,但這一課程的教學(xué)仍然主要限于理論介紹。單純的理論教學(xué)過(guò)于抽象,學(xué)生理解起來(lái)往往比較困難,教學(xué)效果也不甚理想。本書(shū)提供的基于實(shí)戰(zhàn)案例和建模實(shí)踐的教學(xué),能夠使師生充分發(fā)揮互動(dòng)性和創(chuàng)造性,理論聯(lián)系實(shí)際,使師生獲得最佳的教學(xué)效果。需求分析及系統(tǒng)設(shè)計(jì)人員。這類人員可以在理解數(shù)據(jù)挖掘原理及建模過(guò)程的基礎(chǔ)上,結(jié)合數(shù)據(jù)挖掘案例完成精確營(yíng)銷、客戶分群、交叉銷售、流失分析、客戶信用記分、欺詐發(fā)現(xiàn)、智能推薦等數(shù)據(jù)挖掘應(yīng)用的需求分析和設(shè)計(jì)。數(shù)據(jù)挖掘開(kāi)發(fā)人員。這類人員可以在理解數(shù)據(jù)挖掘應(yīng)用需求和設(shè)計(jì)方案的基礎(chǔ)上,結(jié)合本書(shū)提供的基于第三方接口快速完成數(shù)據(jù)挖掘應(yīng)用的編程實(shí)現(xiàn)。從事數(shù)據(jù)挖掘應(yīng)用研究的科研人員。許多科研院所為了更好地管理科研工作,紛紛開(kāi)發(fā)了適應(yīng)自身特點(diǎn)的科研業(yè)務(wù)管理系統(tǒng),并在使用過(guò)程中積累了大量的科研信息數(shù)據(jù)。但是,這些科研業(yè)務(wù)管理系統(tǒng)一般沒(méi)有對(duì)數(shù)據(jù)進(jìn)行深入分析,對(duì)數(shù)據(jù)所隱藏的價(jià)值也沒(méi)有充分挖掘利用?蒲腥藛T需要利用數(shù)據(jù)挖掘建模工具及有關(guān)方法論來(lái)深挖科研信息的價(jià)值,從而提高科研水平。關(guān)注高級(jí)數(shù)據(jù)分析的人員。業(yè)務(wù)報(bào)告和商業(yè)智能解決方案對(duì)有關(guān)人員了解過(guò)去和現(xiàn)在的狀況是非常有用的。同時(shí),數(shù)據(jù)挖掘的預(yù)測(cè)分析解決方案還能使這類人員預(yù)見(jiàn)未來(lái)的發(fā)展?fàn)顩r,讓他們所在的機(jī)構(gòu)能夠先發(fā)制人,而不是處于被動(dòng)。因?yàn)閿?shù)據(jù)挖掘的預(yù)測(cè)分析解決方案將復(fù)雜的統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)技術(shù)應(yīng)用到數(shù)據(jù)之中,通過(guò)預(yù)測(cè)分析技術(shù)來(lái)揭示隱藏在交易系統(tǒng)或企業(yè)資源計(jì)劃(ERP)、結(jié)構(gòu)數(shù)據(jù)庫(kù)和普通文件中的模式和趨勢(shì),從而為這類人員的決策提供科學(xué)依據(jù)。如何閱讀本書(shū)本書(shū)共13章,分為基礎(chǔ)篇、實(shí)戰(zhàn)篇、提高篇;A(chǔ)篇介紹了數(shù)據(jù)挖掘的基本原理;實(shí)戰(zhàn)篇介紹了一些真實(shí)案例,通過(guò)對(duì)案例深入淺出的剖析,使讀者在不知不覺(jué)中獲得數(shù)據(jù)挖掘項(xiàng)目經(jīng)驗(yàn),同時(shí)快速領(lǐng)悟看似難懂的數(shù)據(jù)挖掘理論;提高篇介紹了一個(gè)基于Python引擎的開(kāi)源數(shù)據(jù)挖掘建模平臺(tái),通過(guò)平臺(tái)去編程、拖曳式的操作,向讀者展示了平臺(tái)流程化的思維,使讀者加深對(duì)數(shù)據(jù)挖掘流程的理解。讀者在閱讀過(guò)程中,應(yīng)充分利用隨書(shū)配套的案例建模數(shù)據(jù),借助相關(guān)的數(shù)據(jù)挖掘建模工具,通過(guò)上機(jī)實(shí)驗(yàn),快速理解相關(guān)知識(shí)與理論。基礎(chǔ)篇(第1~5章)第1章的主要內(nèi)容是數(shù)據(jù)挖掘基礎(chǔ);第2章對(duì)本書(shū)所用到的數(shù)據(jù)挖掘建模工具Python語(yǔ)言進(jìn)行了簡(jiǎn)明扼要的說(shuō)明;第3~5章對(duì)數(shù)據(jù)挖掘的建模過(guò)程,包括數(shù)據(jù)探索、數(shù)據(jù)預(yù)處理及挖掘建模的常用算法與原理進(jìn)行了介紹。實(shí)戰(zhàn)篇(第6~12章)重點(diǎn)對(duì)數(shù)據(jù)挖掘技術(shù)在金融、航空、零售、能源、制造和電商等行業(yè)的應(yīng)用進(jìn)行了分析。在案例結(jié)構(gòu)組織上,本書(shū)是按照先介紹案例背景與挖掘目標(biāo),再闡述分析方法與過(guò)程,最后完成模型構(gòu)建的順序進(jìn)行的,在建模過(guò)程關(guān)鍵環(huán)節(jié),穿插程序?qū)崿F(xiàn)代碼。最后通過(guò)上機(jī)實(shí)踐,加深對(duì)案例應(yīng)用中的數(shù)據(jù)挖掘技術(shù)的理解。提高篇(第13章)重點(diǎn)講解了基于Python引擎的開(kāi)源數(shù)據(jù)挖掘建模平臺(tái)(TipDM)的使用方法,先介紹了平臺(tái)每個(gè)模塊的功能,再以航空公司客戶價(jià)值分析案例為例,介紹如何使用平臺(tái)快速搭建數(shù)據(jù)分析與挖掘工程,展示平臺(tái)去編程化、流程化的特點(diǎn)。勘誤和支持我們已經(jīng)盡最大努力避免在文本和代碼中出現(xiàn)錯(cuò)誤,但是由于水平有限,編寫(xiě)時(shí)間倉(cāng)促,書(shū)中難免出現(xiàn)一些疏漏和不足的地方。如果你有更多的寶貴意見(jiàn),歡迎在泰迪學(xué)社微信公眾號(hào)回復(fù)圖書(shū)反饋進(jìn)行反饋。更多有關(guān)本系列圖書(shū)的信息可以在泰迪杯數(shù)據(jù)挖掘挑戰(zhàn)賽網(wǎng)站(http://www.tipdm.org/tj/index.jhtml)查閱。
張良均
張良均資深大數(shù)據(jù)挖掘與分析專家、模式識(shí)別專家、AI技術(shù)專家。有10余年大數(shù)據(jù)挖掘與分析經(jīng)驗(yàn),擅長(zhǎng)Python、R、Hadoop、Matlab等技術(shù)實(shí)現(xiàn)的數(shù)據(jù)挖掘與分析,對(duì)機(jī)器學(xué)習(xí)等AI技術(shù)驅(qū)動(dòng)的數(shù)據(jù)分析也有深入研究。為電信、電力、政府、互聯(lián)網(wǎng)、生產(chǎn)制造、零售、銀行、生物、化工、醫(yī)藥等多個(gè)行業(yè)上百家大型企業(yè)提供過(guò)數(shù)據(jù)挖掘應(yīng)用與咨詢服務(wù),實(shí)踐經(jīng)驗(yàn)非常豐富。華南師范大學(xué)、中南財(cái)經(jīng)政法大學(xué)、廣東工業(yè)大學(xué)、西安理工大學(xué)、廣西科技大學(xué)、重慶交通大學(xué)、桂林電子科技大學(xué)等校外碩導(dǎo)或兼職教授。撰寫(xiě)了《R語(yǔ)言數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》《數(shù)據(jù)挖掘:實(shí)用案例分析》《Hadoop大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》等10余部暢銷書(shū),累計(jì)銷售超過(guò)30萬(wàn)冊(cè)。
前言基礎(chǔ)篇第1章 數(shù)據(jù)挖掘基礎(chǔ) 21.1 某知名連鎖餐飲企業(yè)的困惑 21.2 從餐飲服務(wù)到數(shù)據(jù)挖掘 41.3 數(shù)據(jù)挖掘的基本任務(wù) 51.4 數(shù)據(jù)挖掘建模過(guò)程 51.4.1 定義挖掘目標(biāo) 61.4.2 數(shù)據(jù)取樣 61.4.3 數(shù)據(jù)探索 71.4.4 數(shù)據(jù)預(yù)處理 81.4.5 挖掘建模 81.4.6 模型評(píng)價(jià) 81.5 常用數(shù)據(jù)挖掘建模工具 91.6 小結(jié) 11第2章 Python數(shù)據(jù)分析簡(jiǎn)介 122.1 搭建Python開(kāi)發(fā)平臺(tái) 142.1.1 所要考慮的問(wèn)題 142.1.2 基礎(chǔ)平臺(tái)的搭建 142.2 Python使用入門 162.2.1 運(yùn)行方式 162.2.2 基本命令 172.2.3 數(shù)據(jù)結(jié)構(gòu) 192.2.4 庫(kù)的導(dǎo)入與添加 242.3 Python數(shù)據(jù)分析工具 262.3.1 NumPy 272.3.2 SciPy 282.3.3 Matplotlib 292.3.4 pandas 312.3.5 StatsModels 332.3.6 scikit-learn 332.3.7 Keras 342.3.8 Gensim 362.4 配套附件使用設(shè)置 372.5 小結(jié) 38第3章 數(shù)據(jù)探索 393.1 數(shù)據(jù)質(zhì)量分析 393.1.1 缺失值分析 403.1.2 異常值分析 403.1.3 一致性分析 443.2 數(shù)據(jù)特征分析 443.2.1 分布分析 443.2.2 對(duì)比分析 483.2.3 統(tǒng)計(jì)量分析 513.2.4 周期性分析 543.2.5 貢獻(xiàn)度分析 553.2.6 相關(guān)性分析 583.3 Python主要數(shù)據(jù)探索函數(shù) 623.3.1 基本統(tǒng)計(jì)特征函數(shù) 623.3.2 拓展統(tǒng)計(jì)特征函數(shù) 663.3.3 統(tǒng)計(jì)繪圖函數(shù) 673.4 小結(jié) 74第4章 數(shù)據(jù)預(yù)處理 754.1 數(shù)據(jù)清洗 754.1.1 缺失值處理 754.1.2 異常值處理 804.2 數(shù)據(jù)集成 804.2.1 實(shí)體識(shí)別 814.2.2 冗余屬性識(shí)別 814.2.3 數(shù)據(jù)變換 814.2.4 簡(jiǎn)單函數(shù)變換 814.2.5 規(guī)范化 824.2.6 連續(xù)屬性離散化 844.2.7 屬性構(gòu)造 874.2.8 小波變換 884.3 數(shù)據(jù)歸約 914.3.1 屬性歸約 914.3.2 數(shù)值歸約 954.4 Python主要數(shù)據(jù)預(yù)處理函數(shù) 984.5 小結(jié) 101第5章 挖掘建模 1025.1 分類與預(yù)測(cè) 1025.1.1 實(shí)現(xiàn)過(guò)程 1035.1.2 常用的分類與預(yù)測(cè)算法 1035.1.3 回歸分析 1045.1.4 決策樹(shù) 1085.1.5 人工神經(jīng)網(wǎng)絡(luò) 1155.1.6 分類與預(yù)測(cè)算法評(píng)價(jià) 1205.1.7 Python分類預(yù)測(cè)模型特點(diǎn) 1255.2 聚類分析 1255.2.1 常用聚類分析算法 1265.2.2 K-Means聚類算法 1275.2.3 聚類分析算法評(píng)價(jià) 1325.2.4 Python主要聚類分析算法 1335.3 關(guān)聯(lián)規(guī)則 1355.3.1 常用關(guān)聯(lián)規(guī)則算法 1365.3.2 Apriori算法 1365.4 時(shí)序模式 1425.4.1 時(shí)間序列算法 1425.4.2 時(shí)間序列的預(yù)處理 1435.4.3 平穩(wěn)時(shí)間序列分析 1455.4.4 非平穩(wěn)時(shí)間序列分析 1485.4.5 Python主要時(shí)序模式算法 1565.5 離群點(diǎn)檢測(cè) 1595.5.1 離群點(diǎn)的成因及類型 1605.5.2 離群點(diǎn)檢測(cè)方法 1605.5.3 基于模型的離群點(diǎn)檢測(cè)方法 1615.5.4 基于聚類的離群點(diǎn)檢測(cè)方法 1645.6 小結(jié) 167實(shí)戰(zhàn)篇第6章 財(cái)政收入影響因素分析及預(yù)測(cè) 1706.1 背景與挖掘目標(biāo) 1706.2 分析方法與過(guò)程 1716.2.1 分析步驟與流程 1726.2.2 數(shù)據(jù)探索分析 1726.2.3 數(shù)據(jù)預(yù)處理 1766.2.4 模型構(gòu)建 1786.3 上機(jī)實(shí)驗(yàn) 1846.4 拓展思考 1856.5 小結(jié) 186第7章 航空公司客戶價(jià)值分析 1877.1 背景與挖掘目標(biāo) 1877.2 分析方法與過(guò)程 1887.2.1 分析步驟與流程 1897.2.2 數(shù)據(jù)探索分析 1897.2.3 數(shù)據(jù)預(yù)處理 2007.2.4 模型構(gòu)建 2077.2.5 模型應(yīng)用 2127.3 上機(jī)實(shí)驗(yàn) 2147.4 拓展思考 2157.5 小結(jié) 216第8章 商品零售購(gòu)物籃分析 2178.1 背景與挖掘目標(biāo) 2178.2 分析方法與過(guò)程 2188.2.1 數(shù)據(jù)探索分析 2198.2.2 數(shù)據(jù)預(yù)處理 2248.2.3 模型構(gòu)建 2268.3 上機(jī)實(shí)驗(yàn) 2328.4 拓展思考 2338.5 小結(jié) 233第9章 基于水色圖像的水質(zhì)評(píng)價(jià) 2349.1 背景與挖掘目標(biāo) 2349.2 分析方法與過(guò)程 2359.2.1 分析步驟與流程 2369.2.2 數(shù)據(jù)預(yù)處理 2369.2.3 模型構(gòu)建 2409.2.4 水質(zhì)評(píng)價(jià) 2419.3 上機(jī)實(shí)驗(yàn) 2429.4 拓展思考 2429.5 小結(jié) 243第10章 家用熱水器用戶行為分析與事件識(shí)別 24410.1 背景與挖掘目標(biāo) 24410.2 分析方法與過(guò)程 24510.2.1 數(shù)據(jù)探索分析 24610.2.2 數(shù)據(jù)預(yù)處理 24910.2.3 模型構(gòu)建 26010.2.4 模型檢驗(yàn) 26110.3 上機(jī)實(shí)驗(yàn) 26210.4 拓展思考 26410.5 小結(jié) 265第11章 電子商務(wù)網(wǎng)站用戶行為分析及服務(wù)推薦 26611.1 背景與挖掘目標(biāo) 26611.2 分析方法與過(guò)程 26711.2.1 分析步驟與流程 26711.2.2 數(shù)據(jù)抽取 26911.2.3 數(shù)據(jù)探索分析 27011.2.4 數(shù)據(jù)預(yù)處理 27911.2.5 構(gòu)建智能推薦模型 28311.3 上機(jī)實(shí)驗(yàn) 29111.4 拓展思考 29311.5 小結(jié) 293第12章 電商產(chǎn)品評(píng)論數(shù)據(jù)情感分析 29412.1 背景與挖掘目標(biāo) 29412.2 分析方法與過(guò)程 29512.2.1 評(píng)論預(yù)處理 29612.2.2 評(píng)論分詞 29712.2.3 構(gòu)建模型 30312.3 上機(jī)實(shí)驗(yàn) 31512.4 拓展思考 31612.5 小結(jié) 318提高篇第13章 基于Python引擎的開(kāi)源數(shù)據(jù)挖掘建模平臺(tái)(TipDM) 32013.1 平臺(tái)簡(jiǎn)介 32113.1.1 模板 32113.1.2 數(shù)據(jù)源 32213.1.3 工程 32313.1.4 系統(tǒng)組件 32413.1.5 TipDM數(shù)據(jù)挖掘建模平臺(tái)的本地化部署 32613.2 快速構(gòu)建數(shù)據(jù)挖掘工程 32713.2.1 導(dǎo)入數(shù)據(jù) 32913.2.2 配置輸入源組件 33113.2.3 配置缺失值處理組件 33213.2.4 配置記錄選擇組件 33413.2.5 配置數(shù)據(jù)標(biāo)準(zhǔn)化組件 33413.2.6 配置K-Means組件 33613.3 小結(jié) 339