這是一本適合教學(xué)和零基礎(chǔ)自學(xué)的Python與數(shù)據(jù)挖掘的教程,即便你完全沒有Python編程基礎(chǔ)和數(shù)據(jù)挖掘基礎(chǔ),根據(jù)本書中的理論知識和上機實踐,你也能迅速掌握如何使用Python進行數(shù)據(jù)挖掘。本書已經(jīng)被多所高校預(yù)定為教材,為了便于教學(xué),書中還提供了大量的上機實驗和教學(xué)資源。
本書主要分為兩篇:
基礎(chǔ)篇(1~6章):第1章旨在讓讀者從全局把握數(shù)據(jù)挖掘、建模工具以及Python開發(fā)環(huán)境的搭建;第2章正式開始講解Python的基礎(chǔ)知識,包括操作符、變量類型、流程控制、數(shù)據(jù)結(jié)構(gòu)等內(nèi)容;第3、4章主要對Python面向?qū)ο蟮奶匦赃M行介紹,包括函數(shù)、類與對象等基本概念;第5章介紹主流的數(shù)據(jù)分析與挖掘的模塊,以及其中具體的方法及對應(yīng)的功能;第6章繼續(xù)拓展了模塊的相關(guān)內(nèi)容,介紹圖表繪制的專用模塊(Matplotlib和Bokeh),深入淺出地展示如何方便地繪制點、線、圖等。
建模應(yīng)用篇(7~11章):主要對數(shù)據(jù)挖掘中的常用算法進行介紹,強調(diào)在Python中對應(yīng)函數(shù)的使用方法及其結(jié)果的解釋說明。內(nèi)容涵蓋五大主流的數(shù)據(jù)挖掘算法,包括分類與預(yù)測、聚類分析建模、關(guān)聯(lián)規(guī)則分析、智能推薦和時間序列分析。按照從模型建立到模型評價的架構(gòu)進行介紹,使讀者熟練掌握從建模到對模型評價的完整建模過程。
Preface前 言為
什么要寫本書?Python是什么?Python是一種帶有動態(tài)語義的、解釋性的、面向?qū)ο蟮母呒壘幊陶Z言。其高級內(nèi)置數(shù)據(jù)結(jié)構(gòu),結(jié)合動態(tài)類型和動態(tài)綁定,使其對于敏捷軟件開發(fā)非常具有吸引力。同時,Python作為腳本型(膠水)語言連接現(xiàn)有的組件也十分高效。Python語法簡潔,可讀性強,從而能降低程序的維護成本。不僅如此,Python支持模塊和包,鼓勵程序模塊化和代碼重用。
Python語言的解釋性使其語法更接近人類的表達和思維過程,開發(fā)程序的效率極高。習(xí)慣使用Python者,總習(xí)慣在介紹Python時強調(diào)一句話:“人生苦短,我用Python!庇捎跊]有編譯步驟,“寫代碼—測試—調(diào)試”的流程能被快速地反復(fù)執(zhí)行。
作為一款用途廣泛的語言,Python在數(shù)據(jù)分析與機器學(xué)習(xí)領(lǐng)域的表現(xiàn),稱得上“一任群芳妒”。2016年3月,國外知名技術(shù)問答社區(qū)StackOverflow發(fā)布了《2016年開發(fā)者調(diào)查報告》。此調(diào)查號稱是有史以來最為全面的開發(fā)者調(diào)查。其中,數(shù)據(jù)科學(xué)家的十大技術(shù)棧中,有7個包含Python。具體來說,數(shù)據(jù)科學(xué)家中有63%正在使用Python,44%正在使用R語言。而且,27%的人同時使用這兩種語言。Python還在“最多人使用的技術(shù)”“最受歡迎技術(shù)”“需求度最高技術(shù)”等榜單中名列前十。
Python的明顯優(yōu)勢:
Python作為一款優(yōu)雅、簡潔的開源編程語言,吸引了世界各地頂尖的編程愛好者的注意力。每天都有數(shù)量眾多的開源項目更新自己的功能,作為第三方模塊為其他開發(fā)者提供更加高效、便利的支持。
Python提供了豐富的API和工具,以便程序員能夠輕松地使用C、C++、Cython來編寫擴充模塊,從而集成多種語言的代碼,協(xié)同工作。一些算法在底層用C實現(xiàn)后,封裝在Python模塊中,性能非常高效。
Python受到世界各地開發(fā)者的一致喜愛,在世界范圍內(nèi)被廣泛使用。這意味著讀者可以通過查看代碼范例,快速學(xué)習(xí)和掌握相關(guān)內(nèi)容。
Python語言簡單易學(xué),語法清晰。Python開發(fā)者的哲學(xué)是“用一種方法,最好是只有一種方法來做一件事”。通常,相較其他語言,Python的源代碼被認為具有更好的可讀性。
2004年,Python 已在Google 內(nèi)部使用,他們的宗旨是:Python where we can,C++ where we must,即在操控硬件的場合使用C++,在快速開發(fā)時使用Python。
總的來說,Python是一款用于數(shù)據(jù)統(tǒng)計、分析、可視化等任務(wù),以及機器學(xué)習(xí)、人工智能等領(lǐng)域的高效開發(fā)語言。它能滿足幾乎所有數(shù)據(jù)挖掘下所需的數(shù)據(jù)處理、統(tǒng)計模型和圖表繪制等功能需求。大量的第三方模塊所支持的內(nèi)容涵蓋了從統(tǒng)計計算到機器學(xué)習(xí),從金融分析到生物信息,從社會網(wǎng)絡(luò)分析到自然語言處理,從各種數(shù)據(jù)庫各種語言接口到高性能計算模型等領(lǐng)域。隨著大數(shù)據(jù)時代的來臨,數(shù)據(jù)挖掘?qū)⒏訌V泛地滲透到各行各業(yè)中去,而Python作為數(shù)據(jù)挖掘里的熱門工具,將會有更多不同行業(yè)的人加入到Python愛好者的行列中來。完全面向?qū)ο蟮腜ython的教學(xué)工作也將成為高校中數(shù)學(xué)與統(tǒng)計學(xué)專業(yè)的重點發(fā)展對象,這是大數(shù)據(jù)時代下的必然趨勢。
本書特色筆者從實際應(yīng)用出發(fā),結(jié)合實際例子及應(yīng)用場景,深入淺出地介紹Python開發(fā)環(huán)境的搭建、Python基礎(chǔ)入門、函數(shù)、面向?qū)ο缶幊、實用模塊和圖表繪制及常用的建模算法在Python中的實現(xiàn)方式。本書的編排以Python語言的函數(shù)應(yīng)用為主,先介紹了函數(shù)的應(yīng)用場景及使用格式,再給出函數(shù)的實際使用示例,最后對函數(shù)的運行結(jié)果做出了解釋,將掌握函數(shù)應(yīng)用的所需知識點按照實際使用的流程展示出來。
為方便讀者理解Python語言中相關(guān)函數(shù)的使用,本書配套提供了書中使用的示例的代碼及所用的數(shù)據(jù),讀者可以從“泰迪杯”全國數(shù)據(jù)挖掘挑戰(zhàn)賽網(wǎng)站(http://www.tipdm.org/ts/755.jhtml)上免費下載。讀者也可通過熱線電話(40068-40020)、企業(yè)QQ(40068-40020)或以下微信公眾號咨詢獲取。
TipDM張良均〈大數(shù)據(jù)挖掘產(chǎn)品與服務(wù)〉本書適用對象開設(shè)有數(shù)據(jù)挖掘課程的高校教師和學(xué)生。
目前國內(nèi)不少高校將數(shù)據(jù)挖掘引入本科教學(xué)中,在數(shù)學(xué)、計算機、自動化、電子信息、金融等專業(yè)開設(shè)了數(shù)據(jù)挖掘技術(shù)相關(guān)的課程,但目前這一課程的教學(xué)使用的工具仍然為SPSS、SAS等傳統(tǒng)統(tǒng)計工具,并沒有使用Python作為教學(xué)工具。本書提供了有關(guān)Python語言的從安裝到使用的一系列知識,將能有效指導(dǎo)高校教師和學(xué)生使用Python。
數(shù)據(jù)挖掘開發(fā)人員。
這類人員可以在理解數(shù)據(jù)挖掘應(yīng)用需求和設(shè)計方案的基礎(chǔ)上,結(jié)合本書提供的Python的使用方法快速入門并完成數(shù)據(jù)挖掘應(yīng)用的編程實現(xiàn)。
進行數(shù)據(jù)挖掘應(yīng)用研究的科研人員。
許多科研院所為了更好地對科研工作進行管理,紛紛開發(fā)了適應(yīng)自身特點的科研業(yè)務(wù)管理系統(tǒng),并在使用過程中積累了大量的科研信息數(shù)據(jù)。Python可以提供一個優(yōu)異的環(huán)境對這些數(shù)據(jù)進行挖掘分析應(yīng)用。
關(guān)注高級數(shù)據(jù)分析的人員。
Python作為一個廣泛用于數(shù)據(jù)挖掘領(lǐng)域的編程語言,能為數(shù)據(jù)分析人員提供快速的、可靠的分析依據(jù)。
張良均
資深大數(shù)據(jù)挖掘?qū)<,高級信息項目管理師,有?0年的大數(shù)據(jù)挖掘應(yīng)用、咨詢和培訓(xùn)經(jīng)驗,被稱為“中國大數(shù)據(jù)挖掘培訓(xùn)教父”。為電信、電力、政府、互聯(lián)網(wǎng)、生產(chǎn)制造、零售、銀行、生物、化工、醫(yī)藥等多個行業(yè)上百家大型企業(yè)提供過數(shù)據(jù)挖掘應(yīng)用與咨詢服務(wù),實踐經(jīng)驗豐富。
現(xiàn)任廣東工業(yè)大學(xué)、華南師范大學(xué)、華南農(nóng)業(yè)大學(xué)、貴州師范學(xué)院、韓山師范學(xué)院、廣東技術(shù)師范學(xué)院、廣西科技大學(xué)的兼職教授。著有《神經(jīng)網(wǎng)絡(luò)實用教程》《數(shù)據(jù)挖掘:實用案例分析》《MATLAB數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》《R語言數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》《Hadoop大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》《R語言與數(shù)據(jù)挖掘》等暢銷圖書。