關(guān)于我們
書單推薦
新書推薦
|
Python網(wǎng)絡(luò)數(shù)據(jù)爬取及分析從入門到精通(分析篇) Python網(wǎng)絡(luò)數(shù)據(jù)爬取及分析從入門到精通(分析篇) 本書采用通俗易懂的語(yǔ)言、豐富多彩的實(shí)例,詳細(xì)介紹了使用Python語(yǔ)言進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)分析的知識(shí),主要內(nèi)容包括Python數(shù)據(jù)分析常用庫(kù)、可視化分析、回歸分析、聚類分析、分類分析、關(guān)聯(lián)規(guī)則挖掘分析、數(shù)據(jù)預(yù)處理及文本聚類、詞云熱點(diǎn)與主題分布分析、復(fù)雜網(wǎng)絡(luò)與基于數(shù)據(jù)庫(kù)技術(shù)的分析等。 書中所有知識(shí)點(diǎn)都結(jié)合了具體的實(shí)例進(jìn)行介紹,涉及的實(shí)例都給出了詳細(xì)分析流程,程序代碼都給出了具體的注釋,采用圖文結(jié)合的形式講解,讓讀者能更加輕松地領(lǐng)會(huì)Python網(wǎng)絡(luò)數(shù)據(jù)分析的精髓,快速提高自己的開發(fā)能力。 本書既可作為Python開發(fā)入門者的自學(xué)用書,也可作為高等院校數(shù)據(jù)分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、大數(shù)據(jù)等相關(guān)專業(yè)的教學(xué)參考書或?qū)嶒?yàn)指導(dǎo)書,還可供Python數(shù)據(jù)分析人員查閱、參考。 Python網(wǎng)絡(luò)數(shù)據(jù)爬取及分析從入門到精通(分析篇) 這是一套以實(shí)例為主、使用Python語(yǔ)言講解網(wǎng)絡(luò)數(shù)據(jù)爬蟲及分析的實(shí)戰(zhàn)指南。本套書通俗易懂,涵蓋了Python基礎(chǔ)知識(shí)、數(shù)據(jù)爬取、數(shù)據(jù)分析、數(shù)據(jù)預(yù)處理、數(shù)據(jù)可視化、數(shù)據(jù)存儲(chǔ)、算法評(píng)估等多方面知識(shí),每一部分知識(shí)都從安裝過程、導(dǎo)入擴(kuò)展包到算法原理、基礎(chǔ)語(yǔ)法,再結(jié)合實(shí)例進(jìn)行詳細(xì)講解。 本套書包括兩本:《Python網(wǎng)絡(luò)數(shù)據(jù)爬取及分析從入門到精通(爬取篇)》和《Python網(wǎng)絡(luò)數(shù)據(jù)爬取及分析從入門到精通(分析篇)》。 看完此書,真正讓你做到從入門到精通。 隨著數(shù)據(jù)分析和人工智能風(fēng)暴的來(lái)臨,Python也變得越來(lái)越火熱。它就像一把利劍,使我們能隨心所欲地做著各種分析與研究。在研究機(jī)器學(xué)習(xí)、深度學(xué)習(xí)與人工智能之前,我們有必要靜下心來(lái)學(xué)習(xí)一下Python基礎(chǔ)知識(shí)、基于Python的網(wǎng)絡(luò)數(shù)據(jù)爬取及分析,這些知識(shí)點(diǎn)都將為我們后續(xù)的開發(fā)和研究打下扎實(shí)的基礎(chǔ)。同時(shí),由于世面上缺少以實(shí)例為驅(qū)動(dòng),全面詳細(xì)介紹Python網(wǎng)絡(luò)爬蟲及數(shù)據(jù)分析的書,本套書很好地填補(bǔ)了這一空白,它通過Python語(yǔ)言來(lái)教讀者編寫網(wǎng)絡(luò)爬蟲并教大家針對(duì)不同的數(shù)據(jù)集做算法分析。本套書既可以作為Python數(shù)據(jù)爬取及分析的入門教材,也可以作為實(shí)戰(zhàn)指南,包括多個(gè)經(jīng)典案例。下面作者將簡(jiǎn)單介紹本套書。 它究竟是一套什么樣的書呢? 對(duì)您學(xué)習(xí)網(wǎng)絡(luò)數(shù)據(jù)抓取及分析是否有幫助呢? 本套書是以實(shí)例為主、使用Python語(yǔ)言講解網(wǎng)絡(luò)數(shù)據(jù)爬蟲及分析的書和實(shí)戰(zhàn)指南。本套書結(jié)合圖表、代碼、示例,采用通俗易懂的語(yǔ)言介紹了Python基礎(chǔ)知識(shí)、數(shù)據(jù)爬取、數(shù)據(jù)分析、數(shù)據(jù)預(yù)處理、數(shù)據(jù)可視化、數(shù)據(jù)存儲(chǔ)、算法評(píng)估等多方面知識(shí),每一部分知識(shí)都從安裝過程、導(dǎo)入擴(kuò)展包到算法原理、基礎(chǔ)語(yǔ)法,再結(jié)合實(shí)例詳細(xì)講解。本套書適合計(jì)算機(jī)科學(xué)、軟件工程、信息技術(shù)、統(tǒng)計(jì)數(shù)學(xué)、數(shù)據(jù)科學(xué)、數(shù)據(jù)挖掘、大數(shù)據(jù)等專業(yè)的學(xué)生學(xué)習(xí),也適合對(duì)網(wǎng)絡(luò)數(shù)據(jù)爬取、數(shù)據(jù)分析、文本挖掘、統(tǒng)計(jì)分析等領(lǐng)域感興趣的讀者閱讀,同時(shí)也作為數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)爬取、機(jī)器學(xué)習(xí)、大數(shù)據(jù)等技術(shù)相關(guān)課程的教材或?qū)嶒?yàn)指南。 本套書分為兩篇本:數(shù)據(jù)爬取篇和數(shù)據(jù)分析篇。其中,爬取篇詳細(xì)講解了正則表達(dá)式、BeautifulSoup、Selenium、Scrapy、數(shù)據(jù)庫(kù)存儲(chǔ)相關(guān)的爬蟲知識(shí),并通過實(shí)例讓讀者真正學(xué)會(huì)如何分析網(wǎng)站、爬取自己所需的數(shù)據(jù);分析篇詳細(xì)講解了Python數(shù)據(jù)分析常用庫(kù)、可視化分析、回歸分析、聚類分析、分類分析、關(guān)聯(lián)規(guī)則挖掘、文本預(yù)處理、詞云分析及主題模型、復(fù)雜網(wǎng)絡(luò)和基于數(shù)據(jù)庫(kù)的分析!皵(shù)據(jù)爬取篇”突出爬取,“數(shù)據(jù)分析篇”側(cè)重分析,為了更好地掌握相關(guān)知識(shí),建議讀者將兩本書結(jié)合起來(lái)學(xué)習(xí)。 為什么本套書會(huì)選擇Python作為數(shù)據(jù)爬取和數(shù)據(jù)分析的編程語(yǔ)言呢? 隨著大數(shù)據(jù)、數(shù)據(jù)分析、深度學(xué)習(xí)、人工智能的迅速發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)爬取和網(wǎng)絡(luò)數(shù)據(jù)分析也變得越來(lái)越熱門。由于Python具有語(yǔ)法清晰、代碼友好、易讀易學(xué)等特點(diǎn),同時(shí)擁有強(qiáng)大的第三方庫(kù)支持,包括網(wǎng)絡(luò)爬取、信息傳輸、數(shù)據(jù)分析、繪圖可視化、機(jī)器學(xué)習(xí)等庫(kù)函數(shù),所以本套書選擇Python作為數(shù)據(jù)爬取和數(shù)據(jù)分析的編程語(yǔ)言。 首先,Python既是一種解釋性編程語(yǔ)言,又是一種面向?qū)ο蟮恼Z(yǔ)言,其操作性和可移植性較高,因而被廣泛應(yīng)用于數(shù)據(jù)挖掘、文本抓取、人工智能等領(lǐng)域。就作者看來(lái),Python最大的優(yōu)勢(shì)在于效率。有時(shí)程序員或科研工作者的工作效率比機(jī)器的效率更為重要,對(duì)于很多復(fù)雜的功能,使用較清晰的語(yǔ)言能給程序員減輕更多的負(fù)擔(dān),從而大大提高代碼質(zhì)量,提高工作效率。雖然Python底層運(yùn)行速度要比C語(yǔ)言慢,但Python清晰的結(jié)構(gòu)能節(jié)省程序員的時(shí)間,簡(jiǎn)單易學(xué)的特點(diǎn)也降低了編程愛好者的門檻,所以說“人生苦短,我學(xué)Python”。 其次,Python可以應(yīng)用在網(wǎng)絡(luò)爬蟲、數(shù)據(jù)分析、人工智能、機(jī)器學(xué)習(xí)、Web開發(fā)、金融預(yù)測(cè)、自動(dòng)化測(cè)試等多個(gè)領(lǐng)域,并且都有非常優(yōu)秀的表現(xiàn),從來(lái)沒有一種編程語(yǔ)言可以像Python這樣同時(shí)扎根在這么多領(lǐng)域。另外,Python還支持跨平臺(tái)操作,支持開源,擁有豐富的第三方庫(kù)。尤其隨著人工智能的持續(xù)火熱,Python在IEEE 發(fā)布的2017年最熱門語(yǔ)言中排名第一,同時(shí)許多程序愛好者、科技工作者也都開始認(rèn)識(shí)Python,使用Python。 接下來(lái)作者將Python和其他常用編程語(yǔ)言,突出其優(yōu)勢(shì)。相比于C#,Python是跨平臺(tái)的、支持開源的,是一種解釋型語(yǔ)言進(jìn)行簡(jiǎn)單對(duì)比,可以運(yùn)行在Windows、Linux等平臺(tái)上;而C#則相反,其平臺(tái)受限,不支持開源,并且需要編譯。相比于Java,Python更簡(jiǎn)潔,學(xué)習(xí)難度也相對(duì)低很多,而Java則過于龐大復(fù)雜。相比于C和C++,Python的語(yǔ)法簡(jiǎn)單易懂,代碼清晰,是一種腳本語(yǔ)言,使用起來(lái)更為靈活;而C和C++通常要和底層硬件打交道,語(yǔ)法也比較晦澀難懂。 目前,Python 3.x版本已經(jīng)發(fā)布并正在普及,本套書卻選擇了Python2.7版本,并貫穿整套書的所有代碼,這又是為什么呢? 在Python發(fā)布的版本中,Python 2.7是比較經(jīng)典的一個(gè)版本,其兼容性較高,各方面的資料和文章也比較完善。該版本適用于多種信息抓取庫(kù),如Selenium、BeautifulSoup等,也適用于各種數(shù)據(jù)分析庫(kù),如Sklearn、Matplotlib等,所以本套書選擇Python 2.7版本;同時(shí)結(jié)合官方的Python解釋器和Anaconda集成軟件進(jìn)行詳細(xì)介紹,也希望讀者喜歡。Python 3.x版本已經(jīng)發(fā)布,具有一些更便捷的地方,但大部分功能和語(yǔ)法都與Python 2.7是一致的,作者推薦大家結(jié)合Python 3.x進(jìn)行學(xué)習(xí),并可以嘗試將本套書中的代碼修改為Python 3.x版本,加深印象。 同時(shí),作者針對(duì)不同類型的讀者給出一些關(guān)于如何閱讀和使用本套書的建議。 如果您是一名沒有任何編程基礎(chǔ)或數(shù)據(jù)分析經(jīng)驗(yàn)的讀者,建議您在閱讀本套書時(shí),先了解對(duì)應(yīng)章節(jié)的相關(guān)基礎(chǔ)知識(shí),并手動(dòng)敲寫每章節(jié)對(duì)應(yīng)的代碼進(jìn)行學(xué)習(xí);雖然本套書是循序漸進(jìn)深入講解的,但是為了您更好地學(xué)習(xí)數(shù)據(jù)抓取和數(shù)據(jù)分析知識(shí),獨(dú)立編寫代碼是非常必要的。 如果您是一名具有良好的計(jì)算機(jī)基礎(chǔ)、Python開發(fā)經(jīng)驗(yàn)或數(shù)據(jù)挖掘、數(shù)據(jù)分析背景的讀者,則建議您獨(dú)立完成本套書中相應(yīng)章節(jié)的實(shí)例,同時(shí)抓取自己感興趣的數(shù)據(jù)集并深入分析,從而提升您的編程和數(shù)據(jù)分析能力。 如果您是一名數(shù)據(jù)挖掘或自然語(yǔ)言處理相關(guān)行業(yè)的研究者,建議您從本套書找到自己感興趣的章節(jié)進(jìn)行學(xué)習(xí),同時(shí)也可以將本套書作為數(shù)據(jù)爬取或數(shù)據(jù)分析的小字典,希望給您帶來(lái)一些應(yīng)用價(jià)值。 如果您是一名老師,則推薦您使用本套書作為網(wǎng)絡(luò)數(shù)據(jù)抓取或網(wǎng)絡(luò)數(shù)據(jù)分析相關(guān)課程的教材,您可以按照本套書中的內(nèi)容進(jìn)行授課,也可以將本套書中相關(guān)章節(jié)布置為學(xué)生的課后習(xí)題。個(gè)人建議老師在講解完基礎(chǔ)知識(shí)之后,把相應(yīng)章節(jié)的任務(wù)和數(shù)據(jù)集描述布置給學(xué)生,讓他們實(shí)現(xiàn)對(duì)應(yīng)的爬取或分析實(shí)驗(yàn)。但切記,一定要讓學(xué)生自己獨(dú)立實(shí)現(xiàn)書中的代碼,以擴(kuò)展他們的分析思維,從而培育更多數(shù)據(jù)抓取和數(shù)據(jù)分析領(lǐng)域的人才。 如果您只是一名對(duì)數(shù)據(jù)爬取或數(shù)據(jù)分析感興趣的讀者,則建議您簡(jiǎn)單了解本書的結(jié)構(gòu)、每章節(jié)的內(nèi)容,掌握數(shù)據(jù)抓取和數(shù)據(jù)分析的基本流程,作為您普及Web數(shù)據(jù)挖掘和大數(shù)據(jù)分析的參考書。 無(wú)論如何,作者都希望本套書能給您普及一些網(wǎng)絡(luò)數(shù)據(jù)抓取相關(guān)的知識(shí),更希望您能爬取自己所需的語(yǔ)料,結(jié)合本套書中的案例分析自己研究的內(nèi)容,給您的研究課題或論文提供一些微不足道的思路。如果本套書讓您學(xué)會(huì)了Python抓取網(wǎng)絡(luò)數(shù)據(jù)的方法,作者就更加欣慰了。 最后,完成本套書肯定少不了很多人的幫助和支持,在此送上我最誠(chéng)摯的謝意。 本套書確實(shí)花費(fèi)了作者很多心思,包括多年來(lái)從事Web數(shù)據(jù)挖掘、自然語(yǔ)言處理、網(wǎng)絡(luò)爬蟲等領(lǐng)域的研究,匯集了作者5年來(lái)博客知識(shí)的總結(jié)。本套書在編寫期間得到了許多Python數(shù)據(jù)爬取和數(shù)據(jù)分析愛好者,作者的老師、同學(xué)、同事、學(xué)生,以及互聯(lián)網(wǎng)一些“大!钡膸椭,包括張老師(北京理工大學(xué))、籍文(大疆創(chuàng)新科技公司)、徐溥(SAP公司)、俊林(阿里巴巴公司)、容神、峰子(華為公司)、田一(南京理工大學(xué))、王金(重慶郵電大學(xué))、羅煒(北京郵電大學(xué))、胡子(中央民族大學(xué))、任行(中國(guó)傳媒大學(xué))、青哥(老師)、蘭姐(電子科技大學(xué))、小何幸(貴州財(cái)經(jīng)大學(xué))、小民(老師)、任瑤(老師)等,在此表示最誠(chéng)摯的謝意。同時(shí)感謝北京理工大學(xué)和貴州財(cái)經(jīng)大學(xué)對(duì)作者多年的教育與培養(yǎng),感謝CSDN 網(wǎng)站、博客園網(wǎng)站、阿里云棲社區(qū)等多年來(lái)對(duì)作者博客和專欄的支持。 由于本套書是結(jié)合作者關(guān)于Python實(shí)際抓取網(wǎng)絡(luò)數(shù)據(jù)和分析數(shù)據(jù)的研究,以及多年撰寫博客經(jīng)歷而編寫的,所以書中難免會(huì)有不足或講得不夠透徹的地方,敬請(qǐng)廣大讀者諒解。 最后,以作者離開北京選擇回貴州財(cái)經(jīng)大學(xué)信息學(xué)院任教的一首詩(shī)結(jié)尾吧! 貴州縱美路迢迢,未付勞心此一遭。 收得破書三四本,也堪將去教爾曹。 但行好事,莫問前程。 待隨滿天桃李,再追學(xué)友趣事。 作 者 2018年2月24日 楊秀璋,畢業(yè)于北京理工大學(xué)軟件學(xué)院,長(zhǎng)期從事Web數(shù)據(jù)挖掘、Python數(shù)據(jù)分析、網(wǎng)絡(luò)數(shù)據(jù)爬取工作及研究。他現(xiàn)任教于貴州財(cái)經(jīng)大學(xué)信息學(xué)院,主講“數(shù)據(jù)挖掘與分析”“大數(shù)據(jù)技術(shù)及應(yīng)用”課程,并從事大數(shù)據(jù)分析、數(shù)據(jù)挖掘、知識(shí)圖譜等領(lǐng)域的項(xiàng)目研究與開發(fā);有多年的Python編程、數(shù)據(jù)分析及知識(shí)圖譜研究經(jīng)驗(yàn),實(shí)戰(zhàn)經(jīng)驗(yàn)較為豐富。 此外,他還積極分享編程知識(shí)和開源代碼編寫經(jīng)驗(yàn),先后在CSDN、博客園、阿里云棲社區(qū)撰寫博客,僅在CSDN就分享了300多篇原創(chuàng)文章,開設(shè)了11個(gè)專欄,累計(jì)閱讀量超過250萬(wàn)人次。 第1章 網(wǎng)絡(luò)數(shù)據(jù)分析概述…………………………………………………………… 1 1.1 數(shù)據(jù)分析 ……………………………………………………………………… 1 1.2 相關(guān)技術(shù) ……………………………………………………………………… 3 1.3 Anaconda開發(fā)環(huán)境…………………………………………………………… 5 1.4 常用數(shù)據(jù)集 …………………………………………………………………… 9 1.4.1 Sklearn數(shù)據(jù)集…………………………………………………………… 9 1.4.2 UCI數(shù)據(jù)集 …………………………………………………………… 10 1.4.3 自定義爬蟲數(shù)據(jù)集……………………………………………………… 11 1.4.4 其他數(shù)據(jù)集……………………………………………………………… 12 1.5 本章小結(jié)……………………………………………………………………… 13 參考文獻(xiàn) …………………………………………………………………………… 14 第2章 Python數(shù)據(jù)分析常用庫(kù) …………………………………………………… 15 2.1 常用庫(kù)………………………………………………………………………… 15 2.2 NumPy ……………………………………………………………………… 17 2.2.1 Array用法 ……………………………………………………………… 17 2.2.2 二維數(shù)組操作…………………………………………………………… 19 2.3 Pandas ……………………………………………………………………… 21 2.3.1 讀/寫文件 ……………………………………………………………… 22 2.3.2 Series…………………………………………………………………… 24 2.3.3 DataFrame……………………………………………………………… 26 2.4 Matplotlib …………………………………………………………………… 26 2.4.1 基礎(chǔ)用法………………………………………………………………… 27 2.4.2 繪圖簡(jiǎn)單示例…………………………………………………………… 28 2.5 Sklearn ……………………………………………………………………… 31 2.6 本章小結(jié)……………………………………………………………………… 32 參考文獻(xiàn) …………………………………………………………………………… 32 第3章 Python可視化分析 ………………………………………………………… 33 3.1 Matplotlib可視化分析 ……………………………………………………… 33 3.1.1 繪制曲線圖……………………………………………………………… 33 3.1.2 繪制散點(diǎn)圖……………………………………………………………… 37 3.1.3 繪制柱狀圖……………………………………………………………… 40 3.1.4 繪制餅狀圖……………………………………………………………… 42 3.1.5 繪制3D圖形 …………………………………………………………… 43 3.2 Pandas讀取文件可視化分析 ……………………………………………… 45 3.2.1 繪制折線對(duì)比圖………………………………………………………… 45 3.2.2 繪制柱狀圖和直方圖…………………………………………………… 48 3.2.3 繪制箱圖………………………………………………………………… 51 3.3 ECharts可視化技術(shù)初識(shí) …………………………………………………… 53 3.4 本章小結(jié)……………………………………………………………………… 57 參考文獻(xiàn) …………………………………………………………………………… 57 第4章 Python回歸分析 …………………………………………………………… 58 4.1 回 歸………………………………………………………………………… 58 4.1.1 什么是回歸……………………………………………………………… 58 4.1.2 線性回歸………………………………………………………………… 59 4.2 線性回歸分析………………………………………………………………… 60 4.2.1 LinearRegression ……………………………………………………… 61 4.2.2 線性回歸預(yù)測(cè)糖尿病…………………………………………………… 63 4.3 多項(xiàng)式回歸分析……………………………………………………………… 68 4.3.1 基礎(chǔ)概念………………………………………………………………… 68 4.3.2 PolynomialFeatures …………………………………………………… 69 4.3.3 多項(xiàng)式回歸預(yù)測(cè)成本和利潤(rùn)…………………………………………… 70 4.4 邏輯回歸分析………………………………………………………………… 73 4.4.1 LogisticRegression …………………………………………………… 75 4.4.2 鳶尾花數(shù)據(jù)集回歸分析實(shí)例…………………………………………… 75 4.5 本章小結(jié)……………………………………………………………………… 83 參考文獻(xiàn) …………………………………………………………………………… 83 第5章 Python聚類分析 …………………………………………………………… 85 5.1 聚 類………………………………………………………………………… 85 5.1.1 算法模型………………………………………………………………… 85 5.1.2 常見聚類算法…………………………………………………………… 86 5.1.3 性能評(píng)估………………………………………………………………… 88 5.2 K-Means …………………………………………………………………… 90 5.2.1 算法描述………………………………………………………………… 90 5.2.2 用K-Means分析籃球數(shù)據(jù) …………………………………………… 96 5.2.3 K-Means聚類優(yōu)化 …………………………………………………… 99 5.2.4 設(shè)置類簇中心 ………………………………………………………… 103 5.3 BIRCH ……………………………………………………………………… 105 5.3.1 算法描述 ……………………………………………………………… 105 5.3.2 用BIRCH 分析氧化物數(shù)據(jù) ………………………………………… 106 5.4 降維處理 …………………………………………………………………… 110 5.4.1 PCA降維 ……………………………………………………………… 111 5.4.2 Sklearn PCA降維 …………………………………………………… 111 5.4.3 PCA降維實(shí)例 ………………………………………………………… 113 5.5 本章小結(jié) …………………………………………………………………… 117 參考文獻(xiàn)…………………………………………………………………………… 118 第6章 Python分類分析 ………………………………………………………… 119 6.1 分 類 ……………………………………………………………………… 119 6.1.1 分類模型 ……………………………………………………………… 119 6.1.2 常見分類算法 ………………………………………………………… 120 6.1.3 回歸、聚類和分類的區(qū)別……………………………………………… 122 6.1.4 性能評(píng)估 ……………………………………………………………… 123 6.2 決策樹 ……………………………………………………………………… 123 6.2.1 算法實(shí)例描述 ………………………………………………………… 123 6.2.2 DTC算法 ……………………………………………………………… 125 6.2.3 用決策樹分析鳶尾花 ………………………………………………… 126 6.2.4 數(shù)據(jù)集劃分及分類評(píng)估 ……………………………………………… 128 6.2.5 區(qū)域劃分對(duì)比 ………………………………………………………… 132 6.3 KNN分類算法 …………………………………………………………… 136 6.3.1 算法實(shí)例描述 ………………………………………………………… 136 6.3.2 KNeighborsClassifier………………………………………………… 138 6.3.3 用KNN分類算法分析紅酒類型 …………………………………… 139 6.4 SVM 分類算法……………………………………………………………… 147 6.4.1 SVM 分類算法的基礎(chǔ)知識(shí)…………………………………………… 147 6.4.2 用SVM 分類算法分析紅酒數(shù)據(jù) …………………………………… 148 6.4.3 用優(yōu)化SVM 分類算法分析紅酒數(shù)據(jù)集 …………………………… 151 6.5 本章小結(jié) …………………………………………………………………… 154 參考文獻(xiàn)…………………………………………………………………………… 154 第7章 Python關(guān)聯(lián)規(guī)則挖掘分析 ……………………………………………… 156 7.1 基本概念 …………………………………………………………………… 156 7.1.1 關(guān)聯(lián)規(guī)則 ……………………………………………………………… 156 7.1.2 置信度與支持度 ……………………………………………………… 157 7.1.3 頻繁項(xiàng)集 ……………………………………………………………… 158 7.2 Apriori算法………………………………………………………………… 159 7.3 Apriori算法的實(shí)現(xiàn)………………………………………………………… 163 7.4 本章小結(jié) …………………………………………………………………… 167 參考文獻(xiàn)…………………………………………………………………………… 167 第8章 Python數(shù)據(jù)預(yù)處理及文本聚類 ………………………………………… 168 8.1 數(shù)據(jù)預(yù)處理概述 …………………………………………………………… 168 8.2 中文分詞 …………………………………………………………………… 170 8.2.1 中文分詞技術(shù) ………………………………………………………… 170 8.2.2 Jieba中文分詞工具…………………………………………………… 171 8.3 數(shù)據(jù)清洗 …………………………………………………………………… 175 8.3.1 概 述 ………………………………………………………………… 175 8.3.2 中文語(yǔ)料清洗 ………………………………………………………… 176 8.4 特征提取及向量空間模型 ………………………………………………… 179 8.4.1 特征規(guī)約 ……………………………………………………………… 179 8.4.2 向量空間模型 ………………………………………………………… 181 8.4.3 余弦相似度計(jì)算 ……………………………………………………… 182 8.5 權(quán)重計(jì)算 …………………………………………………………………… 184 8.5.1 常用權(quán)重計(jì)算方法 …………………………………………………… 184 8.5.2 TF-IDF ……………………………………………………………… 185 8.5.3 用Sklearn計(jì)算TF-IDF …………………………………………… 186 8.6 文本聚類 …………………………………………………………………… 188 8.7 本章小結(jié) …………………………………………………………………… 192 參考文獻(xiàn)…………………………………………………………………………… 192 第9章 Python詞云熱點(diǎn)與主題分布分析 ……………………………………… 193 9.1 詞 云 ……………………………………………………………………… 193 9.2 WordCloud的安裝及基本用法 …………………………………………… 194 9.2.1 WordCloud的安裝 …………………………………………………… 194 9.2.2 WordCloud的基本用法 ……………………………………………… 195 9.3 LDA ………………………………………………………………………… 203 9.3.1 LDA的安裝過程……………………………………………………… 203 9.3.2 LDA的基本用法及實(shí)例……………………………………………… 204 9.4 本章小結(jié) …………………………………………………………………… 214 參考文獻(xiàn)…………………………………………………………………………… 214 第10章 復(fù)雜網(wǎng)絡(luò)與基于數(shù)據(jù)庫(kù)技術(shù)的分析 …………………………………… 215 10.1 復(fù)雜網(wǎng)絡(luò)…………………………………………………………………… 215 10.1.1 復(fù)雜網(wǎng)絡(luò)和知識(shí)圖譜………………………………………………… 215 10.1.2 NetworkX …………………………………………………………… 217 10.1.3 用復(fù)雜網(wǎng)絡(luò)分析學(xué)生關(guān)系網(wǎng)………………………………………… 219 10.2 基于數(shù)據(jù)庫(kù)技術(shù)的數(shù)據(jù)分析……………………………………………… 224 10.2.1 數(shù)據(jù)準(zhǔn)備……………………………………………………………… 224 10.2.2 基于數(shù)據(jù)庫(kù)技術(shù)的可視化分析……………………………………… 225 10.2.3 基于數(shù)據(jù)庫(kù)技術(shù)的可視化對(duì)比……………………………………… 232 10.3 基于數(shù)據(jù)庫(kù)技術(shù)的博客行為分析………………………………………… 234 10.3.1 冪率分布……………………………………………………………… 234 10.3.2 用冪率分布分析博客數(shù)據(jù)集………………………………………… 235 10.4 本章小結(jié)…………………………………………………………………… 245 參考文獻(xiàn)…………………………………………………………………………… 245 本套后記……………………………………………………………………………… 246 致 謝………………………………………………………………………………… 248
你還可能感興趣
我要評(píng)論
|