Python應(yīng)用實(shí)戰(zhàn):爬蟲(chóng)、文本分析與可視化
定 價(jià):42 元
- 作者:張麗
- 出版時(shí)間:2020/4/1
- ISBN:9787121380136
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP311.561
- 頁(yè)碼:164
- 紙張:膠版紙
- 版次:1
- 開(kāi)本:16K
歡迎來(lái)到Python的世界。本書介紹了Python的語(yǔ)法、數(shù)據(jù)結(jié)構(gòu)等基礎(chǔ)知識(shí),以及經(jīng)典的Python爬蟲(chóng)、網(wǎng)頁(yè)文本分析及可視化。在本書中,讀者不僅可以與Python“結(jié)識(shí)”,還會(huì)遇到新“朋友”———瀏覽器的開(kāi)發(fā)者工具,通過(guò)它來(lái)了解HTML編寫網(wǎng)頁(yè)的語(yǔ)言,并進(jìn)行結(jié)構(gòu)化的網(wǎng)頁(yè)分析和所需數(shù)據(jù)的提取。拿來(lái)主義特別適合來(lái)類比Python語(yǔ)言中的庫(kù),Python將與re、requests、lxml等經(jīng)典的庫(kù)組合在一起,自動(dòng)抓取網(wǎng)頁(yè)數(shù)據(jù)的爬蟲(chóng)。Pandas這個(gè)工具會(huì)對(duì)抓取的數(shù)據(jù)進(jìn)行文本分析,并實(shí)現(xiàn)將枯燥的數(shù)據(jù)進(jìn)行漂亮的可視化呈現(xiàn)。千里之行,始于足下,歡迎進(jìn)入本書的奇妙之旅。
張麗,女,電子科技大學(xué)大數(shù)據(jù)研究中心教師,主要從事數(shù)據(jù)分析、Python語(yǔ)言的應(yīng)用以及項(xiàng)目開(kāi)發(fā)等相關(guān)課程的教學(xué)和科研。
目 錄
第1章 初識(shí)Python 1
1.1 使用IDLE 1
1.2 從字符串著手 4
1.3 復(fù)雜數(shù)據(jù)的福音——列表 7
1.3.1 創(chuàng)建列表 7
1.3.2 列表的操作 7
1.4 處理數(shù)據(jù)——條件判斷 9
1.5 處理數(shù)據(jù)——循環(huán) 11
1.6 處理數(shù)據(jù)進(jìn)階——嵌套語(yǔ)句 12
1.7 函數(shù) 14
1.8 拿來(lái)就用——模塊 16
1.9 文件 17
1.10 處理異常 18
第2章 網(wǎng)頁(yè) 20
2.1 工具準(zhǔn)備 20
2.2 從URL開(kāi)始 21
2.2.1 簡(jiǎn)單獲取URL 22
2.2.2 鏈接與URL 24
2.3 編寫網(wǎng)頁(yè)的語(yǔ)言——HTML 25
2.3.1 創(chuàng)建自己的第一個(gè)網(wǎng)頁(yè) 26
2.3.2 標(biāo)簽——?jiǎng)?chuàng)建網(wǎng)頁(yè)的方塊 27
2.3.3 標(biāo)簽屬性 30
2.4 CSS與class 31
2.5 JavaScript和id 33
2.6 網(wǎng)頁(yè)分析工具 36
2.6.1 谷歌開(kāi)發(fā)者工具 36
2.6.2 查看網(wǎng)頁(yè)結(jié)構(gòu) 38
2.6.3 定位指定的元素 39
2.6.4 篩選不同的資源 41
2.7 網(wǎng)頁(yè)的快遞——HTTP 44
2.7.1 HTTP請(qǐng)求 45
2.7.2 HTTP響應(yīng) 46
2.7.3 HTTP的應(yīng)用——Cookie和Session 47
2.7.4 實(shí)戰(zhàn)——HTTP的交互過(guò)程 49
2.8 以URL結(jié)束 52
2.9 本章總結(jié) 55
第3章 數(shù)據(jù)抓取 56
3.1 工具準(zhǔn)備 56
3.2 Xpath和lxml.html 58
3.2.1 網(wǎng)頁(yè)分析利器——lxml 58
3.2.2 XPath 59
3.2.3 XPath使用實(shí)例 60
3.2.4 XPath演示 61
3.3 關(guān)于robots.txt 62
3.4 小試牛刀 64
3.4.1 過(guò)程分析 64
3.4.2 動(dòng)手敲代碼 67
3.4.3 小結(jié) 68
3.4.4 擴(kuò)展 68
3.5 獲取電影數(shù)據(jù)(上) 69
3.5.1 過(guò)程分析 70
3.5.2 動(dòng)手敲代碼 73
3.5.3 小結(jié) 74
3.6 獲取電影數(shù)據(jù)(下) 75
3.6.1 過(guò)程分析 76
3.6.2 動(dòng)手敲代碼 76
3.6.3 考慮加強(qiáng)代碼的健壯性 78
3.6.4 小結(jié) 80
3.7 另類的網(wǎng)頁(yè)抓取 80
3.7.1 過(guò)程分析 81
3.7.2 動(dòng)手敲代碼 84
3.7.3 小結(jié) 85
3.8 爬蟲(chóng)與網(wǎng)絡(luò)機(jī)器人 85
3.9 本章總結(jié) 86
第4章 文本處理 87
4.1 正則表達(dá)式 87
4.1.1 怎樣進(jìn)行匹配 87
4.1.2 常用的元字符 88
4.2 更強(qiáng)的文本工具——Python的 re庫(kù) 89
4.2.1 匹配對(duì)象怎么用 91
4.2.2 使用regex來(lái)搜索 91
4.2.3 使用regex來(lái)替換 93
4.2.4 更方便查找 95
4.2.5 re庫(kù)中的控制標(biāo)志 95
4.2.6 replace()和re.sub() 98
4.2.7 實(shí)現(xiàn)更高級(jí)的strip()方法 99
4.2.8 新的拆分方法re.split() 100
4.2.9 怎樣提取中文 101
4.3 電影數(shù)據(jù)的處理 102
4.3.1 提取之前的觀察 104
4.3.2 需要獲取哪些數(shù)據(jù) 104
4.3.3 多樣化的方法 111
4.3.4 格式化的數(shù)據(jù) 112
4.4 本章總結(jié) 115
第5章 數(shù)據(jù)分析 116
5.1 工具準(zhǔn)備 116
5.1.1 配置Jupyter Notebook 116
5.1.2 數(shù)據(jù)生成幫手——Numpy 116
5.1.3 Pandas中的數(shù)據(jù)結(jié)構(gòu) 118
5.2 像一維數(shù)組的Series 118
5.2.1 獲取Series信息 120
5.2.2 Series進(jìn)行數(shù)學(xué)運(yùn)算 123
5.2.3 對(duì)Series進(jìn)行一些操作 124
5.2.4 方法串聯(lián) 128
5.2.5 操作Series中的字符串?dāng)?shù)據(jù) 129
5.2.6 小結(jié)一下Series 130
5.3 DataFrame 131
5.3.1 創(chuàng)建DataFrame 132
5.3.2 對(duì)齊 133
5.3.3 了解DataFrame 134
5.3.4 常用DataFrame操作 137
5.3.5 數(shù)據(jù)的導(dǎo)入與導(dǎo)出 141
5.4 簡(jiǎn)單數(shù)據(jù)分析 145
5.4.1 電影評(píng)分分布 145
5.4.2 電影產(chǎn)量趨勢(shì) 146
5.4.3 評(píng)論人數(shù)最多的電影 147
5.4.4 發(fā)行電影最多的國(guó)家 148
5.5 看得見(jiàn)的數(shù)據(jù) 153
5.5.1 線圖 153
5.5.2 柱狀圖 155
5.5.3 餅圖 157