Python爬蟲(chóng)與反爬蟲(chóng)開(kāi)發(fā)從入門(mén)到精通
定 價(jià):99 元
- 作者:劉延林
- 出版時(shí)間:2021/8/1
- ISBN:9787301322697
- 出 版 社:北京大學(xué)出版社
- 中圖法分類(lèi):TP311.561
- 頁(yè)碼:388
- 紙張:
- 版次:1
- 開(kāi)本:16開(kāi)
隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,如何有效地提取并利用信息,以及如何有效地防止信息被爬取,已成為一個(gè)巨大的挑戰(zhàn)。本書(shū)從零開(kāi)始系統(tǒng)地介紹了Python網(wǎng)絡(luò)爬蟲(chóng)與反爬蟲(chóng)的開(kāi)發(fā)與實(shí)戰(zhàn)技能,全書(shū)共分為4篇,具體內(nèi)容安排如下。
第1篇:基礎(chǔ)篇(第1~3章)。系統(tǒng)地講解了Python爬蟲(chóng)與反爬蟲(chóng)開(kāi)發(fā)環(huán)境的搭建、爬蟲(chóng)與反爬蟲(chóng)通用基礎(chǔ)知識(shí)、Python編程基礎(chǔ)。
第2篇:爬蟲(chóng)篇(第4~8章)。這部分講解了網(wǎng)絡(luò)爬蟲(chóng)的相關(guān)知識(shí)與技能,主要包括網(wǎng)絡(luò)爬蟲(chóng)快速入門(mén)、XPath匹配網(wǎng)頁(yè)數(shù)據(jù)、re正則匹配數(shù)據(jù)、WebSocket數(shù)據(jù)抓取、Scrapy爬蟲(chóng)框架應(yīng)用與開(kāi)發(fā)等。
第3篇:反爬蟲(chóng)篇(第9~16章)。這部分講解了網(wǎng)絡(luò)反爬蟲(chóng)的相關(guān)知識(shí)與技能,主要包括爬蟲(chóng)與反爬蟲(chóng)的區(qū)別與認(rèn)識(shí)、反爬—Header信息校驗(yàn)、反爬—IP限制、反爬—?jiǎng)討B(tài)渲染頁(yè)面、反爬—文本混淆、反爬—特征識(shí)別、反爬—驗(yàn)證碼識(shí)別、反爬—APP數(shù)據(jù)抓取等。
第4篇:實(shí)戰(zhàn)篇(第17章)。本篇主要列舉了4個(gè)案例,綜合講解Python爬蟲(chóng)與反爬蟲(chóng)項(xiàng)目的實(shí)戰(zhàn)應(yīng)用。
本書(shū)從零基礎(chǔ)開(kāi)始講解,系統(tǒng)全面,案例豐富,注重實(shí)戰(zhàn),既適合Python程序員和爬蟲(chóng)愛(ài)好者閱讀學(xué)習(xí),也可以作為廣大職業(yè)院校相關(guān)專(zhuān)業(yè)的教材或參考用書(shū)。
劉延林,云鏡團(tuán)隊(duì)創(chuàng)始人,擁有多年網(wǎng)絡(luò)爬蟲(chóng)開(kāi)發(fā)經(jīng)驗(yàn),著有《Python網(wǎng)絡(luò)爬蟲(chóng)開(kāi)發(fā)從入門(mén)到精通》,擅長(zhǎng)Python網(wǎng)絡(luò)爬蟲(chóng)、Web、數(shù)據(jù)挖掘與分析、網(wǎng)絡(luò)安全、產(chǎn)品研發(fā)等領(lǐng)域。
第1篇 基礎(chǔ)篇
第1章 爬蟲(chóng)與反爬蟲(chóng)開(kāi)發(fā)環(huán)境搭建 /2
1.1 Python 3環(huán)境搭建 /3
1.2 PyCharm的安裝與基本使用 /7
1.3 Tesseract-OCR /16
1.4 mitmproxy /18
1.5 JDK 1.8 /22
本章小結(jié) /24
第2章 爬蟲(chóng)與反爬蟲(chóng)通用基礎(chǔ)知識(shí) /25
2.1 網(wǎng)頁(yè)基礎(chǔ) /26
2.2 網(wǎng)絡(luò)傳輸協(xié)議 /28
2.3 Session和Cookies /31
2.4 Nginx服務(wù)器 /34
2.5 代理IP /36
2.6 HTTP接口概念 /40
2.7 新手問(wèn)答 /40
本章小結(jié) /41
第3章 Python編程基礎(chǔ) /42
3.1 Python的基礎(chǔ)語(yǔ)法 /43
3.2 基本數(shù)據(jù)類(lèi)型 /49
3.3 流程控制 /55
3.4 函數(shù) /60
3.5 文件操作 /61
3.6 面向?qū)ο蟆?64
3.7 多線程 /68
3.8 新手實(shí)訓(xùn) /70
3.9 新手問(wèn)答 /71
本章小結(jié) /72
第2篇 爬蟲(chóng)篇
第4章 網(wǎng)絡(luò)爬蟲(chóng)快速入門(mén) /74
4.1 爬蟲(chóng)的基本結(jié)構(gòu)及工作流程 /75
4.2 urllib網(wǎng)絡(luò)請(qǐng)求庫(kù) /75
4.3 requests網(wǎng)絡(luò)請(qǐng)求庫(kù) /82
4.4 urllib3網(wǎng)絡(luò)請(qǐng)求庫(kù) /86
4.5 Postman接口測(cè)試工具 /90
4.6 新手實(shí)訓(xùn) /95
4.7 新手問(wèn)答 /95
本章小結(jié) /96
第5章 XPath匹配網(wǎng)頁(yè)數(shù)據(jù) /97
5.1 安裝XPath /98
5.2 XPath的基礎(chǔ)語(yǔ)法 /98
5.3 在Python中使用XPath匹配數(shù)據(jù) /99
5.4 XPath表達(dá)式技巧 /103
5.5 擴(kuò)展補(bǔ)充知識(shí)點(diǎn) /105
5.6 新手實(shí)訓(xùn) /107
5.7 新手問(wèn)答 /109
本章小結(jié) /109
第6章 re正則匹配數(shù)據(jù) /110
6.1 re.compile函數(shù) /111
6.2 re.match函數(shù) /111
6.3 re.search函數(shù) /113
6.4 re.match與re.search的區(qū)別 /114
6.5 檢索和替換 /114
6.6 findall函數(shù) /115
6.7 常見(jiàn)正則表達(dá)式寫(xiě)法 /116
6.8 新手實(shí)訓(xùn) /117
6.9 新手問(wèn)答 /119
本章小結(jié) /120
第7章 WebSocket數(shù)據(jù)抓取 /121
7.1 WebSocket通信原理 /122
7.2 使用aioWebSocket獲取數(shù)據(jù) /122
7.3 新手實(shí)訓(xùn) /129
7.4 新手問(wèn)答 /131
本章小結(jié) /131
第8章 Scrapy爬蟲(chóng)框架應(yīng)用與開(kāi)發(fā) /132
8.1 Scrapy框架的基本架構(gòu) /133
8.2 安裝Scrapy /134
8.3 創(chuàng)建項(xiàng)目 /135
8.4 定義Item /135
8.5 編寫(xiě)第一個(gè)Spider /136
8.6 運(yùn)行爬蟲(chóng) /137
8.7 提取Item /137
8.8 在Shell中嘗試Selector選擇器 /138
8.9 提取數(shù)據(jù) /139
8.10 使用Item /140
8.11 Item Pipeline /141
8.12 將Item寫(xiě)入JSON文件 /142
8.13 新手實(shí)訓(xùn) /143
8.14 新手問(wèn)答 /146
本章小結(jié) /146
第3篇 反爬蟲(chóng)篇
第9章 爬蟲(chóng)與反爬蟲(chóng) /148
9.1 爬蟲(chóng)知識(shí)的回顧與總結(jié) /149
9.2 反爬蟲(chóng)的概念與定義 /154
本章小結(jié) /155
第10章 反爬—Header信息校驗(yàn) /156
10.1 User-Agent /157
10.2 Cookie校驗(yàn) /162
10.3 Referer校驗(yàn) /165
10.4 簽名校驗(yàn) /166
10.5 新手實(shí)訓(xùn) /170
10.6 新手問(wèn)答 /176
本章小結(jié) /176
第11章 反爬—IP限制 /177
11.1 代理設(shè)置 /178
11.2 代理池構(gòu)建 /179
11.3 搭建自己的代理服務(wù)器 /183
11.4 使用Nginx實(shí)現(xiàn)封禁IP /194
11.5 新手問(wèn)答 /195
本章小結(jié) /196
第12章 反爬—?jiǎng)討B(tài)渲染頁(yè)面 /197
12.1 動(dòng)態(tài)渲染案例介紹 /198
12.2 常見(jiàn)應(yīng)對(duì)動(dòng)態(tài)渲染頁(yè)面的解決辦法 /201
12.3 使用Selenium爬取動(dòng)態(tài)渲染頁(yè)面 /201
12.4 獲取瀏覽器Network請(qǐng)求和響應(yīng) /218
12.5 新手實(shí)訓(xùn) /222
12.6 新手問(wèn)答 /224
本章小結(jié) /225
第13章 反爬—文本混淆 /226
13.1 圖片偽裝反爬 /227
13.2 CSS偏移反爬 /231
13.3 編碼映射反爬 /238
13.4 字體反爬 /242
13.5 新手實(shí)訓(xùn) /248
13.6 新手問(wèn)答 /252
本章小結(jié) /252
第14章 反爬—特征識(shí)別 /253
14.1 瀏覽器指紋 /254
14.2 WebDriver驅(qū)動(dòng)識(shí)別 /255
14.3 使用mitmproxy /262
14.4 網(wǎng)頁(yè)精靈 /269
14.5 新手實(shí)訓(xùn) /275
14.6 新手問(wèn)答 /277
本章小結(jié) /277
第15章 反爬—驗(yàn)證碼識(shí)別 /278
15.1 普通圖形驗(yàn)證碼 /279
15.2 滑動(dòng)驗(yàn)證碼 /281
15.3 滑動(dòng)拼圖驗(yàn)證碼 /285
15.4 新手實(shí)訓(xùn) /292
15.5 新手問(wèn)答 /294
本章小結(jié) /295
第16章 反爬—APP數(shù)據(jù)抓取 /296
16.1 APP的抓包分析 /297
16.2 Appium自動(dòng)化 /310
16.3 APK安裝包反編譯 /324
16.4 APK反編譯知識(shí)補(bǔ)充 /327
16.5 新手實(shí)訓(xùn) /327
16.6 新手問(wèn)答 /332
本章小結(jié) /332
第4篇 實(shí)戰(zhàn)篇
第17章 項(xiàng)目實(shí)戰(zhàn) /334
17.1 土地市場(chǎng)網(wǎng)——地塊公示 /335
17.2 紐約工商數(shù)據(jù)采集 /348
17.3 攜程旅行火車(chē)票票價(jià)數(shù)據(jù)采集 /356
17.4 智聯(lián)招聘數(shù)據(jù)采集 /361
附錄A 爬蟲(chóng)法律法規(guī) /368
附錄B 實(shí)驗(yàn)環(huán)境的搭建方法及說(shuō)明 /371
附錄C Python常見(jiàn)面試題精選 /375