本書從爬蟲項目開發(fā)環(huán)境搭建開始,詳細講解從數(shù)據(jù)采集到內(nèi)容可視化的全過程。本書從7個網(wǎng)站爬蟲項目出發(fā),根據(jù)項目需求選取不同的數(shù)據(jù)采集和處理技術,并有針對性地講解幾種Python網(wǎng)絡爬蟲。本書共8章,前3章是入門篇,第4、5、6章是進階篇,第7、8章是高級篇。涵蓋的內(nèi)容有Scrapy爬蟲、Requests爬蟲、Selenium模擬瀏覽器、XPath語言、CSS選擇器、CSV存儲、MySQL存儲、JSON讀取、Parsel解析、Flask框架、ECharts可視化等。本書參考企業(yè)項目開發(fā)的工作流程,圖文并茂地講解每個操作步驟,并提供運行結(jié)果讓讀者檢驗自己的代碼,中間也穿插介紹相關知識點和疑難問題。本書適用于高職高專院校大數(shù)據(jù)技術專業(yè)開展項目化教學和畢業(yè)設計指導,也可作為網(wǎng)絡爬蟲愛好者的啟蒙資料。
何福男,男,博士,先后擔任過基礎教研室主任、軟件教研室主任、計算機應用專業(yè)帶頭人,系教學副主任、軟件與服務外包學院副院長、教務處處長等工作。作為課程負責人、主講老師,完成了《C#程序設計》《網(wǎng)站設計與網(wǎng)頁制作》兩門院級精品課程的建設工作。,負責網(wǎng)絡會議開放接口設計和開發(fā),2016年于蘇州大學獲博士學位,主要研究機器學習和數(shù)據(jù)挖掘,目前在蘇州工業(yè)職業(yè)技術學院任教,擔任大數(shù)據(jù)技術與應用專業(yè)帶頭人;
第一篇 網(wǎng)絡爬蟲入門篇
第1章 開發(fā)環(huán)境準備 3
技能要求 3
學習導覽 3
1.1 安裝Chrome 4
1.2 安裝Anaconda 4
1.3 安裝第三方庫 10
1.4 安裝ChromeDriver 12
1.5 安裝PyCharm 14
1.6 安裝Java 21
1.7 安裝Tomcat 22
1.8 安裝MySQL 24
1.9 安裝Navicat 33
第2章 購物Scrapy項目實戰(zhàn) 37
技能要求 37
學習導覽 37
2.1 項目介紹 38
2.2 任務分解 39
2.3 項目實施 39
課后習題 57
能力拓展 組合圖可視化手機關注度 60
第3章 招聘Requests項目實戰(zhàn) 63
技能要求 63
學習導覽 63
3.1 項目介紹 64
3.2 任務分解 65
3.3 項目實施 65
課后習題 80
能力拓展 組合圖可視化招聘態(tài)勢 82
本篇小結(jié) 87
第二篇 網(wǎng)絡爬蟲進階篇
第4章 汽車Scrapy+MTC實戰(zhàn) 91
技能要求 91
學習導覽 91
4.1 項目介紹 92
4.2 任務分解 93
4.3 項目實施 93
課后習題 112
能力拓展 組合圖可視化城市二手車趨勢 114
第5章 旅游Requests+MTC實戰(zhàn) 117
技能要求 117
學習導覽 117
5.1 項目介紹 118
5.2 任務分解 119
5.3 項目實施 119
課后習題 137
能力拓展 組合圖可視化旅游目的地分析結(jié)果 138
第6章 房產(chǎn)Requests+Parsel+MTC項目實戰(zhàn) 142
技能要求 142
學習導覽 142
6.1 項目介紹 143
6.2 任務分解 143
6.3 項目實施 144
課后習題 164
能力拓展 組合圖可視化房源分析統(tǒng)計結(jié)果 167
本篇小結(jié) 171
第三篇 網(wǎng)絡爬蟲高級篇
第7章 購物Selenium爬蟲實戰(zhàn) 175
技能要求 175
學習導覽 175
7.1 項目介紹 176
7.2 任務分解 177
7.3 項目實施 177
課后習題 191
能力拓展 組合圖可視化城市彩妝銷售趨勢 194
第8章 社交Selenium項目實戰(zhàn) 198
技能要求 198
學習導覽 198
8.1 項目介紹 199
8.2 任務分解 200
8.3 項目實施 200
課后習題 216
能力拓展 組合圖可視化計算機視覺與模式識別論文分析 218
本篇小結(jié) 220