本書是一本應(yīng)用爬蟲技術(shù)進(jìn)行數(shù)據(jù)采集、整理和數(shù)據(jù)可視化的實戰(zhàn)讀物。本書以高效開源的python語言編寫,python擁有多重開源的網(wǎng)絡(luò)爬蟲工具、數(shù)據(jù)分析工具和數(shù)據(jù)可視化的工具,代碼簡潔,便于學(xué)習(xí)。本書集中于常用的python第三方工具,從工具的安裝、引入到方法和屬性做了詳細(xì)的介紹,同時對各種方法和屬性通過大量案例講解幫助讀者理解。每一章都有基礎(chǔ)應(yīng)用到綜合實戰(zhàn),每一個案例都經(jīng)過實戰(zhàn)檢驗。本書既強調(diào)基礎(chǔ),又力求體現(xiàn)新知識與新技術(shù),在編寫體例上采用簡約的文字表述,配合詳細(xì)操作步驟的圖片,圖文并茂,直觀明了。注重理論和實踐相結(jié)合,設(shè)置了知識圖譜、學(xué)習(xí)目標(biāo)、知識指南、任務(wù)實訓(xùn)、結(jié)果分析等模塊。為了讓讀者能夠及時地檢查自己的學(xué)習(xí)效果,把握自己的學(xué)習(xí)進(jìn)度,每節(jié)都附有豐富的鞏固訓(xùn)練,前五章還配有測試題,并通過配套的技能訓(xùn)練項目來加強學(xué)生技能的培養(yǎng)。
第1章Python爬蟲應(yīng)用基礎(chǔ) (主要介紹爬蟲中重點應(yīng)用知識)
1.1 Python的安裝與開發(fā)環(huán)境配置
1.1.1在Windows上安裝
1.1.2開發(fā)環(huán)境介紹
1.2 Python的基礎(chǔ)
1.2.1 Python的基本語法
1.2.2數(shù)據(jù)類型與常用函數(shù)
1.2.3邏輯控制
1.3 Python序列應(yīng)用(爬蟲常用)
1.4 Python中的函數(shù)與類(含生成器、模塊概念)
1.5 異常處理
第2章 python網(wǎng)頁下載技術(shù)
2.1 HTTP協(xié)議簡介
2.1.1 HTTP請求消息
2.1.2 HTTP響應(yīng)消息
2.2 爬蟲基礎(chǔ)簡介
2.2.1 爬蟲分類
2.2.2 爬蟲框架
2.3 robots協(xié)議
2.4 網(wǎng)頁下載器requests庫的應(yīng)用
2.4.1 安裝
2.4.2 requests庫的常用方法
2.4.3 requests爬蟲之定義請求頭
2.4.4 requests庫的響應(yīng)信息
第3章 頁面解析技術(shù)
3.1 html dom 基礎(chǔ)
3.2 css selector定位器
3.2.1 安裝應(yīng)用環(huán)境
3.2.2 css選擇器詳解
3.2.3 lxml etree解釋器
3.2.4 css選擇器綜合應(yīng)用實戰(zhàn)
3.3 BeautifulSoup4
3.3.1 安裝環(huán)境
3.3.2 bs4庫的應(yīng)用
3.3.3 BeautifulSoup類的基本元素與常用方法
3.3.4 bs4綜合應(yīng)用實戰(zhàn)
3.4 Xpath
3.4.1 Xpath基礎(chǔ)
3.4.2 Xpath語法
3.4.3 XPath Helper插件
3.4.4 XPath綜合應(yīng)用
3.4.5 加密文字處理
3.4.6 字符串中無用字符清洗方法
3.5 正則表達(dá)式
3.5.1 語法
3.5.2 re模塊中的常用函數(shù)
3.5.3 常用正則表達(dá)式
3.5.4 正則表達(dá)式解析網(wǎng)頁應(yīng)用實戰(zhàn)
第4章 爬蟲之文件存儲
4.1 Python文件系統(tǒng)
4.1.1基本的文件讀寫
4.1.2 python文件與目錄操作(os模塊)
4.2 CSV文件
4.2.1 CSV簡介
4.2.2 CSV的讀寫與格式轉(zhuǎn)換
4.3 json文件
4.3.1 json文件簡介
4.3.2 json文件的讀寫
4.5 MySQL數(shù)據(jù)庫
4.5.1 MySQL的配置
4.5.2元組與列表方式讀寫MySQL
4.5.3 字典方式讀寫MySQL
4.6 網(wǎng)頁數(shù)據(jù)清洗與存儲綜合應(yīng)用
第5章 Scrapy框架
5.1 Scray工作機制
5.2 Scrapy的安裝與入門
5.2.1 安裝環(huán)境
5.2.2 Scrapy框架部件功能介紹
5.3編寫Scrapy爬蟲
5.3.1 Scrapy框架模式編寫bs4中的綜合應(yīng)用程序
5.3.2 綜合應(yīng)用實戰(zhàn)
第6章 動態(tài)網(wǎng)頁爬取
6.1 JavaScript與AJAX技術(shù)
6.1.1 JavaScript語言
6.1.2 AJAX
6.2抓取AJAX數(shù)據(jù)
6.2.1分析數(shù)據(jù)
6.2.2提取數(shù)據(jù)
6.2.3 綜合實戰(zhàn)(爬取起點中文網(wǎng)信息寫入txt文件)
6.3 抓取動態(tài)內(nèi)容
6.3.1動態(tài)渲染頁面
6.3.2使用Selenium
6.3.3 綜合實戰(zhàn)
第7章 數(shù)據(jù)可視化
7.1 pandas 應(yīng)用
7.2 matplotlib應(yīng)用
7.3 pyecharts 應(yīng)用