日韩欧美国产视频,狼友AV永久网站免费观看

本書以任務(wù)為導向，較為全面地介紹了不同場景下Python爬取網(wǎng)絡(luò)數(shù)據(jù)的方法。全書共分為7個項目，第1個項目介紹了爬蟲與反爬蟲的基本概念，以及Python爬蟲環(huán)境的配置，第2個項目介紹了爬取過程中涉及的網(wǎng)頁前端基礎(chǔ)知識，第3個項目介紹了在靜態(tài)網(wǎng)頁中爬取數(shù)據(jù)的過程，第4個項目介紹了在動態(tài)網(wǎng)頁中爬取數(shù)據(jù)的過程，第5個項目介紹了對登錄后才能訪問的網(wǎng)頁進行模擬登錄的方法，第6個項目介紹了爬取PC客戶端、App的數(shù)據(jù)的方法，第7個項目介紹了使用Scrapy爬蟲框架爬取數(shù)據(jù)的過程。本書所有章節(jié)都包含了實訓與課后習題，通過練習和操作實戰(zhàn)，可幫助讀者鞏固所學的內(nèi)容。本書可以作為大數(shù)據(jù)技術(shù)愛好者的自學用書，也可作為高校大數(shù)據(jù)技術(shù)類專業(yè)的教材。

目錄項目1　了解爬蟲與Python爬蟲環(huán)境　1 【項目背景】　1 【學習目標】　1 【思維導圖】　2 任務(wù)1.1　認識爬蟲　2 1.1.1　爬蟲的概念　3 1.1.2　爬蟲的原理　3 1.1.3　爬蟲的合法性與robots協(xié)議　5 任務(wù)1.2　認識反爬蟲　7 1.2.1　網(wǎng)站反爬蟲的目的與手段　8 1.2.2　爬取策略制定　9 任務(wù)1.3　配置Python爬蟲環(huán)境　10 1.3.1　配置PyCharm　11 1.3.2　Python爬蟲相關(guān)庫介紹與配置　20 1.3.3　配置MySQL數(shù)據(jù)庫　21 1.3.4　配置MongoDB數(shù)據(jù)庫　34 小結(jié)　40 實訓　Python爬蟲環(huán)境配置　41 思考題　42 課后習題　42 項目2　爬蟲基礎(chǔ)知識準備　44 【項目背景】　44 【學習目標】　44 【思維導圖】　45 任務(wù)2.1　認識網(wǎng)頁基礎(chǔ)　46 2.1.1　了解網(wǎng)頁開發(fā)技術(shù)　47 2.1.2　了解網(wǎng)頁的結(jié)構(gòu)　49 2.1.3　了解網(wǎng)頁的分類　56 2.1.4　了解網(wǎng)頁的數(shù)據(jù)結(jié)構(gòu)　59 任務(wù)2.2　認識HTTP　61 2.2.1　熟悉HTTP請求方法與過程　62 2.2.2　熟悉常見HTTP狀態(tài)碼　64 2.2.3　熟悉HTTP頭部信息　65 2.2.4　熟悉Cookie　71 小結(jié)　73 實訓　74 實訓1　創(chuàng)建一個簡單的網(wǎng)頁文件　74 實訓2　訪問網(wǎng)站并查看請求和響應(yīng)信息　74 思考題　75 課后習題　75 項目3　簡單靜態(tài)網(wǎng)頁爬取—獲取某企業(yè)官網(wǎng)基本信息　77 【項目背景】　77 【學習目標】　77 【思維導圖】　78 任務(wù)3.1　實現(xiàn)HTTP請求　79 3.1.1　使用Chrome開發(fā)者工具查看網(wǎng)頁　80 3.1.2　使用urllib 3庫實現(xiàn)　86 3.1.3　使用Requests庫實現(xiàn)　90 任務(wù)3.2　解析網(wǎng)頁　95 3.2.1　使用Xpath解析網(wǎng)頁　95 3.2.2　使用Beautiful Soup庫解析網(wǎng)頁　101 3.2.3　使用正則表達式解析網(wǎng)頁　109 任務(wù)3.3　數(shù)據(jù)存儲　113 3.3.1　將數(shù)據(jù)存儲為JSON文件　113 3.3.2　將數(shù)據(jù)存儲到MySQL數(shù)據(jù)庫　115 小結(jié)　117 實訓　118 實訓1　生成GET請求并獲取指定網(wǎng)頁內(nèi)容　118 實訓2　搜索目標節(jié)點并提取文本內(nèi)容　119 實訓3　在數(shù)據(jù)庫中建立新表并導入數(shù)據(jù)　119 思考題　120 課后習題　120 項目4　爬取動態(tài)網(wǎng)頁——獲取圖書基本信息　123 【項目背景】　123 【學習目標】　123 【思維導圖】　124 任務(wù)4.1　逆向分析爬取動態(tài)網(wǎng)頁　124 4.1.1　判別網(wǎng)頁類型　125 4.1.2　獲取動態(tài)網(wǎng)頁信息　126 任務(wù)4.2　使用Selenium庫爬取動態(tài)網(wǎng)頁　129 4.2.1　安裝Selenium庫及下載瀏覽器驅(qū)動　130 4.2.2　打開瀏覽對象并訪問頁面　131 4.2.3　元素選取　132 4.2.4　元素交互　136 4.2.5　頁面操作　138 4.2.6　頁面等待　140 任務(wù)4.3　存儲數(shù)據(jù)至MongoDB數(shù)據(jù)庫　143 4.3.1　MongoDB數(shù)據(jù)庫和MySQL數(shù)據(jù)庫的區(qū)別　143 4.3.2　將數(shù)據(jù)存儲到MongoDB數(shù)據(jù)庫　144 小結(jié)　148 實訓　149 實訓1　生成GET請求并獲取指定網(wǎng)頁內(nèi)容　149 實訓2　搜索目標節(jié)點并提取文本內(nèi)容　149 思考題　150 課后習題　150 項目5　模擬登錄—登錄某企業(yè)官網(wǎng)　153 【項目背景】　153 【學習目標】　153 【思維導圖】　154 任務(wù)5.1　使用表單登錄方法實現(xiàn)模擬登錄　155 5.1.1　查找提交入口　155 5.1.2　查找并獲取需要提交的表單數(shù)據(jù)　158 5.1.3　使用POST請求方法登錄　162 任務(wù)5.2　使用Cookie登錄方法實現(xiàn)模擬登錄　165 5.2.1　使用瀏覽器Cookie登錄　165 5.2.2　基于表單登錄的Cookie登錄　168 小結(jié)　170 實訓　171 實訓1　使用表單登錄方法模擬登錄古詩文網(wǎng)　171 實訓2　使用瀏覽器Cookie模擬登錄古詩文網(wǎng)　171 實訓3　基于表單登錄后的Cookie模擬登錄古詩文網(wǎng)　172 思考題　173 課后習題　173 項目6　終端協(xié)議分析——獲取某音樂PC客戶端和APP數(shù)據(jù)　175 【項目背景】　175 【學習目標】　176 【思維導圖】　176 任務(wù)6.1　分析PC客戶端抓包　177 6.1.1　了解HTTP Analyzer工具　177 6.1.2　爬取酷我音樂PC客戶端數(shù)據(jù)　180 任務(wù)6.2　分析App抓包　182 6.2.1　了解Fiddler工具　182 6.2.2　分析酷我音樂App　186 小結(jié)　189 實訓　189 實訓1　抓取酷我音樂PC客戶端的推薦歌曲信息　189 實訓2　監(jiān)控樸樸超市商品實時價格　191 思考題　192 課后習題　193 項目7　使用Scrapy爬蟲——爬取某企業(yè)官網(wǎng)新聞動態(tài)　194 【項目背景】　194 【學習目標】　194 【思維導圖】　195 任務(wù)7.1　認識Scrapy　196 7.1.1　了解Scrapy爬蟲框架　196 7.1.2　熟悉Scrapy常用命令　198 任務(wù)7.2　通過Scrapy爬取文本信息　199 7.2.1　創(chuàng)建Scrapy爬蟲項目　200 7.2.2　修改items/pipelines腳本　201 7.2.3　編寫spider腳本　204 7.2.4　修改settings腳本　209 任務(wù)7.3　定制中間件　212 7.3.1　定制下載器中間件　212 7.3.2　定制Spider中間件　216 小結(jié)　217 實訓　218 實訓1　爬取“http://www.tipdm.org”的所有新聞動態(tài)　218 實訓2　定制BdRaceNews爬蟲項目的中間件　219 實訓3　爬取貓眼電影“https://maoyan.com/board/4”的影片信息　220 實訓4　配置Maoyan100爬蟲項目的設(shè)置文件　220 思考題　221 課后習題　222

你還可能感興趣

我要評論