網(wǎng)絡爬蟲技術的重點之一是網(wǎng)絡爬蟲框架,因此《Python網(wǎng)絡爬蟲技術與應用》結合網(wǎng)絡爬蟲框架的相關案例重點介紹網(wǎng)絡爬蟲的常見框架,包括PySpider網(wǎng)絡爬蟲框架的安裝和使用,Scrapy網(wǎng)絡爬蟲框架的安裝和使用,以及Scrapy網(wǎng)絡爬蟲管理與部署。另外,《Python網(wǎng)絡爬蟲技術與應用》對Python網(wǎng)絡爬蟲開發(fā)需要的reguests庫、Scrapy解析庫、存儲庫、XPath進行了介紹,并介紹了requests庫、正則表達式、XPath等的使用方法,還重點講解了這些庫的實際應用。 《Python網(wǎng)絡爬蟲技術與應用》以Python網(wǎng)絡爬蟲開發(fā)為主線,兼顧理論與實戰(zhàn),全面介紹可操作的Python環(huán)境與系統(tǒng)開發(fā)相關知識,以及大數(shù)據(jù)算法、大數(shù)據(jù)分析、大數(shù)據(jù)系統(tǒng)互補的作用。另外,《Python網(wǎng)絡爬蟲技術與應用》還贈送課程大綱、教學課件PPT、實驗手冊、各章習題及答案、期末試卷及答案、教學和實驗視頻,方便教師授課。 《Python網(wǎng)絡爬蟲技術與應用》可作為高等院校大數(shù)據(jù)、計算機、電子信息、軟件技術相關專業(yè)研究生和高年級本科生的教材,也可作為大數(shù)據(jù)及編程愛好者的參考用書。
讀者對象
《Python網(wǎng)絡爬蟲技術與應用》可作為高等院校大數(shù)據(jù)、計算機、電子信息、軟件技術相關專業(yè)研究生和高年級本科生的教材,也可作為大數(shù)據(jù)及編程愛好者的參考用書。
本書特色
★★以Python網(wǎng)絡爬蟲開發(fā)為主線,兼顧理論與實戰(zhàn)。
★★贈送課程大綱、教學課件PPT、實驗手冊、各章習題及答案、期末試卷及答案、教學和實驗視頻,方便教師授課。
網(wǎng)絡爬蟲,也被稱為網(wǎng)絡機器人,能夠幫助并取代在互聯(lián)網(wǎng)上自動收集和組織數(shù)據(jù)的人。在大數(shù)據(jù)時代,信息收集是一項重要的任務,例如在搜索引擎中抓取和收集網(wǎng)站,在數(shù)據(jù)分析和挖掘中收集數(shù)據(jù),在財務分析中收集財務數(shù)據(jù)。如果僅僅依靠人力資源來收集信息,不僅效率低下、操作煩瑣,還會增加信息收集的成本。此時,可以使用網(wǎng)絡爬蟲來自動收集數(shù)據(jù)和信息。此外,Web爬蟲還可以應用于輿情監(jiān)測與分析、目標客戶數(shù)據(jù)收集等領域。
使用Python是爬蟲的最佳方式,因為它對初學者更友好,且原理簡單,通過幾行代碼就可以實現(xiàn)基本的爬蟲,其學習過程更流暢,能讓學習者感受到更大的成就感。
在掌握基本的爬蟲程序之后,學生將更加熟悉Python數(shù)據(jù)分析、Web開發(fā),甚至機器學習。在此過程中,學生將熟悉基本的Python語法、庫的使用以及如何查找文檔。
《Python網(wǎng)絡爬蟲技術與應用》內容
《Python網(wǎng)絡爬蟲技術與應用》全面系統(tǒng)地講解Python網(wǎng)絡爬蟲的體系應用,由淺入深地介紹網(wǎng)絡爬蟲方面的技術知識,對基于Python網(wǎng)絡爬蟲領域的技術做全面的介紹。原理部分,主要突出網(wǎng)絡爬蟲的理論基礎,原生態(tài)網(wǎng)絡爬蟲中正則表達式與requests庫的使用,HTML內容解析模擬瀏覽器模擬登錄模擬驗證的應用,Python與數(shù)據(jù)庫的連接與使用,網(wǎng)絡爬蟲框架的介紹與實際應用等。系統(tǒng)開發(fā)環(huán)境配置與搭建部分,通過實例系統(tǒng)講解Python環(huán)境的安裝、部署、環(huán)境搭建、配置、應用程序部署等一系列過程,幫助學生搭建Python開發(fā)環(huán)境。
網(wǎng)絡爬蟲技術的重點之一是網(wǎng)絡爬蟲框架,因此《Python網(wǎng)絡爬蟲技術與應用》首先重點介紹網(wǎng)絡爬蟲的常見框架,再結合網(wǎng)絡爬蟲框架的相關案例介紹PySpider網(wǎng)絡爬蟲框架的安裝和使用,Scrapy網(wǎng)絡爬蟲框架的安裝和使用,以及Scrapy網(wǎng)絡爬蟲管理與部署。另外,因為Python網(wǎng)絡爬蟲開發(fā)需要reguests庫、Scrapy解析庫、存儲庫、XPath的配合,《Python網(wǎng)絡爬蟲技術與應用》還介紹了requests庫、正則表達式、XPath等的使用方法,重點講解這些庫的實際應用。
《Python網(wǎng)絡爬蟲技術與應用》共分為7章,鄧維負責全書的統(tǒng)稿工作,第1~4章由李貝編寫,第5章到第6章由湯小洋編寫,第7章由康毅斌、林海玉、劉燕秋、林建雄、劉慶勝、鐘曉穎統(tǒng)一編寫。
在Python網(wǎng)絡爬蟲的體系應用中,Scrapy與PySpide是非常重要的Python網(wǎng)絡爬蟲框架,讀者通過學習,可以掌握Scrapy和PySpider的安裝、配置和使用,以及實現(xiàn)基本的案例。
《Python網(wǎng)絡爬蟲技術與應用》以Python網(wǎng)絡爬蟲開發(fā)為主線,兼顧理論與實戰(zhàn),全面介紹可操作的Python環(huán)境與系統(tǒng)開發(fā)相關知識,以及大數(shù)據(jù)算法、大數(shù)據(jù)分析、大數(shù)據(jù)系統(tǒng)互補的作用,可以互相參考。
《Python網(wǎng)絡爬蟲技術與應用》使用對象
計算機編程愛好者。
適合掌握Python、網(wǎng)絡爬蟲等技術的讀者,按照書中的流程,一步步從環(huán)境的準備到基本庫、常見框架的開發(fā)和部署,直到案例開發(fā)的完成。
開設有Python相關課程的高校教師和學生。
如今,國內很多高校計算機、自動化、電子信息、大數(shù)據(jù)等專業(yè)均開設了大數(shù)據(jù)相關課程,但是絕大部分均以理論介紹為主,單純的理論教學過于抽象,學生理解起來比較困難,教學效果不理想!禤ython網(wǎng)絡爬蟲技術與應用》所介紹的內容以實踐為主、理論為輔,注重學生操作跟實際接軌,使學生對所學知識更感興趣、更容易接受。
《Python網(wǎng)絡爬蟲技術與應用》贈送資源
《Python網(wǎng)絡爬蟲技術與應用》贈送課程大綱、教學課件PPT、實驗手冊、各章習題及答案、期末試卷及答案、教學和實驗視頻,讀者可分別掃描下方二維碼獲取。
課程大綱 教學課件PPT 實驗手冊
習題及答案 期末試卷及答案 教學和實驗視頻(上) 教學和實驗視頻(下)
第1章 網(wǎng)絡爬蟲概述
1.1 網(wǎng)絡爬蟲簡介
1.1.1 網(wǎng)絡爬蟲的概念與類別
1.1.2 網(wǎng)絡爬蟲的流程
1.1.3 網(wǎng)絡爬蟲的抓取
1.2 網(wǎng)絡爬蟲的攻防戰(zhàn)
1.3 反網(wǎng)絡爬蟲技術及解決方案
1.4 本章習題
第2章 Python基本知識介紹
2.1 Python編程
2.1.1 Python的安裝與環(huán)境配置
2.1.2 PyCharm的安裝與使用
2.2 HTML基本原理
2.2.1 HTML簡介
2.2.2 HTML的基本原理
2.3 基本庫的使用
2.3.1 urllib庫
2.3.2 requests庫
2.3.3 re庫
2.4 實戰(zhàn)案例:百度新聞的抓取
2.5 本章習題
第3章 原生態(tài)網(wǎng)絡爬蟲開發(fā)
3.1 requests庫詳解
3.1.1 requests語法
3.1.2 requests庫的使用
3.2 正則表達式
3.2.1 正則表達式詳解與使用
3.2.2 Python與Excel
3.3 實戰(zhàn)案例:環(huán)球新聞的抓取
3.4 本章習題
第4章 解析HTML內容
4.1 XPath的介紹與使用
4.1.1 XPath的介紹
4.1.2 XPath的使用
4.2 lxml庫的安裝與使用
4.2.1 lxml庫的安裝
4.2.2 lxml庫的常見方法使用
4.3 Chrome瀏覽器分析網(wǎng)站
4.4 BeautifulSoup的安裝與使用
4.5 實戰(zhàn)案例:BeautifulSoup的使用
4.6 頁面請求與JSON
4.6.1 JSON的介紹與應用
4.6.2 GET請求和POST請求
4.7 模擬瀏覽器
4.7.1 Selenium的介紹與安裝
4.7.2 模擬點擊
4.7.3 Ajax結果提取
4.8 實戰(zhàn)案例:小說網(wǎng)站的抓取
4.9 模擬登錄與驗證
4.9.1 復雜的頁面請求
4.9.2 代理IP
4.9.3 Cookie的使用與證書
4.9.4 使用Selenium進行模擬登錄
4.10 驗證碼
4.10.1 手動打碼
4.10.2 自動打碼
4.11 實戰(zhàn)案例:模擬登錄及驗證
4.11.1 基本思路與方法
4.11.2 使用Cookie
4.12 本章習題
第5章 Python與數(shù)據(jù)庫
5.1 MySQL數(shù)據(jù)庫的安裝與應用
5.1.1 MySQL數(shù)據(jù)庫的安裝
5.1.2 MySQL數(shù)據(jù)庫的應用
5.2 MongoDB的安裝與使用
5.2.1 MongoDB的安裝
5.2.2 MongoDB的使用
5.2.3 MongoDB的可視化工具RockMongo
5.3 Python庫pymongo
5.4 本章習題
第6章 Python網(wǎng)絡爬蟲框架
6.1 Python網(wǎng)絡爬蟲的常見框架
6.2 PySpider網(wǎng)絡爬蟲框架簡介
6.3 Scrapy網(wǎng)絡爬蟲框架簡介
6.4 PySpider與Scrapy的區(qū)別
6.5 PySpider網(wǎng)絡爬蟲框架的安裝和使用
6.5.1 PySpider的安裝與部署
6.5.2 PySpider的界面介紹
6.5.3 PySpider的多線程網(wǎng)絡爬蟲
6.5.4 使用Phantomjs渲染
6.5.5 PySpider網(wǎng)絡爬蟲時間控制
6.5.6 RabbitMQ隊伍去重
6.5.7 在Linux系統(tǒng)下安裝部署PySpider
6.5.8 實戰(zhàn)案例:使用PySpider抓取題庫
6.6 Scrapy網(wǎng)絡爬蟲框架的安裝和使用
6.6.1 Scrapy的簡介與安裝
6.6.2 Scrapy的項目文件介紹
6.6.3 Scrapy的使用
6.6.4 Scrapy中使用XPath
6.6.5 Scrapy與MongoDB
6.6.6 Scrapy_Redis的安裝與使用
6.6.7 使用Redis緩存網(wǎng)頁并自動去重
6.6.8 實戰(zhàn)案例:抓取豆瓣Top250
6.7 Scrapy網(wǎng)絡爬蟲管理與部署
6.7.1 Scrapyd管理網(wǎng)絡爬蟲
6.7.2 使用SpiderKeeper進行任務監(jiān)控與定時抓取
6.7.3 Supervisor網(wǎng)絡爬蟲進程管理
6.7.4 Scrapy項目設計思路
6.7.5 實戰(zhàn)案例
6.8 本章習題
第7章 綜合性實戰(zhàn)案例
7.1 實戰(zhàn)案例1:瀑布流抓取
7.2 實戰(zhàn)案例2:網(wǎng)絡爬蟲攻防戰(zhàn)
7.2.1 網(wǎng)絡爬蟲攻防技術認識
7.2.2 代理IP地址網(wǎng)站
7.2.3 抓取新浪微博內容
7.2.4 獲得微博內容信息并保存到文本中
7.3 實戰(zhàn)案例3:分布式抓取
7.3.1 背景/案例知識介紹
7.3.2 某研究中心的數(shù)據(jù)抓取
7.3.3 查看效果
7.4 實戰(zhàn)案例4:微信公眾號文章點贊閱讀數(shù)抓取
7.4.1 所運用的內容講解
7.4.2 抓取微信公眾號文章的評論數(shù)據(jù)
7.4.3 效果展示
本章習題
參考文獻