自拍区在线第一页,av爆乳精品无码一本

本書通過實踐操作介紹大數(shù)據(jù)爬取、清洗與可視化的具體實施方案，共10章，包括大數(shù)據(jù)爬取、清洗與可視化概述，爬蟲概述，Requests庫，BeautifulSoup爬蟲，自動化測試工具Selenium，中型爬蟲框架Scrapy，數(shù)據(jù)存儲，數(shù)據(jù)清洗，Matplotlib可視化，Pyecharts可視化。書中的案例均經(jīng)過實踐驗證，可以幫助讀者深入理解數(shù)據(jù)信息在大數(shù)據(jù)行業(yè)中的重要應(yīng)用。為方便復(fù)習和自學(xué)，各章均配備豐富的習題。本書可作為高等院校大數(shù)據(jù)相關(guān)專業(yè)的教材，也可作為有關(guān)專業(yè)技術(shù)人員的培訓(xùn)教材，同時可作為大數(shù)據(jù)分析愛好者及從事網(wǎng)絡(luò)數(shù)據(jù)安全管理工作人員的參考書。

前言

本書是學(xué)習大數(shù)據(jù)獲取與分析的入門教材，從大數(shù)據(jù)信息的爬取開始，逐步講述在大數(shù)據(jù)環(huán)境下，對海量信息進行爬取、預(yù)處理操作與管理的全過程。全書立足于實踐與工程能力的培養(yǎng)，以關(guān)鍵技術(shù)和流行應(yīng)用作為引導(dǎo)展開全書內(nèi)容，通過“做中學(xué)”與“學(xué)中做”相結(jié)合的實踐過程，從技術(shù)簡介開始，進而進行關(guān)鍵技術(shù)分析與應(yīng)用案例解析，總結(jié)涉及的Python方法和第三方庫，最后給出具體功能分析和代碼實現(xiàn)過程。本書重點介紹大數(shù)據(jù)爬取、清洗與可視化的具體實施方案，程序設(shè)計采用Python3.x語言，由多年講授大數(shù)據(jù)方向相關(guān)課程、經(jīng)驗豐富的一線教師編寫。全書內(nèi)容循序漸進，按照初學(xué)者學(xué)習思路編排，條理性強，語言通俗，容易理解。全書共10章，包括大數(shù)據(jù)爬取、清洗與可視化概述，爬蟲概述，Requests庫，BeautifulSoup爬蟲，自動化測試工具Selenium，中型爬蟲框架Scrapy，數(shù)據(jù)存儲，數(shù)據(jù)清洗，Matplotlib可視化，Pyecharts可視化。為方便復(fù)習和自學(xué)，各章均配備豐富的習題。本書可作為高等院校大數(shù)據(jù)相關(guān)專業(yè)的教材，也可作為有關(guān)專業(yè)技術(shù)人員的培訓(xùn)教材，同時可作為大數(shù)據(jù)分析愛好者及從事網(wǎng)絡(luò)數(shù)據(jù)安全管理工作人員的參考書。本書以實踐操作為主，涉及的待爬取數(shù)據(jù)僅供學(xué)習使用，禁止在其他場合傳播。數(shù)據(jù)爬取的權(quán)限需參考待爬取網(wǎng)站的Robots協(xié)議。本書由賈寧擔任主編并統(tǒng)稿。具體編寫分工如下：第1~7章由賈寧編寫，第8~10章由鄭純軍編寫。本書配有電子課件、程序源代碼、習題解答等教學(xué)資源，讀者可以登錄華信教育資源網(wǎng)(www.hxedu.com.cn)注冊后免費下載。本書在編寫過程中，參考了許多國內(nèi)外的著作和文獻，在此對著作者致以由衷的謝意。本書的編寫得到了很多人的幫助和支持，在此對他們表示衷心的感謝。同時，感謝同事及學(xué)生對本書提出的意見和建議。限于作者水平，書中錯誤和缺點在所難免，歡迎廣大讀者提出寶貴意見和建議，我們不勝感激。

作者

2021年2月

第1章大數(shù)據(jù)爬取、清洗與可視化概述

在Web2.0時代，各大應(yīng)用都在不斷地累積產(chǎn)生數(shù)據(jù)，豐富的數(shù)據(jù)來源使得互聯(lián)網(wǎng)數(shù)據(jù)的組成結(jié)構(gòu)產(chǎn)生了巨大的變革。如何有效地獲取海量資源，并對其進行有效的整合和分析，是現(xiàn)今大數(shù)據(jù)行業(yè)研究的重要方向之一。在獲取海量數(shù)據(jù)后，需要將數(shù)據(jù)轉(zhuǎn)換或映射為格式匹配的數(shù)據(jù)流，以便數(shù)據(jù)可以順利地用于后續(xù)處理，即實現(xiàn)數(shù)據(jù)清洗的過程。實際上，該過程允許通過工具便利和自動使用數(shù)據(jù)來進行進一步的活動。清洗后的數(shù)據(jù)可以使用可視化圖形表示。數(shù)據(jù)的可視化使得理解數(shù)據(jù)和溝通變得更容易，在確定干凈且有效數(shù)據(jù)實體之間的關(guān)系的基礎(chǔ)上，進一步提高商業(yè)洞察力。

1.1爬蟲概述

1.1.1爬蟲簡介網(wǎng)絡(luò)爬蟲(WebCrawler，簡稱爬蟲)，又稱網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)螞蟻、網(wǎng)絡(luò)機器人等，在社區(qū)中也被稱為網(wǎng)頁追逐者。爬蟲是一個自動爬取網(wǎng)頁的程序，它為搜索引擎實現(xiàn)了從萬維網(wǎng)上下載網(wǎng)頁的功能，爬蟲是搜索引擎的重要組成部分。爬蟲的重要性主要體現(xiàn)在獲取海量資源這個環(huán)節(jié)，這個環(huán)節(jié)是整條數(shù)據(jù)處理鏈路的起始，如果沒有數(shù)據(jù)，后續(xù)的處理工作將無法正常完成。爬蟲的應(yīng)用起源于20世紀90年代的傳統(tǒng)搜索引擎，爬蟲用于爬取網(wǎng)絡(luò)中的Web頁面，再用搜索引擎進行索引和存儲，從而為用戶提供檢索信息服務(wù)。在系統(tǒng)架構(gòu)上，爬蟲位于整個引擎的后臺，而且對用戶屏蔽，因此在很長的一段時期，用戶沒有發(fā)現(xiàn)爬蟲的存在，從而限制了相應(yīng)技術(shù)的發(fā)展。在針對爬蟲的調(diào)研中發(fā)現(xiàn)，2004年以前，相關(guān)技術(shù)和應(yīng)用的關(guān)注度幾乎為0，但2005年以后，人們對爬蟲的關(guān)注度逐漸上升。通過進一步研究發(fā)現(xiàn)，對爬蟲技術(shù)的關(guān)注度排名靠前的領(lǐng)域是計算機軟件及應(yīng)用、互聯(lián)網(wǎng)技術(shù)與自動化技術(shù)、新聞與傳媒、貿(mào)易經(jīng)濟、圖書情報與數(shù)字圖書館等，其中大部分側(cè)重于爬蟲技術(shù)的研究，其次是爬蟲的研究領(lǐng)域，可以看出這些領(lǐng)域與爬蟲技術(shù)之間存在大量的耦合和交叉。爬蟲是一個實踐性很強的技術(shù)本領(lǐng)，因此，爬蟲技術(shù)的關(guān)注度也從另一個角度反映了爬蟲數(shù)量的增長速度，除為數(shù)不多的主流互聯(lián)網(wǎng)搜索引擎爬蟲外，大部分運行的爬蟲來自個人或者中小型企業(yè)單位。爬蟲的普及得益于大量爬蟲的開源包或底層技術(shù)開源包的出現(xiàn)，這些開源包使得開發(fā)一個具體應(yīng)用的爬蟲采集系統(tǒng)變得容易很多。但是，也正是由于這個原因，高度封裝開源句的流行使得很少有人愿意深入了解其中涉及的關(guān)鍵技術(shù)，導(dǎo)致現(xiàn)有的爬蟲在質(zhì)量、性能、創(chuàng)新性上都受到很大的影響。深入分析產(chǎn)生這種現(xiàn)象的原因之后，我們發(fā)現(xiàn)其中存在技術(shù)因素和非技術(shù)因素，可以總結(jié)為以下幾個方面。①低質(zhì)量的爬蟲不遵守Robots 協(xié)議。連接一個網(wǎng)站之后不檢測robots.xt文件內(nèi)容，也不解析文件中關(guān)于頁面訪問許可列表的規(guī)定。由于Robots協(xié)議是一個行業(yè)規(guī)范，忽視或者不遵守該協(xié)議意味著這個行業(yè)的發(fā)展會進入惡性循環(huán)之中。2爬蟲策略沒有優(yōu)化。一般開源系統(tǒng)實現(xiàn)了寬度優(yōu)先或者深度優(yōu)先的策略，但是并沒有對Web頁面的具體特征做優(yōu)化，此時很容易對服務(wù)器造成攻擊，甚至被服務(wù)器屏蔽。③許多爬蟲實現(xiàn)了多線程或者分布式的架構(gòu)，這個看似流行的架構(gòu)對爬蟲而言并非始終高效。即便客戶端架構(gòu)設(shè)計得再好，如果爬蟲策略和增量模式等問題沒有解決，它的效果僅相當于增加了很多個并行的爬蟲，而且僅針對同一個服務(wù)器操作，這種做法對服務(wù)器的負面影響極大，而且制約了爬蟲的發(fā)展。1.1.2常見爬蟲分類和工具基于爬蟲的發(fā)展現(xiàn)狀，我們需要利用現(xiàn)有的爬蟲框架和工具包，設(shè)計更有效、合理的爬蟲，使其能夠在不影響對方服務(wù)器的前提下，完成目標的數(shù)據(jù)爬取任務(wù)。目前，流行的爬蟲工具主要來源于第三方，以下列出一些常見的爬蟲工具。

你還可能感興趣

我要評論