中国一级淫片aaa毛片毛片,中文字字幕在线中文乱码2019

本書(shū)主要以純案例驅(qū)動(dòng)的形式，分別使用和結(jié)合使用requests庫(kù)、selenium庫(kù)，從互聯(lián)網(wǎng)上收集數(shù)據(jù)。主要內(nèi)容包括收集靜態(tài)網(wǎng)頁(yè)數(shù)據(jù)，網(wǎng)頁(yè)解析，JSON數(shù)據(jù)，JSON解析，多級(jí)翻頁(yè)，cookie和session，驗(yàn)證登錄，多線程，數(shù)據(jù)的存儲(chǔ)，收集到的數(shù)據(jù)包括靜態(tài)網(wǎng)頁(yè)數(shù)據(jù)、json、圖片、音頻、視頻等數(shù)據(jù)，并對(duì)獲取的數(shù)據(jù)進(jìn)行清洗。適合Python初學(xué)者，也適合研究Python的廣大科研人員、學(xué)者、工程技術(shù)人員。本教材采用純的案例，和簡(jiǎn)單的注釋，其他一些先修的知識(shí)是在其他課程有開(kāi)設(shè)。

現(xiàn)階段，隨著大數(shù)據(jù)和人工智能技術(shù)的研究不斷深入發(fā)展，網(wǎng)絡(luò)數(shù)據(jù)采集與清洗越來(lái)越具有較為廣泛的應(yīng)用范圍。本書(shū)是為數(shù)據(jù)采集與清洗課程編寫(xiě)的教材，其內(nèi)容選取符合教學(xué)大綱要求，以案例驅(qū)動(dòng)展開(kāi)，兼顧內(nèi)容的廣度和深度，適用面廣。
本書(shū)的第1章主要闡述網(wǎng)絡(luò)爬蟲(chóng)的基本概念、基本流程、爬蟲(chóng)合法性問(wèn)題、反爬蟲(chóng)技術(shù)以及爬蟲(chóng)的預(yù)備知識(shí)。第2~9章主要講解爬蟲(chóng)的各種技術(shù)，分別討論Requests庫(kù)、JSON數(shù)據(jù)爬取、XPath解析及網(wǎng)頁(yè)數(shù)據(jù)爬取、IP代理、Selenium庫(kù)、Selenium與Requests結(jié)合使用、異步爬蟲(chóng)、正則表達(dá)式等基本技術(shù)的實(shí)現(xiàn)；爬取的內(nèi)容包括HTML文檔、JSON數(shù)據(jù)、圖片、音頻、視頻，以及這些類型數(shù)據(jù)的持久化保存。第10章講解數(shù)據(jù)的簡(jiǎn)單清洗。第11章講解一個(gè)綜合案例，結(jié)合Requests和Selenium，分別采用單線程和多線程實(shí)現(xiàn)對(duì)不同網(wǎng)站的數(shù)據(jù)爬取，并進(jìn)行相應(yīng)的數(shù)據(jù)清洗操作。
全書(shū)采用Python為主要描述語(yǔ)言。Python是一種面向?qū)ο蟮母呒?jí)通用腳本編程語(yǔ)言，其語(yǔ)法簡(jiǎn)潔，簡(jiǎn)單易懂。相比其他語(yǔ)言，Python更容易配置，在字符處理方面靈活，并且在爬蟲(chóng)程序開(kāi)發(fā)中具有先天的優(yōu)勢(shì)，是開(kāi)發(fā)者的首選編程語(yǔ)言。Python最初被用于編寫(xiě)Shell(自動(dòng)化腳本)，伴隨著版本不斷更新以及語(yǔ)言新功能的加入，其作為爬蟲(chóng)編程語(yǔ)言優(yōu)勢(shì)更加突出。因此，越來(lái)越多的開(kāi)發(fā)者選擇Python用于大型爬蟲(chóng)項(xiàng)目開(kāi)發(fā)。Python自帶有多種爬取模板，可以利用Requests和Selenium第三方庫(kù)模擬人工瀏覽器訪問(wèn)的行為，實(shí)現(xiàn)起來(lái)便捷；爬蟲(chóng)程序爬取網(wǎng)頁(yè)之后，需要對(duì)網(wǎng)頁(yè)進(jìn)行諸如過(guò)濾標(biāo)簽、提取文本等處理。Python擁有簡(jiǎn)短的文檔處理功能，能夠用簡(jiǎn)短代碼處理絕大部分文檔。
從課程性質(zhì)上來(lái)講，數(shù)據(jù)采集與清洗是一門(mén)專業(yè)選修課，側(cè)重于應(yīng)用。它的教學(xué)要求是：理解互聯(lián)網(wǎng)大數(shù)據(jù)采集的主要技術(shù)；掌握各種典型爬蟲(chóng)的技術(shù)原理、技術(shù)框架、實(shí)現(xiàn)方法、主要開(kāi)源包的使用；理解對(duì)爬蟲(chóng)采集到的網(wǎng)頁(yè)數(shù)據(jù)的處理方法及文本處理，并會(huì)使用Python進(jìn)行技術(shù)實(shí)現(xiàn)。本書(shū)的學(xué)習(xí)過(guò)程通過(guò)案例驅(qū)動(dòng)的方式展開(kāi)，幫助讀者貫穿爬蟲(chóng)、數(shù)據(jù)清洗的過(guò)程，培養(yǎng)讀者掌握從互聯(lián)網(wǎng)上采集數(shù)據(jù)的技術(shù)，能夠獨(dú)立完成數(shù)據(jù)采集和清洗工作，對(duì)培養(yǎng)學(xué)生的數(shù)據(jù)處理能力、信息分析與應(yīng)用能力、信息表達(dá)能力具有重要作用，為后期的生產(chǎn)實(shí)習(xí)、畢業(yè)設(shè)計(jì)以及未來(lái)的工作奠定一定的實(shí)踐基礎(chǔ)。
本書(shū)內(nèi)容以實(shí)戰(zhàn)為主，適合高等院校相關(guān)專業(yè)的學(xué)生閱讀，可以作為數(shù)據(jù)科學(xué)與大數(shù)據(jù)專業(yè)的本科或?qū)？平滩�，也可以作為信息類相關(guān)專業(yè)的選修教材，也適合Python培訓(xùn)機(jī)構(gòu)作為實(shí)訓(xùn)教材。講課學(xué)時(shí)可設(shè)置為30~40學(xué)時(shí)。本書(shū)文字通俗，簡(jiǎn)單易懂，便于自學(xué)，也可供從事大數(shù)據(jù)處理等工作的科技人員參考。只需要掌握Python程序設(shè)計(jì)便可以學(xué)習(xí)本書(shū)。

配套資源
為了方便教學(xué)，本書(shū)配有微課視頻、教學(xué)課件、源代碼。
（1）獲取微課視頻方式：
讀者可以先掃描本書(shū)封底的文泉云盤(pán)防盜碼，再掃描書(shū)中相應(yīng)的視頻二維碼，即可觀看教學(xué)視頻。
（2）其他資源可先掃描本書(shū)封底的文泉云盤(pán)防盜碼，再掃描下方二維碼，即可獲取。

教學(xué)課件

源代碼

你還可能感興趣

我要評(píng)論