網(wǎng)絡數(shù)據(jù)爬取與分析實務
定 價:68 元
- 作者:李周平 著
- 出版時間:2018/9/1
- ISBN:9787313200327
- 出 版 社:上海交通大學出版社
- 中圖法分類:TP311.561
- 頁碼:
- 紙張:特種紙
- 版次:1
- 開本:16開
本書按照網(wǎng)絡數(shù)據(jù)爬取、數(shù)據(jù)清洗與處理、數(shù)據(jù)存儲、數(shù)據(jù)分析的邏輯脈絡,介紹了數(shù)據(jù)科學的相關知識。
全書主要內(nèi)容涉及理論、實戰(zhàn)、工具三個層面。其中,理論層面主要介紹了網(wǎng)絡爬蟲,數(shù)據(jù)處理與存儲,機器學習的相關概念、原理與算法;實戰(zhàn)層面主要通過影評、二手房、招聘網(wǎng)站等實戰(zhàn)項目,闡述了數(shù)據(jù)爬取、處理與存儲的代碼實現(xiàn),并通過相關數(shù)據(jù)集的實例,介紹了機器學習算法的實現(xiàn)與效果評估;工具層面主要講解了如何通過Python的Urllib、Request、BeautifulSoup、Pandas、Scikit-learn等第三方工具包實現(xiàn)數(shù)據(jù)的爬取、處理與分析,以及通過SQLite這一輕量級數(shù)據(jù)庫工具實現(xiàn)數(shù)據(jù)的存儲。
本書系“電子商務應用型專業(yè)系列教材”叢書。根據(jù)市場需求,該叢書重新梳理了電子商務應用型人才所需的能力,以電商運營能力、數(shù)據(jù)分析能力和移動應用設計開發(fā)能力為核心,學生可根據(jù)自身興趣愛好和擅長點進行自身能力的培養(yǎng)。
本書以校企合作的方式進行教材的編寫。通過與企業(yè)合作,吸收企業(yè)的行業(yè)經(jīng)驗和實際案例,既提高了教材內(nèi)容的實踐性,又幫助企業(yè)把隱性知識固化為顯性知識。
該叢書包括:1.《跨境電子商務實務》
2.《跨平臺移動商務網(wǎng)站技術及其應用》
3.《網(wǎng)絡數(shù)據(jù)爬取與分析實務》
4.《移動商務實用教程》
李周平
上海財經(jīng)大學博士,網(wǎng)絡與軟件工程師,現(xiàn)任上海商學院信息與計算機學院教師。長期從事網(wǎng)絡爬蟲、數(shù)據(jù)挖掘、機器學習、自然語言處理、Python程序開發(fā)等方面的教學和培訓工作,具有十余年的Python項目開發(fā)經(jīng)驗,獲得多項軟件專利。
第1章 數(shù)據(jù)科學概述
1.1什么是數(shù)據(jù)科學
1.2數(shù)據(jù)分析師、數(shù)據(jù)工程師與數(shù)據(jù)科學家
第2章Python語法基礎
2.1 Python的程序結(jié)構(gòu)
2.2 Python編碼規(guī)范
2.3 Python編程環(huán)境的搭建
2.4 Python的數(shù)據(jù)結(jié)構(gòu)
2.5 Python控制語句
習題
第3章 使用Urllib庫編寫爬蟲
3.1 網(wǎng)絡爬蟲概述
3.2 使用Urllib.request模塊編寫爬蟲
3.3 修改User-Agent屬性模擬瀏覽器訪問
3.4 HTTP協(xié)議詳解
3.5 模擬HTTP-GET方法的爬蟲
3.6 模擬HTTP-POST方法的爬蟲
習題
第4章 使用正則表達式提取數(shù)據(jù)
4.1 正則表達式原理
4.2 正則表達式語法
4.3 re模塊常用的函數(shù)
4.4 正則表達式應用實例
習題
第5章 使用BeautifulSoup庫提取數(shù)據(jù)
5.1 BeautifulSoup包簡介
5.2 BeautifulSoup的信息提取
5.3 BeautifulSoup的遍歷
習題
第6章 爬蟲項目實戰(zhàn)
6.1網(wǎng)易新聞中心爬蟲
6.2 通過Session模擬登錄豆瓣
6.3 鏈家二手房信息爬蟲
6.4爬取拉勾網(wǎng)JSON格式數(shù)據(jù)
習題
第7章 Pandas數(shù)據(jù)處理基礎
7.1數(shù)據(jù)處理概述
7.2 Pandas數(shù)據(jù)結(jié)構(gòu)
7.3 DataFrame的基本操作
7.4 DataFrame數(shù)據(jù)的連接
7.4 Pandas數(shù)據(jù)輸入輸出
習題
第8章 Pandas數(shù)據(jù)處理常用方法
8.1 分組統(tǒng)計與轉(zhuǎn)換
8.2 缺失值處理
8.3 時間序列數(shù)據(jù)處理
8.4 向量轉(zhuǎn)換
習題
第9章 數(shù)據(jù)處理實戰(zhàn)
9.1二手房數(shù)據(jù)處理
9.2 職位數(shù)據(jù)處理
9.3 職位描述的文本信息處理
習題
第10章 SQLite數(shù)據(jù)庫操作
10.1 SQLite數(shù)據(jù)庫簡介
10.2 Python讀寫SQLite
10.3 Pandas讀寫SQLite
習題
第11章 機器學習概述
11.1 認識機器學習
11.2 機器學習的應用范圍
11.3 機器學習的算法
11.4 Scikit-learn機器學習包
習題
第12章 從線性回歸到分類
12.1線性回歸算法
12.2 邏輯回歸分類算法
習題
第13章 分類模型及應用
13.1 K近鄰分類算法
13.2 決策樹分類算法
13.3 隨機森林分類算法
習題
第14章 分類模型的評估
14.1訓練與測試樣本
14.2 性能評價指標
14.3分類閾值的調(diào)整
習題
參考文獻