數(shù)據(jù)采集與處理:基于Python(新編21世紀(jì)數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)系列教材)
定 價(jià):39 元
叢書(shū)名:新編21世紀(jì)數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)系列教材
- 作者:付東普
- 出版時(shí)間:2024/4/1
- ISBN:9787300325682
- 出 版 社:中國(guó)人民大學(xué)出版社
- 中圖法分類:TP274②TP311.561
- 頁(yè)碼:288
- 紙張:
- 版次:1
- 開(kāi)本:16
本書(shū)的主旨是介紹如何結(jié)合Python3語(yǔ)言進(jìn)行各類結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的采集、預(yù)處理和存儲(chǔ),涉及統(tǒng)計(jì)概率、數(shù)據(jù)格式與編碼、網(wǎng)頁(yè)開(kāi)發(fā)、自然語(yǔ)言處理、數(shù)據(jù)科學(xué)等不同領(lǐng)域的內(nèi)容。全書(shū)共分為11章,包括數(shù)據(jù)科學(xué)概述、Python基礎(chǔ)、統(tǒng)計(jì)與概率基礎(chǔ)、文件讀寫(xiě)與操作、數(shù)據(jù)可視化、網(wǎng)絡(luò)數(shù)據(jù)爬取等多個(gè)主題。內(nèi)容覆蓋本地文件、網(wǎng)頁(yè)數(shù)據(jù)、大數(shù)據(jù)訪問(wèn)等編程中的主要知識(shí)和技術(shù),在重視理論基礎(chǔ)的前提下,從實(shí)用性和豐富度出發(fā),結(jié)合實(shí)例演示了數(shù)據(jù)采集、處理與存儲(chǔ)的核心流程。本書(shū)適合高等院校計(jì)算機(jī)、數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)、軟件工程、統(tǒng)計(jì)等相關(guān)專業(yè)的師生以及Python語(yǔ)言初學(xué)者、網(wǎng)絡(luò)爬蟲(chóng)技術(shù)愛(ài)好者、數(shù)據(jù)分析從業(yè)人士閱讀。
付東普,首都經(jīng)濟(jì)貿(mào)易大學(xué)管理工程學(xué)院副教授,中國(guó)人民大學(xué)管理學(xué)博士,北京交通大學(xué)應(yīng)用經(jīng)濟(jì)學(xué)博士后,高級(jí)系統(tǒng)架構(gòu)設(shè)計(jì)師。研究領(lǐng)域包括電子商務(wù)、消費(fèi)者行為和互聯(lián)網(wǎng)金融,講授課程包括數(shù)據(jù)分析理論與實(shí)踐、數(shù)據(jù)采集與存儲(chǔ)、互聯(lián)網(wǎng)金融、管理信息系統(tǒng)、現(xiàn)代軟件工程等。在《管理科學(xué)學(xué)報(bào)》《經(jīng)濟(jì)管理》《經(jīng)濟(jì)與管理研究》、Electronic Commerce Research等國(guó)內(nèi)外學(xué)術(shù)期刊及國(guó)際會(huì)議發(fā)表論文20余篇,出版專著2部。有十多年軟件開(kāi)發(fā)、設(shè)計(jì)和管理經(jīng)驗(yàn),成功完成了多個(gè)數(shù)據(jù)分析項(xiàng)目。
第一章 概 述
第一節(jié) 數(shù)據(jù)科學(xué)概述
第二節(jié) 數(shù)據(jù)采集概述
第三節(jié) 數(shù)據(jù)存儲(chǔ)概述
第四節(jié) Python相關(guān)數(shù)據(jù)科學(xué)工具
思考與練習(xí)
延伸閱讀材料
第二章 Python基礎(chǔ)
第一節(jié) Python簡(jiǎn)介
第二節(jié) Python基本語(yǔ)法與命令
第三節(jié) 運(yùn)算符、表達(dá)式與內(nèi)置對(duì)象
第四節(jié) 函數(shù)
第五節(jié) 異常及其處理
思考與練習(xí)
延伸閱讀材料
第三章 numpy與pandas基礎(chǔ)
第一節(jié) numpy基礎(chǔ)
第二節(jié) pandas基礎(chǔ)
思考與練習(xí)
延伸閱讀材料
第四章 數(shù)據(jù)可視化
第一節(jié) 數(shù)據(jù)可視化概述
第二節(jié) matplotlib繪圖工具
第三節(jié) 其他數(shù)據(jù)可視化工具
思考與練習(xí)
延伸閱讀材料
第五章 文件讀寫(xiě)與操作
第一節(jié) 文件讀寫(xiě)基本操作
第二節(jié) CSV文件讀寫(xiě)
第三節(jié) XML文件讀寫(xiě)
第四節(jié) JSON文件讀寫(xiě)
第五節(jié) HDF文件讀寫(xiě)
第六節(jié) Office文件讀寫(xiě)
第七節(jié) PDF文件讀寫(xiě)
第八節(jié) 圖像文件讀寫(xiě)
思考與練習(xí)
延伸閱讀材料
第六章 統(tǒng)計(jì)與概率基礎(chǔ)
第一節(jié) 統(tǒng)計(jì)基礎(chǔ)
第二節(jié) 概率與分布
思考與練習(xí)
延伸閱讀材料
第七章 數(shù)據(jù)清洗與預(yù)處理
第一節(jié) 數(shù)據(jù)清洗
第二節(jié) 數(shù)據(jù)整合
第三節(jié) 數(shù)據(jù)變換
第四節(jié) 聚合與分組統(tǒng)計(jì)
第五節(jié) 數(shù)據(jù)歸約
思考與練習(xí)
延伸閱讀材料
第八章 網(wǎng)絡(luò)數(shù)據(jù)采集
第一節(jié) 爬蟲(chóng)的相關(guān)概念與知識(shí)
第二節(jié) HTML與JavaScript基礎(chǔ)
第三節(jié) 靜態(tài)網(wǎng)頁(yè)內(nèi)容爬取與解析
第四節(jié) 動(dòng)態(tài)網(wǎng)頁(yè)內(nèi)容爬取
第五節(jié) 爬蟲(chóng)框架Scrapy與應(yīng)用
思考與練習(xí)
延伸閱讀材料
第九章 關(guān)系型數(shù)據(jù)庫(kù)連接與訪問(wèn)
第一節(jié) 關(guān)系型數(shù)據(jù)庫(kù)概述
第二節(jié) SQLite數(shù)據(jù)庫(kù)連接與訪問(wèn)
第三節(jié) MySQL數(shù)據(jù)庫(kù)連接與訪問(wèn)
思考與練習(xí)
延伸閱讀材料
第十章 大數(shù)據(jù)存儲(chǔ)與訪問(wèn)技術(shù)
第一節(jié) 大數(shù)據(jù)技術(shù)
第二節(jié) 非關(guān)系型數(shù)據(jù)庫(kù)簡(jiǎn)介
第三節(jié) MongoDB數(shù)據(jù)庫(kù)連接與訪問(wèn)
思考與練習(xí)
延伸閱讀材料
第十一章 數(shù)據(jù)集成與ETL技術(shù)
第一節(jié) 數(shù)據(jù)集成
第二節(jié) ETL相關(guān)技術(shù)與工具
思考與練習(xí)
延伸閱讀材料
參考文獻(xiàn)