大數(shù)據(jù)應(yīng)用與實(shí)訓(xùn)教程(新編21世紀(jì)高等職業(yè)教育精品教材·電子與信息類)
定 價(jià):35 元
叢書(shū)名:新編21世紀(jì)高等職業(yè)教育精品教材·電子與信息類
- 作者:于曉荷 辛向麗
- 出版時(shí)間:2023/7/1
- ISBN:9787300318875
- 出 版 社:中國(guó)人民大學(xué)出版社
- 中圖法分類:TP274
- 頁(yè)碼:148
- 紙張:
- 版次:1
- 開(kāi)本:16
本書(shū)基于具有實(shí)用性和普適性的案例來(lái)編寫(xiě),將數(shù)據(jù)的收集、獲取、預(yù)處理、分析與可視化貫穿其中。根據(jù)當(dāng)前高職高專教學(xué)實(shí)際需要,結(jié)合企業(yè)實(shí)際需求,采用“理實(shí)結(jié)合”的思路,以“案例導(dǎo)入”的形式詳細(xì)介紹了大數(shù)據(jù)實(shí)訓(xùn)項(xiàng)目。包括使用requests 庫(kù)獲取天氣信息,然后通過(guò)JupyterNotebook進(jìn)行分析處理;使用Scrapy 框架分頁(yè)獲取詩(shī)詞網(wǎng)站的信息,使用jieba 庫(kù)對(duì)詩(shī)詞的內(nèi)容進(jìn)行分詞,然后在JupyterNotebook 中對(duì)文本數(shù)據(jù)進(jìn)行處理;在Pycharm 中編寫(xiě)代碼獲取店面信息,然后在JupyterNotebook 中對(duì)信息進(jìn)行數(shù)據(jù)聚合與分組;使用requests 庫(kù)獲取頁(yè)面的HTML 標(biāo)簽,使用XPath 路徑表達(dá)式獲取解析之后的首頁(yè)面的數(shù)據(jù)信息,再使用循環(huán)語(yǔ)句獲取所有頁(yè)面的數(shù)據(jù)信息。
于曉荷,北京政法職業(yè)學(xué)院信息媒體學(xué)院教師,主要講授的課程有《Python大數(shù)據(jù)分析及應(yīng)用》《Python技術(shù)基礎(chǔ)》、《靜態(tài)網(wǎng)頁(yè)設(shè)計(jì)與制作》等。主編或參編的教材有《Dreamweaver網(wǎng)頁(yè)設(shè)計(jì)案例教程》《網(wǎng)頁(yè)設(shè)計(jì)與制作Dreamweaver CS3》《辦公自動(dòng)化案例教程》《ASP.NET動(dòng)態(tài)網(wǎng)頁(yè)設(shè)計(jì)案例教程C#版》和《 NUKE影視后期合成技能》。多次帶領(lǐng)學(xué)生參加技能大賽獲得佳績(jī),本人獲評(píng)國(guó)賽優(yōu)秀指導(dǎo)教師稱號(hào)。
項(xiàng)目一 大數(shù)據(jù)分析開(kāi)發(fā)環(huán)境的搭建
知識(shí)鏈接
一、數(shù)據(jù)分析的概念
二、數(shù)據(jù)分析的應(yīng)用
三、數(shù)據(jù)分析的流程
四、數(shù)據(jù)分析前的準(zhǔn)備
項(xiàng)目實(shí)施
一、Python 的下載及安裝
二、Pycharm 的下載及安裝
三、Anaconda 的下載及安裝
四、Jupyter Notebook 的使用
項(xiàng)目拓展
一、插件的安裝
二、常用的插件
項(xiàng)目二 Beautiful Soup 庫(kù)和Matplotlib 庫(kù)的使用
知識(shí)鏈接
一、Requests 庫(kù)
二、Beautiful Soup 庫(kù)
三、Pandas 庫(kù)的concat() 函數(shù)
四、數(shù)據(jù)的聚合與分組運(yùn)算
五、Matplotlib 庫(kù)
六、bar() 函數(shù)
七、plot() 函數(shù)
項(xiàng)目實(shí)施
一、新建項(xiàng)目
二、安裝Requests 庫(kù)
三、使用Requests 庫(kù)獲取頁(yè)面HTML 標(biāo)簽
四、使用Beautiful Soup 庫(kù)對(duì)頁(yè)面進(jìn)行解析
五、將獲取的信息保存為csv 格式文件
六、在Jupyter 中處理數(shù)據(jù)并進(jìn)行可視化分析
項(xiàng)目拓展
一、find_all() 方法速查表(見(jiàn)表2 - 2)
二、find() 方法速查表(見(jiàn)表2 - 3)
三、select() 方法速查表(見(jiàn)表2 - 4)
四、其他方法
五、HTML 速查表(見(jiàn)表2 - 6)
項(xiàng)目三 Scrapy 框架與Matplotlib 庫(kù)中bar 函數(shù)的使用
知識(shí)鏈接
一、Scrapy 框架
二、jieba 庫(kù)
三、Matplotlib 庫(kù)中pyplot 模塊的bar 函數(shù)
項(xiàng)目實(shí)施
一、創(chuàng)建Scrapy 項(xiàng)目
二、創(chuàng)建爬蟲(chóng)文件
三、參數(shù)配置
四、編寫(xiě)爬蟲(chóng)文件,獲取第1 頁(yè)的20 條詩(shī)詞信息
五、分頁(yè)信息的獲取
六、爬取信息的保存
七、在Jupyter 中處理文本并進(jìn)行可視化分析
項(xiàng)目拓展
一、創(chuàng)建Scrapy 項(xiàng)目和爬蟲(chóng)文件
二、配置settings.py 文件
三、編寫(xiě)items.py 文件
四、編寫(xiě)pipelines.py 文件
五、編寫(xiě)爬蟲(chóng)文件
項(xiàng)目四 Selenium 庫(kù)和Matplotlib 庫(kù)的使用
知識(shí)鏈接
一、Selenium 庫(kù)
二、Selenium 庫(kù)的常用操作
三、Pandas 庫(kù)的sort_values() 函數(shù)
四、Matplotlib 庫(kù)的pie() 函數(shù)
五、使用loc 和iloc 進(jìn)行索引
項(xiàng)目實(shí)施
一、新建項(xiàng)目
二、安裝Selenium 庫(kù)
三、下載Chrome 瀏覽器和瀏覽器驅(qū)動(dòng)
四、使用Selenium 庫(kù)獲取第1 頁(yè)的文本信息
五、獲取前3 個(gè)頁(yè)面的頁(yè)面文本信息
六、將獲取的信息保存為csv 格式文件
七、在Jupyter 中處理數(shù)據(jù)并進(jìn)行可視化分析
項(xiàng)目五 XPath 和Matplotlib 庫(kù)中barh 函數(shù)的使用
知識(shí)鏈接
一、lxml 庫(kù)
二、XPath
三、Xpath 的路徑表達(dá)式
四、Matplotlib 庫(kù)的barh() 函數(shù)
項(xiàng)目實(shí)施
一、新建項(xiàng)目
二、安裝lxml 庫(kù)和requests 庫(kù)
三、使用requests 庫(kù)獲取第一頁(yè)的HTML 標(biāo)簽信息
四、用etree 模塊的HTML() 方法對(duì)獲取的標(biāo)簽進(jìn)行解析
五、使用XPath 提取解析后的HTML 中的文本信息
六、獲取所有頁(yè)面的信息
七、將獲取的信息保存為csv 格式文件
八、在Jupyter 中處理數(shù)據(jù)并進(jìn)行可視化分析
項(xiàng)目六 pyecharts 庫(kù)的使用
知識(shí)鏈接 1
一、pyecharts 概述
二、柱狀圖的繪制
三、折線圖的繪制
四、餅圖和環(huán)形圖的繪制
五、多圖疊加
項(xiàng)目實(shí)施
一、使用柱狀圖可視化“平均每股收益(元)”和“平均每股凈資產(chǎn)(元)
二、 使用柱狀圖與折線圖對(duì)“營(yíng)業(yè)收入(元)”“營(yíng)業(yè)成本(元)”
“ 營(yíng)業(yè)利潤(rùn)(元)”進(jìn)行數(shù)據(jù)可視化分析
三、使用餅圖可視化2018 至2021 年的毛利率
項(xiàng)目拓展
一、其他類型圖表的繪制
二、組合圖的創(chuàng)建