本書緊跟數據分析的發(fā)展新趨勢,基于Python的數據分析平臺和工具,系統(tǒng)介紹數據分析的相關知識與技能。本書共7個項目,分為3部分:基礎部分、數據分析部分、機器學習實戰(zhàn)部分。基礎部分包括項目一和項目二,介紹數據分析環(huán)境的搭建,以及NumPy的理論和實踐知識;數據分析部分包括項目三~項目六,結合案例介紹數據檢查、數據呈現、數據多維化等,涵蓋真實數據分析工作的完整流程;機器學習實戰(zhàn)部分只包括項目七,利用一個神經網絡實戰(zhàn)案例呈現機器學習的完整過程。
本書選用真實度高的實踐案例,深入淺出地介紹與數據分析相關的理論和實踐知識。本書可作為高校數據分析相關課程的教材,也可供剛進入數據分析領域的人員及具有實踐經驗的從業(yè)者學習、參考使用。
1.本書主要針對高等職業(yè)院校學生的特點,以對應崗位需求為錨點,突出技能教育,提高高職學生在數據分析領域的職業(yè)素質。
2.本書精心選擇大型真實案例數據集,作為貫穿全書知識點的核心骨干,能有效的激發(fā)學生的學習興趣,有助于建立學生的實際崗位代入感。
3.合理平衡理論知識與實踐操作,注重主要理論知識的講解,強調構建核心技能圖譜,幫助學生掌握整體思路的基礎上同時熟悉操作細節(jié)。
4.本書為每個技能點備有針對性的、豐富的、基于實際需求的、適合各個學習階層的實操練習,拓展學生的課堂所學。
5.本書有機結合項目驅動案例教學基于工作過程的教學等多種教學方法,充分激發(fā)學生的學習興趣,發(fā)揮學生學習的主動性,變常規(guī)的教學方式為學生為主型的主動學習方式。
劉凱洋,男,講師,1978.12出生。 1999.7月畢業(yè)于西安交通大學計算機科學系。 1999.7-2004.10 畢業(yè)于香港科技大學計算機科學系,獲得博士學位。 2005.6至今 深圳職業(yè)技術學院從事教學和科研工作 主持2006年校級科研項目《基于嵌入式的網絡安全系統(tǒng)》,參與了2009年國家精品課程《Oracle數據庫系統(tǒng)管理》,以作者發(fā)表論文3篇。主要研究方向為圖論、自然語言處理等
基礎部分
項目一 數據分析概述與環(huán)境配置 1
1.1 項目背景 1
1.2 技能圖譜 3
1.3 工具介紹 4
1.3.1 Python介紹 4
1.3.2 核心包介紹 5
1.3.3 輔助工具介紹 6
1.4 工作環(huán)境配置 7
1.4.1 安裝Python 7
1.4.2 配置虛擬環(huán)境 8
1.4.3 安裝第三方包 9
1.5 Jupyter Notebook使用入門 10
1.5.1 Notebook架構 10
1.5.2 Notebook啟動 10
1.5.3 Notebook主頁基本操作 11
1.5.4 Notebook的保存 12
1.6 項目總結 12
項目二 NumPy實戰(zhàn) 13
2.1 項目背景 13
2.2 技能圖譜 14
2.3 數組介紹 14
2.3.1 創(chuàng)建數組 15
2.3.2 了解數組特性 18
2.3.3 了解廣播 20
2.3.4 練習 23
2.4 數組基本操作 24
2.4.1 變換數組 24
2.4.2 訪問數組 26
2.4.3 復制數組 29
2.4.4 練習 31
2.5 數組常用操作 32
2.5.1 使用ufunc 32
2.5.2 查詢數組 34
2.5.3 排序數組 35
2.5.4 練習 37
2.6 項目總結 38
數據分析部分
項目三 全球氣溫變化趨勢(一)數據檢查 39
3.1 項目背景 39
3.2 技能圖譜 40
3.3 數據獲取 40
3.3.1 了解獲取途徑 40
3.3.2 了解項目數據 41
3.3.3 練習 41
3.4 數據讀入 41
3.4.1 了解數據格式 42
3.4.2 讀入數據文件 42
3.4.3 處理讀入異!43
3.4.4 練習 43
3.5 數據檢查 43
3.5.1 查看數據集大小 44
3.5.2 查看列標簽和數據類型 44
3.5.3 了解數據結構 45
3.5.4 練習 46
3.6 數據內容訪問 47
3.6.1 采用[]方式 47
3.6.2 采用.[i]loc方式 49
3.6.3 采用表達式方式 51
3.6.4 數據可視化 52
3.6.5 練習 53
3.7 項目總結 53
項目四 全球氣溫變化趨勢(二)數據分析 54
4.1 項目背景 54
4.2 技能圖譜 55
4.3 列處理 55
4.3.1 重命名列標簽 55
4.3.2 刪除、合并列 56
4.3.3 轉換日期數據 57
4.3.4 練習 58
4.4 索引處理 58
4.4.1 設置單級索引 59
4.4.2 設置多級索引 60
4.4.3 查詢索引 61
4.4.4 練習 63
4.5 統(tǒng)計分析 64
4.5.1 實現數據排序 64
4.5.2 實現簡單統(tǒng)計 65
4.5.3 實現分組統(tǒng)計 66
4.5.4 練習 70
4.6 項目總結 71
項目五 全球氣溫變化趨勢(三)數據呈現 72
5.1 項目背景 72
5.2 技能圖譜 73
5.3 數據清洗 73
5.3.1 處理缺失值 74
5.3.2 檢測異常值 75
5.3.3 處理異常值 78
5.3.4 練習 81
5.4 數據轉換 82
5.4.1 實現數據替換 82
5.4.2 實現離散化 83
5.4.3 實現重取樣 83
5.4.4 練習 84
5.5 數據可視化 84
5.5.1 繪制折線圖 84
5.5.2 繪制餅圖 88
5.5.3 繪制柱狀圖 89
5.5.4 練習 94
5.6 項目總結 98
項目六 全球氣溫變化趨勢(四)數據多維化 99
6.1 項目背景 99
6.2 技能圖譜 99
6.3 數據拆分與拼接 100
6.3.1 了解軸向 100
6.3.2 拆分數據 101
6.3.3 拼接數據 103
6.3.4 練習 109
6.4 數據透視表 109
6.4.1 了解數據透視表 109
6.4.2 使用pivot_table() 110
6.4.3 使用crosstab() 113
6.4.4 練習 115
6.5 項目總結 115
機器學習實戰(zhàn)部分
項目七 機器學習實戰(zhàn)模型的自我學習 117
7.1 項目背景 117
7.2 技能圖譜 119
7.3 背景知識介紹 119
7.3.1 了解人工智能 120
7.3.2 了解機器學習 125
7.3.3 了解人工智能實際應用 129
7.3.4 練習 130
7.4 神經網絡簡介 130
7.4.1 了解神經網絡 132
7.4.2 了解常見神經網絡 136
7.4.3 了解CNN 139
7.4.4 練習 143
7.5 CNN實戰(zhàn) 143
7.5.1 預處理數據 143
7.5.2 構建和訓練模型 146
7.5.3 分析模型性能 148
7.5.4 練習 153
7.6 項目總結 155