Python金融數(shù)據(jù)挖掘與分析實(shí)戰(zhàn)
定 價:109 元
叢書名:金融科技
- 作者:劉鵬,高中強(qiáng)
- 出版時間:2021/12/1
- ISBN:9787111696506
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP311.561
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
內(nèi)容簡介
這是一本金融數(shù)據(jù)挖掘與分析領(lǐng)域的實(shí)戰(zhàn)性著作,它能指導(dǎo)零Python編程基礎(chǔ)和零數(shù)據(jù)挖掘與分析基礎(chǔ)的讀者快速掌握金融數(shù)據(jù)挖掘與分析的工具、技術(shù)和方法。
讀完本書,你將會有如下3個方面的收獲:
(1)Python編程基礎(chǔ)和數(shù)據(jù)預(yù)處理
首先詳細(xì)講解了Python的核心語法,以及NumPy、Matplotlib、PySpark、Jupyter Notebook等Python數(shù)據(jù)處理工具的使用;然后詳細(xì)介紹了數(shù)據(jù)預(yù)處理的流程和技巧。通過深入淺出的語言和豐富的樣例展示,幫助初學(xué)者快速上手 Python,為之后的數(shù)據(jù)分析實(shí)戰(zhàn)夯實(shí)基礎(chǔ)。
(2)數(shù)據(jù)挖掘與分析的經(jīng)典方法
詳細(xì)講解了經(jīng)典的數(shù)據(jù)挖掘方法,包括聚類分析、回歸分析、分類分析、異常檢測、關(guān)聯(lián)分析、時間序列分析等。
(3)主要金融應(yīng)用場景的數(shù)據(jù)挖掘方法
針對網(wǎng)絡(luò)輿情的采集和熱點(diǎn)分析、輿情分析中的情感分析、股價趨勢預(yù)測、個人信用評分、企業(yè)信用評分、用戶畫像、目標(biāo)客戶精準(zhǔn)分析、銷售數(shù)據(jù)分析等金融行業(yè)的常見應(yīng)用場景,給出了數(shù)據(jù)挖掘和分析的方法。
本書注重實(shí)戰(zhàn),配有大量精心設(shè)計(jì)的案例,同時還有配套的視頻講解、代碼和數(shù)據(jù)資源,可操作性強(qiáng)。
作者背景資深:作者是云計(jì)算、大數(shù)據(jù)和AI領(lǐng)域的知名專家,云創(chuàng)大數(shù)據(jù)總裁、中國大數(shù)據(jù)應(yīng)用聯(lián)盟人工智能專家委員會主任。寫作經(jīng)驗(yàn)豐富:作者團(tuán)隊(duì)寫作經(jīng)驗(yàn)豐富,不僅深諳數(shù)據(jù)挖掘技術(shù)和金融行業(yè),而且有豐富的出版經(jīng)驗(yàn),能準(zhǔn)確把握讀者需求。零基礎(chǔ)快入門:即便讀者沒有Python經(jīng)驗(yàn),沒有數(shù)據(jù)挖掘和分析經(jīng)驗(yàn),也能快速掌握常見金融應(yīng)用場景的數(shù)據(jù)挖掘和分析。實(shí)戰(zhàn)性強(qiáng):本書配有大量精心設(shè)計(jì)的案例、講解視頻、實(shí)現(xiàn)代碼、數(shù)據(jù)資源、習(xí)題及其答案。
為何會寫本書
數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中,通過統(tǒng)計(jì)、人工智能、機(jī)器學(xué)習(xí)等方法,挖掘人們未知的、有價值的信息和知識的過程。它帶來的顛覆性在于將隱藏在大量雜亂數(shù)據(jù)中的有用信息提煉出來,通過算法自動尋找變量間的關(guān)系。
隨著時代的發(fā)展,數(shù)據(jù)挖掘逐漸成為大數(shù)據(jù)技術(shù)的核心,如何挖掘并分析數(shù)據(jù)成為大數(shù)據(jù)技術(shù)發(fā)展面臨的重要議題。特別是在金融應(yīng)用領(lǐng)域,數(shù)據(jù)挖掘技術(shù)扮演著舉足輕重的角色。即使如此,縱觀目前國內(nèi)技術(shù)圖書市場,真正結(jié)合理論與實(shí)踐講解金融領(lǐng)域數(shù)據(jù)挖掘與分析技術(shù)的圖書很少,可以系統(tǒng)呈現(xiàn)知識點(diǎn)并將代碼落地的專業(yè)書更是鳳毛麟角。
基于此,本書以應(yīng)用為導(dǎo)向,從數(shù)據(jù)挖掘出發(fā),借助Python語言,將數(shù)據(jù)挖掘理論知識與金融領(lǐng)域的實(shí)際應(yīng)用相結(jié)合,循序漸進(jìn)地介紹了Python金融數(shù)據(jù)的挖掘與分析。此外,本書每一章均配有視頻講解,詳解代碼每一步的運(yùn)行過程及原理,并提供完整代碼和數(shù)據(jù)資源,以幫助讀者更好地理解與應(yīng)用相關(guān)知識。
本書特色
一、內(nèi)容精煉,普適性強(qiáng)
本書從數(shù)據(jù)分析的工具入手,詳解Python的基礎(chǔ)規(guī)則和語法,由淺入深地講解深度學(xué)習(xí)相關(guān)算法和理論知識,并與金融數(shù)據(jù)挖掘?qū)崙?zhàn)充分結(jié)合,可以幫助讀者在理解理論知識的基礎(chǔ)上體驗(yàn)數(shù)據(jù)分析實(shí)戰(zhàn),真正做到學(xué)以致用。
二、提供大量實(shí)戰(zhàn)經(jīng)驗(yàn)和學(xué)習(xí)實(shí)例
“授之以魚,不如授之以漁!北緯谥v解知識點(diǎn)時,更注重方法與經(jīng)驗(yàn)的分享,包括“含金量”很高的成功經(jīng)驗(yàn)分享以及易錯事項(xiàng)的總結(jié)分析。同時,每章均提供一定的實(shí)例,將原理講解終落實(shí)到代碼實(shí)現(xiàn)上,幫助讀者在學(xué)習(xí)路上披荊斬棘,快速將理論與實(shí)踐融會貫通。
三、配備教學(xué)視頻和完整的源代碼
為了方便讀者學(xué)習(xí),作者針對每章內(nèi)容的核心知識點(diǎn)錄制了講解視頻,且提供PPT、完整代碼和數(shù)據(jù)資源。讀者關(guān)注公眾號“云創(chuàng)大數(shù)據(jù)”(cStor_cn),在公眾號回復(fù)本書書名,即可領(lǐng)取相關(guān)配套資源,使學(xué)習(xí)更為高效。每一章的習(xí)題答案也可從公眾號獲取。
四、針對初學(xué)者講解Python基礎(chǔ)知識
本書使用Python語言編寫代碼,通過深入淺出的語言與豐富的樣例展示,幫助初學(xué)者快速上手Python語言。
內(nèi)容簡介
本書共分為14章,采用雙主線的寫作方式:一條主線是理論,涵蓋基礎(chǔ)理論相關(guān)概念的介紹以及各種算法原理的講解;另外一條主線是實(shí)戰(zhàn),既包括如何上手Python,又包括相關(guān)主題實(shí)例分析。
第1~3章為Python數(shù)據(jù)分析基礎(chǔ),內(nèi)容涵蓋了選取Python語言做數(shù)據(jù)分析的原因、Jupyter Notebook的使用、Python基礎(chǔ)知識和語法入門以及數(shù)據(jù)預(yù)處理流程和技巧,可幫助初學(xué)者快速上手Python,為之后的數(shù)據(jù)分析實(shí)戰(zhàn)夯實(shí)基礎(chǔ)。
第4章講解經(jīng)典的數(shù)據(jù)挖掘方法,包括聚類分析、回歸分析、分類分析、異常檢測、關(guān)聯(lián)分析、時間序列分析等。
本書從第5章開始介紹深度學(xué)習(xí)相關(guān)的理論知識與實(shí)踐。其中,第5章主要介紹網(wǎng)絡(luò)輿情的采集和熱點(diǎn)分析,并通過爬取微博熱門評論對熱點(diǎn)話題進(jìn)行聚類分析,使讀者初步了解網(wǎng)絡(luò)輿情分析,為以后深入研究網(wǎng)絡(luò)輿情發(fā)展和變化打下堅(jiān)實(shí)的基礎(chǔ)。第6章詳細(xì)介紹輿情分析的重中之重:情感分類。從評論文本分析出用戶的情感傾向,精確掌握用戶對于某一產(chǎn)品的整體使用感受,便于向商戶提供產(chǎn)品決策支持信息。
第7章和第8章講解利用傳統(tǒng)的機(jī)器學(xué)習(xí)算法以及深度學(xué)習(xí)中的循環(huán)神經(jīng)網(wǎng)絡(luò)對股價趨勢進(jìn)行預(yù)測,重點(diǎn)闡述了SVM算法和ARIMA算法,同時證明了市場情感對股票市場的發(fā)展趨勢有著不容忽視的影響。
第9~11章介紹了個人信用評分和企業(yè)信用評分的技術(shù)與方法,先后闡述了相關(guān)算法及理論基礎(chǔ),并結(jié)合具體實(shí)例,讓讀者更加清晰地了解并掌握個人及企業(yè)信用評估的整個流程。
人物畫像有利于精準(zhǔn)定位用戶群體并獲取用戶需求和反饋信息。第12章主要講解用戶畫像,包括用戶畫像的定義、標(biāo)簽體系、用戶畫像的意義以及用戶畫像的構(gòu)建等,還通過兩個用戶畫像的實(shí)戰(zhàn)案例,幫助讀者在實(shí)際應(yīng)用中進(jìn)一步理解和構(gòu)建用戶畫像。
第13章主要講述搭建目標(biāo)客戶運(yùn)營體系流程、目標(biāo)客戶的挖掘與分類等,通過可視化展示、聚類算法以及LRFMC分類模型的建立精確區(qū)分目標(biāo)客戶,從而實(shí)現(xiàn)對客戶的精準(zhǔn)分群管理,達(dá)到穩(wěn)固企業(yè)運(yùn)營體系的目的。第14章通過對銷售數(shù)據(jù)的進(jìn)一步分析挖掘,同時借助關(guān)聯(lián)規(guī)則—Apriori算法—實(shí)現(xiàn)商品智能推薦、關(guān)聯(lián)商品的組合銷售以及客戶的精準(zhǔn)營銷,終達(dá)到讓企業(yè)獲取更多利潤的目的。
讀者對象
本書適合以下幾類讀者:
金融行業(yè)數(shù)據(jù)相關(guān)崗位技術(shù)人員;
企業(yè)運(yùn)營人員;
數(shù)據(jù)分析師;
數(shù)據(jù)挖掘工程師;
高等院校相關(guān)專業(yè)學(xué)生。
致謝
在此,特別感謝我的碩士導(dǎo)師謝希仁教授和博士導(dǎo)師李三立院士。謝希仁教授出版的《計(jì)算機(jī)網(wǎng)絡(luò)》已經(jīng)更新到了第8版,堪稱與時俱進(jìn)且日臻完美的典范,這時時提醒著我們要以這樣的標(biāo)準(zhǔn)來寫書。李三立院士是留蘇博士,為我國計(jì)算機(jī)事業(yè)做出了杰出貢獻(xiàn),曾任國家攀登計(jì)劃計(jì)算項(xiàng)目首席科學(xué)家。他治學(xué)嚴(yán)謹(jǐn),帶出了一大批杰出的學(xué)生。
本書是集體智慧的結(jié)晶,在此謹(jǐn)向付出辛勤勞動的各位同行者致敬!書中難免會有不當(dāng)之處,請讀者不吝賜教。我的郵箱為gloud@126.com,微信公眾號為“劉鵬看未來”(lpoutlook)。
劉 鵬
2021年9月
作者介紹
劉鵬
教授,清華大學(xué)博士,云計(jì)算、大數(shù)據(jù)和人工智能領(lǐng)域的知名專家,南京云創(chuàng)大數(shù)據(jù)科技股份有限公司總裁、中國大數(shù)據(jù)應(yīng)用聯(lián)盟人工智能專家委員會主任。
中國電子學(xué)會云計(jì)算專家委員會云存儲組組長、工業(yè)和信息化部云計(jì)算研究中心專家。中國信息協(xié)會教育分會人工智能教育專家委員會主任、教育部全國普通高校畢業(yè)生就業(yè)創(chuàng)業(yè)指導(dǎo)委員會委員、“2019年全國大學(xué)生數(shù)學(xué)建模比賽”命題人、“第45屆世界技能大賽”中國區(qū)云計(jì)算選拔賽裁判長/專家指導(dǎo)組組長、2002 PennySort國際計(jì)算機(jī)排序比賽冠軍與2003年全國挑戰(zhàn)杯總冠軍。提出的反垃圾郵件網(wǎng)格,被IEEE Cluster 2003評為杰出網(wǎng)格項(xiàng)目,為解決困擾全球的垃圾郵件問題做出根本貢獻(xiàn),該技術(shù)成為云安全技術(shù)的基礎(chǔ)。
高中強(qiáng)
人工智能與大數(shù)據(jù)領(lǐng)域技術(shù)專家,有非常深厚的積累,擅長機(jī)器學(xué)習(xí)和自然語言處理,尤其是深度學(xué)習(xí),熟悉Tensorflow、PyTorch等深度學(xué)習(xí)開發(fā)框架。
曾獲“2019年全國大學(xué)生數(shù)學(xué)建模優(yōu)秀命題人獎”。參與鐘南山院士指導(dǎo)新型冠狀病毒人工智能預(yù)測系統(tǒng)研發(fā)項(xiàng)目,與鐘南山院士團(tuán)隊(duì)共同發(fā)表學(xué)術(shù)論文《Modified SEIR and AI prediction of the epidemics trend of COVID-19 in China under public health interventions》。合著有參《人工智能:從小白到大神》、《人工智能數(shù)學(xué)基礎(chǔ)》等著作。
前 言
第1章 Python工作環(huán)境準(zhǔn)備 1
1.1 Anaconda環(huán)境安裝 1
1.2 常用Python 交互工具 4
1.3 Jupyter Notebook簡介 6
1.4 習(xí)題 9
第2章 Python入門 10
2.1 Python基礎(chǔ)知識 10
2.2 Python基礎(chǔ)語法 11
2.3 Python變量類型 15
2.4 Python運(yùn)算符 20
2.4.1 算術(shù)運(yùn)算符 20
2.4.2 比較運(yùn)算符 22
2.4.3 賦值運(yùn)算符 23
2.4.4 按位運(yùn)算符 24
2.4.5 邏輯運(yùn)算符 25
2.4.6 成員運(yùn)算符 26
2.4.7 身份運(yùn)算符 27
2.4.8 運(yùn)算符優(yōu)先級 28
2.5 Python條件與循環(huán)語句 29
2.5.1 條件語句 29
2.5.2 循環(huán)語句 31
2.6 Python函數(shù) 38
2.7 Python模塊 43
2.8 Python 文件處理 46
2.9 Python異常 48
2.10 數(shù)據(jù)分析相關(guān)庫 50
2.10.1 NumPy 50
2.10.2 Matplotlib 51
2.10.3 PySpark 53
2.10.4 其他常用庫 54
2.11 習(xí)題 55
第3章 數(shù)據(jù)預(yù)處理 56
3.1 數(shù)據(jù)分析工作流程 56
3.2 數(shù)據(jù)預(yù)處理 58
3.2.1 數(shù)據(jù)集導(dǎo)入 59
3.2.2 數(shù)據(jù)概覽 60
3.2.3 數(shù)據(jù)清洗 61
3.2.4 類別變量轉(zhuǎn)換 66
3.2.5 數(shù)據(jù)分割 67
3.2.6 特征縮放 68
3.3 鳥瞰機(jī)器學(xué)習(xí) 71
3.4 習(xí)題 72
第4章 數(shù)據(jù)挖掘方法 74
4.1 分類分析 74
4.1.1 決策樹 75
4.1.2 支持向量機(jī) 75
4.1.3 分類算法的選擇 76
4.2 聚類分析 76
4.2.1 K均值算法 77
4.2.2 聚類算法和分類算法的區(qū)別 78
4.3 回歸分析 78
4.3.1 變量間的關(guān)系 79
4.3.2 回歸分析算法的分類和步驟 79
4.3.3 回歸分析算法的選擇 81
4.4 關(guān)聯(lián)分析 81
4.4.1 關(guān)聯(lián)規(guī)則 82
4.4.2 關(guān)聯(lián)規(guī)則的序列模式 82
4.5 時間序列分析 83
4.5.1 時間序列分析方法和步驟 83
4.5.2 時間序列的三種預(yù)測模式 85
4.6 異常檢測 85
4.7 推薦算法 86
4.8 習(xí)題 89
第5章 網(wǎng)絡(luò)輿情采集與熱點(diǎn)分析 90
5.1 網(wǎng)絡(luò)輿情概述 90
5.1.1 大數(shù)據(jù)網(wǎng)絡(luò)輿情背景 90
5.1.2 輿情處理過程 91
5.2 輿情數(shù)據(jù)采集 94
5.2.1 網(wǎng)絡(luò)輿情采集工具 95
5.2.2 網(wǎng)絡(luò)輿情數(shù)據(jù)爬取實(shí)例 100
5.3 實(shí)戰(zhàn):微博熱點(diǎn)話題聚類 104
5.4 習(xí)題 110
第6章 輿情研判之情感分類 112
6.1 情感分析介紹 112
6.1.1 情感分析分類 112
6.1.2 情感分析文本預(yù)處理 114
6.1.3 實(shí)戰(zhàn):中文文本處理練習(xí) 115
6.2 情感分類方法 118
6.2.1 基于詞典的情感分類 118
6.2.2 基于機(jī)器學(xué)習(xí)的情感分類 121
6.2.3 基于深度學(xué)習(xí)模型的情感分類 122
6.3 情感分類實(shí)戰(zhàn)演練 131
6.3.1 淘寶家電商品評論情感分類預(yù)測 131
6.3.2 客戶評論情感傾向預(yù)測 134
6.4 習(xí)題 140
第7章 用機(jī)器學(xué)習(xí)方法預(yù)測股價 142
7.1 股市數(shù)據(jù)分析價值 142
7.1.1 案例背景 142
7.1.2 案例價值 143
7.2 ARIMA模型 144
7.3 實(shí)戰(zhàn):基于SVM和ARIMA的股價預(yù)測 145
7.4 習(xí)題 156
第8章 用人工智能方法預(yù)測股價 157
8.1 神經(jīng)網(wǎng)絡(luò)預(yù)測方法 157
8.1.1 門控循環(huán)單元 158
8.1.2 VADER情感分析 158
8.2 實(shí)戰(zhàn):基于LSTM和GRU的股價預(yù)測 159
8.3 實(shí)戰(zhàn):股票市場新聞情感分析 165
8.4 習(xí)題 172
第9章 個人信用評分 173
9.1 個人信用評分概述 173
9.1.1 需求背景 174
9.1.2 國內(nèi)外發(fā)展?fàn)顩r 175
9.2 信用評分的技術(shù)與方法 176
9.2.1 信用評分的簡要?dú)v史 176
9.2.2 信用評分的主要模型與方法 176
9.3 信用評分卡模型 180
9.3.1 模型介紹 180
9.3.2 數(shù)據(jù)分箱 180
9.3.3 WOE值 182
9.3.4 IV值 183
9.3.5 邏輯回歸算法原理 185
9.3.6 模型評價指標(biāo) 186
9.3.7 建立信用評分卡 190
9.4 實(shí)戰(zhàn):信用評分卡 190
9.4.1 讀取數(shù)據(jù) 191
9.4.2 數(shù)據(jù)預(yù)處理 191
9.4.3 探索性分析 197
9.4.4 模型分析 204
9.4.5 建立信用評分卡 208
9.5 習(xí)題 211
第10章 個人信用等級評估 213
10.1 概述 213
10.2 個人信用等級評估方法 215
10.2.1 決策樹 215
10.2.2 隨機(jī)森林 221
10.2.3 XGBoost簡介 224
10.2.4 多重共線性 228
10.2.5 數(shù)據(jù)重采樣 229
10.3 實(shí)戰(zhàn):個人信用等級評估 232
10.3.1 導(dǎo)入相應(yīng)包并讀取數(shù)據(jù) 232
10.3.2 查看數(shù)據(jù)情況 234
10.3.3 數(shù)據(jù)預(yù)處理及相關(guān)函數(shù)構(gòu)建 241
10.3.4 模型訓(xùn)練 244
10.3.5 預(yù)測并生成結(jié)果 251
10.4 習(xí)題 253
第11章 企業(yè)信用評估 255
11.1 企業(yè)信用評估概述 255
11.2 企業(yè)信用評估的技術(shù)與方法 257
11.2.1 支持向量機(jī) 257
11.2.2 樸素貝葉斯 259
11.2.3