《大數(shù)據(jù)處理技術與應用》對大數(shù)據(jù)的概念、挖掘、應用進行了系統(tǒng)的介紹,并且配備了相關的案例以及實際操作過程。這種理論與實踐相結合的方式能夠極大地幫助讀者掌握大數(shù)據(jù)領域的相關理論知識。
《大數(shù)據(jù)處理技術與應用》共分為10章,主要內(nèi)容包含互聯(lián)網(wǎng)大數(shù)據(jù)概述、互聯(lián)網(wǎng)大數(shù)據(jù)采集與獲取實戰(zhàn)要領、做好數(shù)據(jù)預處理的實戰(zhàn)方法、數(shù)據(jù)相關性分析與回歸分析的黃金法則、如何利用關聯(lián)規(guī)則進行大數(shù)據(jù)挖掘、大數(shù)據(jù)分析中的四種常見分類算法、大數(shù)據(jù)分析中的四種常見聚類算法,以及自組織神經(jīng)網(wǎng)絡算法與人工神經(jīng)網(wǎng)絡算法、互聯(lián)網(wǎng)大數(shù)據(jù)分析應用——產(chǎn)品個性化推薦系統(tǒng)、大數(shù)據(jù)分析在具體行業(yè)中的應用等。
《大數(shù)據(jù)處理技術與應用》知識體系完善且適用,可作為高等院校大數(shù)據(jù)、人工智能等相關專業(yè)課程的教材,也可作為從事數(shù)據(jù)挖掘、機器學習工作以及其他相關工程技術工作人員的參考書。
這是一個互聯(lián)網(wǎng)技術及應用高速發(fā)展的時代,那些隨手可得的互聯(lián)網(wǎng)應用深刻影響著社會經(jīng)濟的發(fā)展,切實改變了人們生活的方方面面,互聯(lián)網(wǎng)已然成為人們不可或缺的信息工具。與此同時,基于互聯(lián)網(wǎng)技術的飛速發(fā)展,網(wǎng)絡數(shù)字化生活形態(tài)的形成,使得互聯(lián)網(wǎng)數(shù)據(jù)逐漸累積,因此大數(shù)據(jù)就成為互聯(lián)網(wǎng)時代的產(chǎn)物!酢酢酢跫瘓F創(chuàng)始人馬云在演講中就提到,未來的時代將不是IT時代,而是DT的時代。DT就是Data Technology(數(shù)據(jù)技術),說明大數(shù)據(jù)對于□□□□集團來說舉足輕重。
有媒體稱:數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟資產(chǎn)類別,就像黃金和貨幣一樣!鑒于大數(shù)據(jù)巨大的商業(yè)價值,大數(shù)據(jù)專家在企業(yè)非常受重視。大數(shù)據(jù)處理的相關知識、技術及其應用與社會經(jīng)濟各個領域的融合越來越深入,相關領域的專業(yè)技術人員迫切需要建立完整的互聯(lián)網(wǎng)大數(shù)據(jù)處理與應用的知識體系,以適應大數(shù)據(jù)發(fā)展趨勢的要求。
本書內(nèi)容以大數(shù)據(jù)理論基礎、大數(shù)據(jù)處理的實踐技術方法和大數(shù)據(jù)技術的具體應用為主線。本書內(nèi)容結構清晰,案例多樣且時效性強,致力于通過理論及案例的講解幫助讀者掌握大數(shù)據(jù)處理及應用等方面的實戰(zhàn)方法,以達到“真正掌握互聯(lián)網(wǎng)大數(shù)據(jù)處理及應用實戰(zhàn)方法”的效果。
本書由湖南應用技術學院信息工程學院彭進香、張莉撰寫,作者團隊對互聯(lián)網(wǎng)企業(yè)從事數(shù)據(jù)挖掘有較深的研究,在大數(shù)據(jù)挖掘、分析及實戰(zhàn)場景應用方面具有深厚經(jīng)驗。本書支持項目為湖南應用技術學院“十三五”校級首批重點建設學科:計算機應用技術,學科代碼為081203,項目編號為XKJSHY2017-3。在本書寫作過程中,作者還借鑒了目前大數(shù)據(jù)相關領域的參考資料、文獻及重要研究成果與案例,在此向相關文獻資料的作者一并表示感謝!
由于作者水平有限,書中難免有疏漏或錯誤之處,敬請廣大讀者批評指正。
章 互聯(lián)網(wǎng)大數(shù)據(jù)概述
1.1 認識大數(shù)據(jù)
1.1.1 大數(shù)據(jù)的定義
1.1.2 大數(shù)據(jù)的特征
1.1.3 未來十年大數(shù)據(jù)分析的發(fā)展趨勢
1.2 常用大數(shù)據(jù)處理、分析工具介紹
1.2.1 大數(shù)據(jù)的存儲工具
1.2.2 大數(shù)據(jù)的軟件開發(fā)工具
1.2.3 大數(shù)據(jù)的挖掘工具
1.2.4 大數(shù)據(jù)的可視化工具
小結
第2章 互聯(lián)網(wǎng)大數(shù)據(jù)采集與獲取實戰(zhàn)要領
2.1 互聯(lián)網(wǎng)大數(shù)據(jù)采集與處理技術概述
2.1.1 數(shù)據(jù)采集的基本流程與關鍵技術
2.1.2 數(shù)據(jù)處理的基本流程與關鍵技術
2.2 Web頁面數(shù)據(jù)獲取實戰(zhàn)方法
2.2.1 Jsoup技術與頁面數(shù)據(jù)獲取
2.2.2 應對特定領域的Deep Web數(shù)據(jù)獲取技術
2.3 利用爬蟲抓取互聯(lián)網(wǎng)大數(shù)據(jù)實戰(zhàn)技巧
2.3.1 Python爬蟲工作原理
2.3.2 利用HtmlParser實現(xiàn)網(wǎng)頁鏈接的提取實戰(zhàn)
小結
第3章 做好數(shù)據(jù)預處理的實戰(zhàn)方法
3.1 數(shù)據(jù)預處理概述
3.1.1 數(shù)據(jù)預處理的目的
3.1.2 數(shù)據(jù)預處理的方法
3.2 從問題分析到數(shù)據(jù)清洗實戰(zhàn)策略
3.2.1 數(shù)據(jù)清洗的步驟
3.2.2 缺失值的識別與處理技巧
3.2.3 異常值的判斷、檢驗與處理
3.3 數(shù)據(jù)集成與數(shù)據(jù)轉(zhuǎn)換實戰(zhàn)方法
3.3.1 數(shù)據(jù)集成常見方法
3.3.2 數(shù)據(jù)轉(zhuǎn)換過程中的離散化
3.4 數(shù)據(jù)的特征選擇
3.4.1 常用數(shù)據(jù)特征選擇方法
3.4.2 Relief算法與費希爾判別法的應用
3.5 數(shù)據(jù)預處理實戰(zhàn)案例分析
小結
第4章 數(shù)據(jù)相關性分析與回歸分析的黃金法則
4.1 什么是數(shù)據(jù)集
4.1.1 數(shù)據(jù)集的概念與常見類型
4.1.2 高效進行數(shù)據(jù)度量的實戰(zhàn)技巧
4.2 做好數(shù)據(jù)相關性分析
4.2.1 進行數(shù)據(jù)相關性分析的作用
4.2.2 常用的數(shù)據(jù)相關分析方法
4.3 做好數(shù)據(jù)回歸分析實戰(zhàn)要領
4.3.1 數(shù)據(jù)回歸分析方法概述
4.3.2 數(shù)據(jù)回歸分析所能解決的實際問題
小結
第5章 如何利用關聯(lián)規(guī)則進行大數(shù)據(jù)挖掘
5.1 關聯(lián)規(guī)則
5.1.1 什么是關聯(lián)規(guī)則
5.1.2 關聯(lián)規(guī)則挖掘的應用場景
5.2 關聯(lián)規(guī)則挖掘?qū)崙?zhàn)流程分析
5.2.1 關聯(lián)規(guī)則常見分類與四個基本屬性
5.2.2 快速找出□大高頻項目組的實戰(zhàn)技巧
5.3 關聯(lián)規(guī)則發(fā)掘中重要的Apriori算法
5.3.1 Apriori算法的基本原理
5.3.2 Apriori算法運行的基本流程
5.4 針對Apriori算法缺點的其他關聯(lián)規(guī)則挖掘算法
5.4.1 Apriori算法的兩大缺點
5.4.2 基于劃分規(guī)則的算法
5.4.3 FP-Growth算法
小結
第6章 大數(shù)據(jù)分析中的四種常見分類算法
6.1 分類算法概述
6.1.1 有關分類算法的基本概念
6.1.2 分類算法的常見應用場景
6.2 KNN算法
6.2.1 KNN算法的工作原理與特點
6.2.2 快速找到□優(yōu)k值的實用策略
6.3 決策樹與隨機森林算法
6.3.1 決策樹算法
6.3.2 Bagging與Boosting的區(qū)別
6.3.3 隨機森林分類算法的優(yōu)勢與應用場景
6.4 樸素貝葉斯分類算法
6.4.1 樸素貝葉斯分類算法運行原理分析
6.4.2 貝葉斯網(wǎng)絡
6.4.3 貝葉斯決策理論
6.5 支持向量機
6.5.1 支持向量機的基本思想與特點
6.5.2 □優(yōu)分類面和廣義□優(yōu)分類面
6.5.3 非線性支持向量機與核函數(shù)
小結
第7章 大數(shù)據(jù)分析中的四種常見聚類算法
7.1 大數(shù)據(jù)分析聚類算法概述
7.1.1 聚類分析的相關概念及應用場景
7.1.2 聚類算法運行基礎:簇與距離度量
……
第8章 自組織神經(jīng)網(wǎng)絡算法與人工神經(jīng)網(wǎng)絡算法
第9章 互聯(lián)網(wǎng)大數(shù)據(jù)分析應用產(chǎn)品個性化推薦系統(tǒng)
□□0章 大數(shù)據(jù)分析在具體行業(yè)中的應用
參考文獻