本書的編寫目的是向讀者介紹數(shù)據(jù)清洗技術(shù)的基本概念與應(yīng)用。全書共10章,分別為數(shù)據(jù)清洗概述、文件格式、Web數(shù)據(jù)抽取、網(wǎng)絡(luò)爬蟲、Kettle數(shù)據(jù)清洗、數(shù)據(jù)遷移、文本數(shù)據(jù)處理、Python數(shù)據(jù)清洗、DataCleaner數(shù)據(jù)分析與清洗以及數(shù)據(jù)清洗綜合實(shí)訓(xùn)。本書將理論與實(shí)踐操作相結(jié)合,通過大量的案例幫助讀者快速了解和應(yīng)用數(shù)據(jù)
Kettle是一款國外開源的ETL工具,純Java編寫,無須安裝,功能完備,數(shù)據(jù)抽取高效穩(wěn)定。本書介紹并演示如何用Kettle完成Hadoop數(shù)據(jù)倉庫上的ETL過程,所有的描繪場景與實(shí)驗(yàn)環(huán)境都是基于Linux操作系統(tǒng)的虛擬機(jī)。全書共分10章,主要內(nèi)容包括ETL與Kettle的基本概念、Kettle安裝與配置、Kettl
ApacheFlink是一個(gè)框架和分布式處理引擎,用于對無界和有界數(shù)據(jù)流進(jìn)行有狀態(tài)的計(jì)算,廣泛應(yīng)用于大數(shù)據(jù)相關(guān)的實(shí)際業(yè)務(wù)場景中。本書是一本從零開始講解Flink的入門教材,學(xué)習(xí)本書需要有Java編程基礎(chǔ)。本書共分10章,內(nèi)容包括Flink開發(fā)環(huán)境搭建、Flink架構(gòu)和原理、時(shí)間和窗口、狀態(tài)管理和容錯(cuò)機(jī)制、數(shù)據(jù)類型與序列
本書以流體為研究對象,將流動過程原理與流動系統(tǒng)管路和設(shè)備有機(jī)結(jié)合,系統(tǒng)闡述了流程性工業(yè)的特點(diǎn)、流體的主要性質(zhì)、流體靜力學(xué)和動力學(xué)基本方程等基本理論,流體流動現(xiàn)象及流動參量的主要測量方法,流動系統(tǒng)的管路組成、管路流動阻力的計(jì)算及管路特性分析與計(jì)算。重點(diǎn)介紹了以離心泵為代表的流體輸送用泵及其選型方法。同時(shí),結(jié)合工程教育專業(yè)
本書為數(shù)據(jù)科學(xué)領(lǐng)域的技術(shù)人員提供了一套詳盡的模式,可用于任何基于機(jī)器學(xué)習(xí)的數(shù)據(jù)分析任務(wù)。通過學(xué)習(xí)這些方法,你至少能找到一種更為有效的模式,并且獲得優(yōu)于傳統(tǒng)分析方法的整體系統(tǒng)行為。“元”分析可謂關(guān)于“分析”的“分析”,為了理解這種混合方法或元方法,書中必不可少地詳述了常規(guī)分析方法的技術(shù)細(xì)節(jié),在此基礎(chǔ)上幫助讀者理解并應(yīng)用元
本書是為所有熱愛大數(shù)據(jù)、打算從事大數(shù)據(jù)相關(guān)工作的讀者編寫的,適合有Java編程基礎(chǔ)的學(xué)習(xí)者參考使用。本書全面介紹了大數(shù)據(jù)技術(shù)生態(tài)圈,更在此基礎(chǔ)上全景展現(xiàn)了Hadoop大數(shù)據(jù)分布式系統(tǒng)集群平臺的搭建、大數(shù)據(jù)分布式文件系統(tǒng)HDFS、大數(shù)據(jù)分布式并行計(jì)算框架MapReduce、Hadoop大數(shù)據(jù)倉庫工具Hive和海量日志采集
大數(shù)據(jù)存儲與管理
本書通過兩個(gè)基本項(xiàng)目介紹了Scala語言的基本語法、函數(shù)式編程、高階函數(shù)、模式匹配等相關(guān)知識和技術(shù);通過12個(gè)實(shí)訓(xùn)項(xiàng)目,介紹了Spark的技術(shù)棧,內(nèi)容涵蓋SparkCore、SparkSQL、Spark結(jié)構(gòu)化流和Spark機(jī)器學(xué)習(xí)庫等相關(guān)模塊和技術(shù)。每個(gè)項(xiàng)目相對獨(dú)立、完整,分為若干個(gè)任務(wù),圍繞具體的任務(wù)來介紹相關(guān)的理論
本書系統(tǒng)地介紹了數(shù)據(jù)科學(xué)基礎(chǔ)理論、大數(shù)據(jù)理論、大數(shù)據(jù)技術(shù)及應(yīng)用的相關(guān)內(nèi)容,具體內(nèi)容包括數(shù)據(jù)科學(xué)概述、大數(shù)據(jù)概述、大數(shù)據(jù)與云計(jì)算、大數(shù)據(jù)的采集與預(yù)處理、大數(shù)據(jù)的存儲與處理、大數(shù)據(jù)分析方法、大數(shù)據(jù)分析工具、大數(shù)據(jù)可視化、大數(shù)據(jù)安全、大數(shù)據(jù)的應(yīng)用等。本書針對高等院校數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)等專業(yè)開設(shè)的相關(guān)課程編寫,既可作為高等院
本書從科研、教學(xué)和工程實(shí)際應(yīng)用出發(fā),理論聯(lián)系實(shí)際,全面系統(tǒng)地講述了現(xiàn)場總線、工業(yè)以太網(wǎng)及其應(yīng)用系統(tǒng)設(shè)計(jì)。本書詳細(xì)講述了由AdestoTechnologies公司推出并在物聯(lián)網(wǎng)領(lǐng)域得到廣泛應(yīng)用的LonWorks嵌入式智能控制網(wǎng)絡(luò);同時(shí)講述了CANFD高速現(xiàn)場總線及在運(yùn)動控制領(lǐng)域廣泛應(yīng)用的EtherCAT工業(yè)以太網(wǎng)。全書共