在傳統(tǒng)的數據處理流程中,總是先收集數據,然后將數據放到DB中。當人們需要的時候通過DB對數據做query,得到答案或進行相關的處理。這樣看起來雖然非常合理,但是結果卻非常的緊湊,尤其是在一些實時搜索應用環(huán)境中的某些具體問題,類似于MapReduce方式的離線處理并不能很好地解決問題。這就引出了一種新的數據計算結構---流計算方式。它可以很好地對大規(guī)模流動數據在不斷變化的運動過程中實時地進行分析,捕捉到可能有用的信息,并把結果發(fā)送到下一計算節(jié)點。本書講解流計算原理。
如今,流式數據是大數據中的一個大問題。 隨著越來越多的企業(yè)試圖掌控遍布全球的無限海量數據集,流式系統(tǒng)終于到了足以被主流接納的成熟度。通過這本實用指南,數據工程師、數據科學家和開發(fā)人員將學習到如何以概念化和無關于平臺的方式處理流式數據;趯yler Akidau的熱門博文《Streaming 101》和《Streaming 102》的拓展,本書將帶你從入門到細致入微地理解實時數據流處理的what、where、when和how。你還將與合著者Slava Chernyak和Reuven Lax一起深入了解水印和exactly-once處理。
你將學習到:如何比較流式和批量數據處理模式健全的亂序數據處理背后的核心原理和概念水印如何在無限數據集中跟蹤進度和完整性exactly-once數據處理技術如何確保正確性流和表的概念如何構成批量和流式數據處理的基礎用現實世界的例子演示強大的持久狀態(tài)機制背后的實用動機時變關系(time-varying relations)如何將流處理和熟悉的SQL及關系代數世界聯系起來
Tyler Akidau是Google的高級軟件工程師,擔任著Data Processing Languages & Systems小組技術負責人的職務。他也是Apache Beam PMC的創(chuàng)始成員。
Slava Chernyak是Google的高級軟件工程師。他花了六年時間研究Google內部的大規(guī)模流式數據處理系統(tǒng)。
Reuven Lax是Google的高級軟件工程師,在過去十年間一直在幫助制定Google的數據處理和分析策略,同時他也是Apache Beam PMC的成員。