99在线热播精品国产,久久亚洲午夜视频,欧美亚洲自拍偷拍他拍综合

在本書中，你將學到：

·使用App Engine應用實現(xiàn)自動化定期數(shù)據(jù)攝取。

·在Google Data Studio中創(chuàng)建并生成數(shù)據(jù)儀表板。

·構建實時數(shù)據(jù)分析管道，實現(xiàn)流式數(shù)據(jù)分析。

·使用Google BigQuery實現(xiàn)可交互式數(shù)據(jù)探索。

·在Cloud Dataproc群集上創(chuàng)建貝葉斯模型。

·使用Spark構建邏輯回歸機器學習模型。

·使用Cloud Dataflow數(shù)據(jù)管道計算時間聚合特征。

·使用TensorFlow構建高性能預測模型。

·將你的模型部署為微服務，并且從批處理和實時數(shù)據(jù)管道中使用它。

前言

我目前在Google擔任的角色使我可以與很多領域的數(shù)據(jù)科學家和數(shù)據(jù)工程師共同工作，將數(shù)據(jù)處理和分析流程遷移到公有云上。對于很多工作來說，與在本地部署

上所做的都一樣，方法也相同，區(qū)別只是將環(huán)境換成了租用的計算資源。盡管如此，目光長遠的用戶依然會重新思考他們的系統(tǒng)設計，改變使用數(shù)據(jù)的方式，從而能夠更快地推動創(chuàng)新。

早在 2011 年，《哈佛商業(yè)評論》（Harvard Business Review）的一篇文章就提到，云計算最大的收益之一，是幫助組織和機構以前所未有的方式共同工作�，F(xiàn)在，這一觀點已得到廣泛認可。麻省理工學院2017年的一項調查發(fā)現(xiàn)，通過向公有云轉移，更多受訪者（45%）表示提高了敏捷性，而不是節(jié)約成本（34%）。

在本書中，我們將用示例向你展示這種全新、具有變革性，且更具協(xié)作性的數(shù)據(jù)科學實踐方法。通過本書，你將學習如何實現(xiàn)端到端的數(shù)據(jù)管道。首先，我們會以無服務器的方式攝取數(shù)據(jù)，然后介紹數(shù)據(jù)探索、儀表板、關系型數(shù)據(jù)庫、流數(shù)據(jù)，并最終展示如何訓練并運行一個機器學習模型。本書涵蓋了數(shù)據(jù)服務的所有方面，因為對于數(shù)據(jù)工程師來說，他們不僅要參與服務設計、開發(fā)統(tǒng)計和機器學習模型，還要掌握如何在大規(guī)模生產(chǎn)環(huán)境中實時部署和實施。

這本書適合誰

如果你使用計算機處理數(shù)據(jù)，那么這本書會適合你。本書針對的讀者可以是數(shù)據(jù)分析師、數(shù)據(jù)庫管理員、數(shù)據(jù)工程師、數(shù)據(jù)科學家，也可以是系統(tǒng)程序員。即使你現(xiàn)在的工作范圍比較有限（也許只進行數(shù)據(jù)分析或構建模型，或者只是DevOps），但只要你想進一步提升自己，那么就應該了解如何實現(xiàn)數(shù)據(jù)科學建模，以及如何在

生產(chǎn)系統(tǒng)下規(guī)模化實施。

Google 云計算平臺旨在讓你忽略基礎架構的存在。無論是 Google BigQuery、Cloud Dataflow、Cloud Pub/Sub，還是 Cloud ML引擎，所有這些受歡迎的數(shù)據(jù)服務都是無服務器且支持自動縮放的。你在 BigQuery 上提交的查詢會在成千上萬的節(jié)點上運行，然后返回處理結果，你也無需啟動群集或安裝任何軟件。同樣，當你在Cloud Dataflow 中提交數(shù)據(jù)管道，或是在 Cloud Machine Learning Engine 中提交機器學習任務時，你可以對數(shù)據(jù)進行大規(guī)模處理，并實現(xiàn)大規(guī)模模型訓練，且無需擔心集群管理或故障恢復。Cloud Pub/Sub 是一項全球消息服務，該服務可以在無需人工干預的情況下自動對訂閱者和發(fā)布者的吞吐量和數(shù)量進行縮放。即使是開源解決方案（如 Apache Spark），Google云計算平臺也可以輕松滿足你的要求。你可以將數(shù)據(jù)保存在 Google Cloud Storage上，而不是保存在 HDFS中，然后專門針對你的 Spark任務啟動一個群集即可。當任務執(zhí)行完成，你可以毫無顧慮地刪除該群集。由于這些群集的基礎架構專門針對特定任務，因此你無需擔心硬件會過度配置，也不必擔心性能不足等問題。另外，在 Google 云計算平臺上，無論是存儲中還是傳輸中的數(shù)據(jù) 都會被加密，以確保數(shù)據(jù)安全。這種能夠讓數(shù)據(jù)科學家從基礎設施管理工作中得以解放的工作方式，無疑是令人難以置信的。

在 Google云計算平臺上執(zhí)行數(shù)據(jù)任務時，我們之所以能忘記虛擬機和群集的原因是云計算平臺上的網(wǎng)絡連接性能。Google云計算平臺數(shù)據(jù)中心內的網(wǎng)絡單向帶寬為 1 PBps，因此可以持續(xù)、高速地讀取 Cloud Storage 中的數(shù)據(jù)。這就意味著你不需要像傳統(tǒng)的 MapReduce作業(yè)那樣分割數(shù)據(jù)。相應的，Google云計算平臺可以根據(jù)需要將數(shù)據(jù)移動到新的計算節(jié)點，從而實現(xiàn)對計算任務的自動伸縮。因此，在 Google 云計算平臺上開展數(shù)據(jù)科學工作時，你可以從群集管理中解放出來。

這些自動縮放、全面托管的云服務使大規(guī)模實施數(shù)據(jù)科學模型變得更加容易，這就是數(shù)據(jù)科學家不再需要將模型交給數(shù)據(jù)工程師的原因。相反，他們可以自己編寫數(shù)據(jù)科學任務、提交到云端，然后這些任務就能以自動伸縮的方式自動執(zhí)行。這種方式同時也讓數(shù)據(jù)科學軟件包變得越來越簡單。因此，對于工程師來說，利用唾手可得的數(shù)據(jù)，結合預先準備好的模型來實現(xiàn)并運行自己的原始（通常已經(jīng)是非常高質量的）模型已經(jīng)變得非常容易。通過精心設計的軟件包和易于使用的API，你無需了解數(shù)據(jù)科學算法的深奧細節(jié)，所有你需要知道的，只有每種算法的作用以及如何將這些算法連接起來解決實際問題。通過對數(shù)據(jù)科學和數(shù)據(jù)工程進行這種融合，你就可以將自己的翅膀伸展到目前角色之外了。

在閱讀本書時，我強烈建議你嘗試使用示例代碼，而不是簡單地閱讀文字內容。本書提供了用于構建端到端管道的完整代碼，你可以在 GitHub（https://github.com/ GoogleCloudPlatform/data-science-on-gcp）上獲取。你可以創(chuàng)建一個 Google云計算平臺項目，在閱讀完每一章之后，嘗試參考示例代碼和每個文件夾下的說明文件 README.md 注 1 來重復我們在書中所做的操作。

本書內容約定

本書使用以下排版約定：

斜體（italic）表示新術語、網(wǎng)址、電子郵件地址、文件名和文件擴展名等。

等寬字體（constant width）表示程序代碼以及段落內用于引用的代碼內容，如變量或函數(shù)名、數(shù)據(jù)庫、數(shù)

據(jù)類型、環(huán)境變量、聲明語句和關鍵字等。

等寬粗體（constant width bold）

表示應由用戶逐字輸入的命令或其他文本。

等寬斜體（constant width italic）表示應由用戶提供的值或根據(jù)上下文確定的值而替換的文本。

使用代碼示例更多補充資料（包括示例代碼、練習等）可以從這里下載https://github.com/ GoogleCloudPlatform/data-science-on-gcp。

本書的目的是幫助你完成工作任務。通常，對于書中提供的示例代碼，你可以直接在自己的程序和文檔中使用，無需聯(lián)系我們獲取授權，除非你要再次分發(fā)大量示例代碼。舉例來說，如果你在編寫程序時使用了本書提供的一部分代碼，不用擔心授權問題；但如果你要以CD-ROM等方式銷售或分發(fā)O’Reilly系列圖書中的示例代碼，則需要獲得我們的授權；在解答問題時如需引用本書提供的代碼，你不需要取得授權；但如果你在自己的產(chǎn)品文檔中使用本書的任意代碼，則必須獲得授權。

如果你認為在使用示例代碼時超出了合理范圍或上述許可范圍，請隨時與我們聯(lián)系：

permissions@oreilly.com。

聯(lián)系我們

任何有關本書的意見或疑問，請按照以下地址聯(lián)系出版社。

美國：

O’Reilly Media, Inc. 1005 Gravenstein Highway North Sebastopol, CA 95472

中國：

北京市西城區(qū)西直門南大街 2 號成銘大廈 C 座 807 室（100035）奧萊利技術咨詢（北京）有限公司

我們?yōu)楸緯峁┝藢ｉT的網(wǎng)頁，用于發(fā)布內容勘誤、范例和其他相關信息。你可以通過這里訪問 http://bit.ly/datasci_GCP。

有關本書的任何評論或技術問題，請發(fā)送電子郵件至 bookquestions@oreilly.com。

了解與本書相關的更多信息、課程、會議和新聞，請訪問我們的網(wǎng)站http://www. oreilly.com。

我們的 Facebook：http://facebook.com/oreilly。

我們的 Twitter：http://twitter.com/oreillymedia。

我們的 YouTube： http://www.youtube.com/oreillymedia。

致謝

大約一年前，我在 Google 工作時，我曾經(jīng)簡單地使用公有云作為租賃基礎設施的一種方式，配置自己的虛擬機，并在虛擬機上安裝我要用的軟件，然后跟平時的工作流程一樣運行我的數(shù)據(jù)處理任務。幸好，我意識到Google的大數(shù)據(jù)技術棧與眾不同，所以我開始學習如何充分利用 Google 云計算平臺提供的數(shù)據(jù)和機器學習工具。

對我來說，最好的學習方法是編寫代碼，我也的確在這么做。在一次 Python小組聚會上，大家讓我講一講 Google 云計算平臺，當時我用自己的代碼做了展示和介紹。后來的事實證明，在數(shù)據(jù)科學領域，在對比不同解決方法時，對聽眾來說，使用代碼來展示如何構建端到端系統(tǒng)是頗具教育意義的。后來，我就把那次演講的主要內容寫成本書的出版計劃，并發(fā)給了 O’Reilly Media。

當然，本書的內容會比 60 分鐘的代碼演示深入許多。想象這樣的場景，有一天在你上班時收到了一封來自公司新員工發(fā)來的電子郵件，他在你們公司工作的時間還不到 6 個月，但不知何故，他決定將你負責構建的一套復雜的系統(tǒng)平臺寫成一本書，并尋求你的幫助。他和你既不在同一個團隊，幫助他也不屬于你的工作職責，你們

甚至不在同一個辦公室工作。你會如何回應？你愿意嗎？

Google之所以能成為理想的工作場所，都是因為這里的同事。這也是 Google公司文化的一個證明，這里的許多人，無論是工程師、技術主管、產(chǎn)品經(jīng)理、解決方案

架構師、數(shù)據(jù)科學家、法律顧問，還是總監(jiān)，他們都可以跨越不同團隊，愉快地將自己的專業(yè)知識分享給他們從未見過的人（實際上我也從未見過其中很多人）。這本書也因為他們的貢獻而變得更好，讓本書受益無窮，這些人包括（按字母順序排列）William Brockman、Mike Dahlin、Tony Diloreto、Bob Evans、Roland Hess、 Brett Hesterberg、Dennis Huo、Chad Jennings、Puneith Kaul、Dinesh Kulkarni、 Manish Kurse、Reuven Lax、Jonathan Liu、James Malone、Dave Oleson、Mosha Pasumansky、Kevin Peterson、Olivia Puerta、Reza Rokni、Karn Seth、Sergei Sokolenko 及 Amy Unruh。同時，我還要特別感謝 Mike Dahlin、Manish Kurse和 Olivia Puerta 對本書每章內容的精心校對。在本書預覽時，我收到了來自 Anthonios Partheniou和 David Schwantner的錯誤報告，這些報告很有價值。不用多說，任何遺留的錯誤都由我負責。

在寫作本書時，我曾一度陷入困境。有時候，遇到的是技術問題，對此我要感謝（按字母順序排列）Ahmet Altay、Eli Bixby、Ben Chambers、Slava Chernyak、 Marian Dvorsky、Robbie Haertel、Felipe Hoffa、Amir Hormati、Qi-ming (Bradley) Jiang、Kenneth Knowles、Nikhil Kothari 和 Chris Meyers 為我指引了前進方向。而在有些時候，我需要搞清楚公司的政策或需要與正確的團隊建立聯(lián)系，獲取所需的文檔或統(tǒng)計數(shù)據(jù)。對此，我感謝那些在關鍵時刻為我提供幫助的同事，如果沒有他們，本書會遜色很多（也是按字母順序排列）：Louise Byrne、Apurva Desai、 Rochana Golani、Fausto Ibarra、Jason Martin、Neal Mueller、Philippe Poutonnet、 Brad Svee、Jordan Tigani、William Vampenebe和Miles Ward。謝謝大家的幫助和鼓勵。

同時，我還要感謝 O’Reilly 團隊的 Marie Beaugureau、Kristen Brown、Ben Lorica、 Tim McGovern、Rachel Roumeliotis 和 Heather Scherer 對我的信任，從而讓本書從草稿到出版沒有遇到問題。

最后，也是最重要的，我要感謝 Abirami、Sidharth和 Sarada的理解和耐心，當我專注于寫作和編碼時，他們亦是如此。是你們，讓這一切變得有價值。

你還可能感興趣

我要評論