全書共13章,分兩大部分進(jìn)行全面而系統(tǒng)的介紹,
第一部分從騰訊大數(shù)據(jù)平臺(tái)的發(fā)展歷程和總體架構(gòu)切入,深入剖析了各項(xiàng)技術(shù)原理,闡述了實(shí)戰(zhàn)過程中的挑戰(zhàn)和自研核心技術(shù)的設(shè)計(jì)思想,覆蓋了大數(shù)據(jù)接入、計(jì)算、存儲(chǔ)、分析、調(diào)度等大量技術(shù)組件。
第二部分主要介紹了騰訊在數(shù)據(jù)治理、數(shù)據(jù)應(yīng)用、機(jī)器學(xué)習(xí)和平臺(tái)運(yùn)營(yíng)方面的建設(shè)經(jīng)驗(yàn),并對(duì)騰訊大數(shù)據(jù)產(chǎn)品及其在內(nèi)外部場(chǎng)景的實(shí)踐落地進(jìn)行了解讀, 書中列舉的大量實(shí)踐案例對(duì)廣大讀者都極具參考價(jià)值和借鑒意義。
(1)騰訊官方出品!騰訊大數(shù)據(jù)構(gòu)建之道首次對(duì)外披露!騰訊大數(shù)據(jù)平臺(tái)十年磨一劍,踐行科技向善落地方案。
(2)本書由騰訊數(shù)據(jù)平臺(tái)部組織,騰訊公司副總裁蔣杰領(lǐng)銜撰寫,首次對(duì)外詳細(xì)闡述了騰訊大數(shù)據(jù)平臺(tái)系統(tǒng)架構(gòu),以及多年來平臺(tái)建設(shè)的思考與沉淀。
騰訊作為一家以互聯(lián)網(wǎng)為基礎(chǔ)的科技與文化公司,其互聯(lián)網(wǎng)業(yè)務(wù)與億萬(wàn)網(wǎng)民的日常生活息息相關(guān),從社交平臺(tái)出發(fā),已拓展至娛樂、金融、資訊、工具、流量平臺(tái)等多個(gè)業(yè)務(wù)板塊。2019年,馬化騰公布騰訊公司的新愿景為用戶為本,科技向善,目前已經(jīng)踐行多個(gè)科技向善落地方案,例如與政府合作的AI尋人、AI醫(yī)學(xué)影像產(chǎn)品騰訊覓影,以及培育高產(chǎn)量AI黃瓜等項(xiàng)目,而這些項(xiàng)目的背后無不是以騰訊大數(shù)據(jù)作為底層支撐,通過AI賦能創(chuàng)造可以為社會(huì)帶來實(shí)際價(jià)值的產(chǎn)品。
騰訊數(shù)據(jù)人每天不得不面對(duì)海量的數(shù)據(jù)處理需求,例如用戶每天在微信朋友圈和QQ空間上傳的圖片超過10億張,騰訊視頻每天播放量超過20億次,除夕當(dāng)天紅包支付超過25億筆,每天移動(dòng)支付超過5億筆,這些數(shù)據(jù)規(guī)模在國(guó)內(nèi)均居行業(yè)前列。
伴隨著業(yè)務(wù)的迅猛發(fā)展,騰訊大數(shù)據(jù)平臺(tái)十年磨一劍,已經(jīng)初步搭建完成了數(shù)據(jù)采集、存儲(chǔ)、計(jì)算、應(yīng)用、運(yùn)維、治理等一整套大數(shù)據(jù)業(yè)務(wù)處理平臺(tái)。本書正是在此背景下應(yīng)運(yùn)而生的,首次對(duì)外詳細(xì)闡述了騰訊大數(shù)據(jù)平臺(tái)系統(tǒng)架構(gòu),以及多年來平臺(tái)建設(shè)的思考與沉淀。
本書內(nèi)容總體分成兩大部分,第一部分主要講述騰訊大數(shù)據(jù)平臺(tái)的技術(shù)體系,第二部分主要講述騰訊大數(shù)據(jù)通過騰訊云對(duì)外開放的一系列產(chǎn)品。主要包括:
一、騰訊大數(shù)據(jù)的起源、技術(shù)理念及發(fā)展歷程:重點(diǎn)講述騰訊大數(shù)據(jù)從無到有的故事、開源路線選擇的思考以及三代大數(shù)據(jù)平臺(tái)架構(gòu)的技術(shù)演進(jìn)。
二、數(shù)據(jù)實(shí)時(shí)采集平臺(tái):重點(diǎn)講述騰訊自主研發(fā)的高并發(fā)消息中間件,該平臺(tái)在騰訊內(nèi)部使用超過十年,每天接入數(shù)十萬(wàn)億級(jí)的消息。
三、分布式存儲(chǔ)平臺(tái):講述廣受歡迎的HDFS、Ceph、HBase等開源組件,并重點(diǎn)闡述下一代分布式存儲(chǔ)平臺(tái)Ozone。
四、分布式計(jì)算平臺(tái):重點(diǎn)講述騰訊大數(shù)據(jù)歷經(jīng)十年發(fā)展的變遷史,從Hadoop到Spark,從Storm到Flink的發(fā)展史,同時(shí)也講述任務(wù)調(diào)度系統(tǒng)及多種計(jì)算分析引擎。
五、資源調(diào)度平臺(tái):重點(diǎn)講述如何實(shí)現(xiàn)十萬(wàn)節(jié)點(diǎn)級(jí)別的大規(guī)模集群的調(diào)度管理,闡述CPU、GPU、內(nèi)存、磁盤、網(wǎng)絡(luò)等資源調(diào)度的優(yōu)化。
六、數(shù)據(jù)治理體系:涉及元數(shù)據(jù)、數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)安全等內(nèi)容。
七、機(jī)器學(xué)習(xí)平臺(tái):介紹騰訊大數(shù)據(jù)自主研發(fā)的高性能分布式機(jī)器學(xué)習(xí)平臺(tái)Angel,這是國(guó)內(nèi)首個(gè)在全球范圍的頂級(jí)開源社區(qū)畢業(yè)的機(jī)器學(xué)習(xí)平臺(tái)。
八、數(shù)據(jù)內(nèi)容挖掘:主要講述對(duì)數(shù)據(jù)價(jià)值的挖掘、以用戶畫像為核心的數(shù)據(jù)內(nèi)容的挖掘。
九、大數(shù)據(jù)平臺(tái)運(yùn)營(yíng):大數(shù)據(jù)平臺(tái)的核心競(jìng)爭(zhēng)力很大一部分來自平臺(tái)的運(yùn)維與運(yùn)營(yíng),騰訊大數(shù)據(jù)平臺(tái)的機(jī)器節(jié)點(diǎn)規(guī)模超過十萬(wàn)臺(tái),但騰訊大數(shù)據(jù)運(yùn)維團(tuán)隊(duì)只有二三十人,這里主要講述運(yùn)維團(tuán)隊(duì)經(jīng)歷的方方面面。
十、對(duì)外開放的騰訊大數(shù)據(jù)能力:講述騰訊大數(shù)據(jù)套件TBDS、一站式機(jī)器學(xué)習(xí)平臺(tái)智能鈦TI,也講述每天推送量達(dá)到數(shù)百億的移動(dòng)推送平臺(tái),重點(diǎn)披露承載了騰訊大數(shù)據(jù)超過500萬(wàn)核的底層算力平臺(tái)的技術(shù)實(shí)踐細(xì)節(jié),還有智能客服機(jī)器人、數(shù)據(jù)可視化產(chǎn)品等。
本書由騰訊數(shù)據(jù)平臺(tái)部組織編寫,詳盡地記錄了騰訊大數(shù)據(jù)技術(shù)發(fā)展與演進(jìn)各個(gè)階段所使用的技術(shù),也記錄了騰訊大數(shù)據(jù)團(tuán)隊(duì)經(jīng)歷過的各種考驗(yàn),希望可以給各位同行及有志于從事大數(shù)據(jù)行業(yè)的朋友一些啟發(fā)與借鑒。
核心團(tuán)隊(duì)
騰訊數(shù)據(jù)平臺(tái)部致力于為騰訊集團(tuán)旗下業(yè)務(wù)提供專業(yè)、可靠的大數(shù)據(jù)平臺(tái)及機(jī)器學(xué)習(xí)平臺(tái)服務(wù),并依托騰訊云將大數(shù)據(jù)與AI能力對(duì)外輸出。團(tuán)隊(duì)專注于大數(shù)據(jù)、云原生、機(jī)器學(xué)習(xí)、圖計(jì)算、AI視覺和推薦技術(shù)等核心技術(shù),并在世界級(jí)比賽屢獲獎(jiǎng)項(xiàng)。同時(shí),團(tuán)隊(duì)全面擁抱開源并持續(xù)貢獻(xiàn)社區(qū),自主研發(fā)的分布式機(jī)器學(xué)習(xí)平臺(tái)Angel和大數(shù)據(jù)集成平臺(tái)InLong分別從Linux和Apache頂級(jí)項(xiàng)目畢業(yè),具有世界級(jí)的技術(shù)影響力。
核心作者
蔣杰,北京大學(xué)博士,騰訊公司副總裁,中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟(AIIA)副理事長(zhǎng),中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)大數(shù)據(jù)專家委員會(huì)委員。
2012年起在騰訊負(fù)責(zé)大數(shù)據(jù)平臺(tái)建設(shè),主導(dǎo)研發(fā)了離線計(jì)算、實(shí)時(shí)計(jì)算、機(jī)器學(xué)習(xí)、數(shù)智融合四代騰訊大數(shù)據(jù)平臺(tái),并推動(dòng)大數(shù)據(jù)技術(shù)開源。 帶領(lǐng)騰訊完成了騰訊廣告投放端整合,實(shí)現(xiàn)了騰訊全流量的一站式投放。在人工智能領(lǐng)域,打造了騰訊AI學(xué)習(xí)平臺(tái),獲得多項(xiàng)頂級(jí)賽事獎(jiǎng)項(xiàng)。
前言
第1章 打造騰訊大數(shù)據(jù)平臺(tái)1
1.1 騰訊大數(shù)據(jù)的緣起3
1.2 騰訊大數(shù)據(jù)的構(gòu)建理念5
1.3 騰訊大數(shù)據(jù)的總體架構(gòu)7
第2章 數(shù)據(jù)實(shí)時(shí)采集平臺(tái)11
2.1 接入層挑戰(zhàn)12
2.2 接入管理層TDManager14
2.3 數(shù)據(jù)采集17
2.4 數(shù)據(jù)總線23
2.5 消息中間件30
2.6 數(shù)據(jù)分揀40
2.7 接入層展望44
第3章 分布式存儲(chǔ)平臺(tái)46
3.1 文件存儲(chǔ)HDFS47
3.2 統(tǒng)一存儲(chǔ)Ceph62
3.3 下一代大數(shù)據(jù)存儲(chǔ)Ozone77
3.4 KV存儲(chǔ)HBase88
第4章 分布式計(jì)算平臺(tái)99
4.1 批處理MapReduce100
4.2 批處理Spark107
4.3 批處理漂移計(jì)算SuperSQL123
4.4 流處理Flink146
4.5 SQL數(shù)據(jù)倉(cāng)庫(kù)Hive165
4.6 任務(wù)調(diào)度175
第5章 數(shù)據(jù)分析引擎184
5.1 關(guān)系型OLAP:騰訊實(shí)時(shí)多維分析平臺(tái)185
5.2 關(guān)系型OLAP:ClickHouse200
5.3 多維OLAP:Kylin211
5.4 多維OLAP:Druid222
第6章 資源調(diào)度平臺(tái)234
6.1 Yarn項(xiàng)目背景235
6.2 調(diào)度器性能優(yōu)化241
6.3 集群的高可用性244
6.4 多資源維度彈性管理254
第7章 數(shù)據(jù)治理體系261
7.1 元數(shù)據(jù)262
7.2 數(shù)據(jù)資產(chǎn)管理271
7.3 大數(shù)據(jù)安全283
第8章 機(jī)器學(xué)習(xí)平臺(tái)298
8.1 圖智能平臺(tái)299
8.2 Angel310
8.3 聯(lián)邦學(xué)習(xí)333
第9章 數(shù)據(jù)內(nèi)容挖掘350
9.1 概覽351
9.2 廣告內(nèi)容挖掘352
9.3 用戶畫像數(shù)據(jù)體系365
9.4 用戶畫像構(gòu)建方法366
9.5 數(shù)據(jù)內(nèi)容挖掘與推薦379
9.6 數(shù)據(jù)內(nèi)容挖掘與AI創(chuàng)作380
第10章 大數(shù)據(jù)平臺(tái)運(yùn)營(yíng)384
10.1 大數(shù)據(jù)服務(wù)規(guī)劃385
10.2 大數(shù)據(jù)平臺(tái)治理393
10.3 自動(dòng)化運(yùn)維體系構(gòu)建397
10.4 平臺(tái)運(yùn)營(yíng)成本優(yōu)化404
10.5 大數(shù)據(jù)運(yùn)營(yíng)分析與應(yīng)用體系408
第11章 大數(shù)據(jù)平臺(tái)產(chǎn)品設(shè)計(jì)410
11.1 TBDS大數(shù)據(jù)處理套件411
11.2 Oceanus實(shí)時(shí)流式數(shù)據(jù)處理平臺(tái)419
11.3 ideX數(shù)據(jù)分析與探索挖掘工具425
11.4 智能鈦TI機(jī)器學(xué)習(xí)平臺(tái)429
第12章 企業(yè)級(jí)容器云平臺(tái)GaiaStack438
12.1 GaiaStack產(chǎn)品背景和目標(biāo)439
12.2 GaiaStack架構(gòu)和技術(shù)特點(diǎn)446
12.3 GaiaStack核心技術(shù)454
第13章 大數(shù)據(jù)應(yīng)用服務(wù)503
13.1 智能客服機(jī)器人504
13.2 移動(dòng)推送526
13.3 數(shù)據(jù)可視化產(chǎn)品小馬BI535
參考文獻(xiàn)549