聯(lián)邦學(xué)習(xí)到底是什么呢?
我們認(rèn)為可以這樣定義:它是在數(shù)據(jù)不出本地的前提下,由多個(gè)參與方聯(lián)合、協(xié)作完成建模任務(wù)的分布式機(jī)器學(xué)習(xí)范式。據(jù)統(tǒng)計(jì),2020年產(chǎn)生的聯(lián)邦學(xué)習(xí)相關(guān)論文超過6000篇,是之前所有相關(guān)論文的三倍多。作為大數(shù)據(jù)時(shí)代下人工智能發(fā)展不可或缺的核心技術(shù),聯(lián)邦學(xué)習(xí)已經(jīng)成為當(dāng)前學(xué)術(shù)界、產(chǎn)業(yè)界爭相研究和應(yīng)用的對象。
在絕大部分的行業(yè)中,數(shù)據(jù)是以孤島的形式存在的,即數(shù)據(jù)在不同機(jī)構(gòu)或部門中獨(dú)立存儲(chǔ)、分倉管理,難以流通和利用,而人工智能的發(fā)展又往往會(huì)涉及多個(gè)領(lǐng)域的數(shù)據(jù)。在過去,為了打破數(shù)據(jù)孤島,數(shù)據(jù)需求方通常會(huì)收集來自不同機(jī)構(gòu)的數(shù)據(jù)信息,并統(tǒng)一整合到中心數(shù)據(jù)集群后進(jìn)行集中處理和應(yīng)用。然而,由于數(shù)據(jù)隱私泄露和數(shù)據(jù)獲取成本過高,這一方法變得越來越不可取。同時(shí),在愈發(fā)重視數(shù)據(jù)隱私安全的全球性趨勢下,社會(huì)各界逐漸提升了數(shù)據(jù)所有權(quán)、資產(chǎn)化的保護(hù)意識(shí),各國也逐步出臺(tái)新的法律法規(guī)來嚴(yán)格規(guī)范數(shù)據(jù)的管理和使用。例如,2018年5月,歐盟實(shí)施《通用數(shù)據(jù)保護(hù)條例》(GDPR)來保護(hù)用戶的個(gè)人隱私和數(shù)據(jù)安全,禁止數(shù)據(jù)在實(shí)體間轉(zhuǎn)移、交換和交易。2020年10月,我國公布《中華人民共和國個(gè)人信息保護(hù)法(草案)》,為個(gè)人信息保護(hù)提供了強(qiáng)有力的法律保障。在法律法規(guī)強(qiáng)監(jiān)管的環(huán)境下,如何在確保數(shù)據(jù)隱私安全的前提下解決數(shù)據(jù)孤島問題,已然成為人工智能發(fā)展的首要挑戰(zhàn)。
聯(lián)邦學(xué)習(xí)成為打破人工智能發(fā)展困境的“頭雁”,其核心價(jià)值是在數(shù)據(jù)安全合規(guī)的前提下提升模型效果,實(shí)現(xiàn)降本增效。那么聯(lián)邦學(xué)習(xí)是如何做到的呢?對于聯(lián)邦模型的訓(xùn)練而言,模型可以基于各參與方的本地?cái)?shù)據(jù)庫進(jìn)行訓(xùn)練,訓(xùn)練過程中的模型參數(shù)通過加密機(jī)制在各參與方間通信,數(shù)據(jù)無須出本地,既保證了數(shù)據(jù)隱私安全合規(guī),又間接共享了數(shù)據(jù)資源,促進(jìn)了數(shù)據(jù)生產(chǎn)要素的流通。對于聯(lián)邦模型的推理而言,由多個(gè)參與方聯(lián)合共建的最優(yōu)模型可以在密態(tài)基礎(chǔ)上實(shí)現(xiàn)金融、醫(yī)療、政務(wù)等多個(gè)行業(yè)的賦能應(yīng)用。
聯(lián)邦學(xué)習(xí)能有效解決人工智能發(fā)展面臨的數(shù)據(jù)隱私安全與孤島問題,這為大數(shù)據(jù)與人工智能的健康發(fā)展和顛覆式變革奠定了基礎(chǔ),并為其在更復(fù)雜、更前沿、更尖端領(lǐng)域的應(yīng)用落地創(chuàng)造了更多的機(jī)會(huì)和可能。
為什么要寫本書
聯(lián)邦學(xué)習(xí)技術(shù)一經(jīng)提出,便引起了社會(huì)各界人士的廣泛關(guān)注。聯(lián)邦學(xué)習(xí)能夠滿足各方在不共享數(shù)據(jù)源的前提下進(jìn)行數(shù)據(jù)聯(lián)合訓(xùn)練的需求,幫助多方組織構(gòu)建最優(yōu)的機(jī)器學(xué)習(xí)模型。這一技術(shù)不僅能夠推動(dòng)互聯(lián)網(wǎng)時(shí)代下海量數(shù)據(jù)的價(jià)值變現(xiàn),還能助力人工智能的發(fā)展革新和應(yīng)用落地。
目前,聯(lián)邦學(xué)習(xí)的相關(guān)學(xué)習(xí)資源過于分散,相關(guān)圖書屈指可數(shù)。為了更好地普及聯(lián)邦學(xué)習(xí)知識(shí),傳遞聯(lián)邦學(xué)習(xí)價(jià)值,我們特寫作本書,旨在系統(tǒng)全面地介紹聯(lián)邦學(xué)習(xí)的來龍去脈,為有志于聯(lián)邦學(xué)習(xí)理論研究和實(shí)踐的讀者提供指引和參考。希望本書能夠給廣大讀者帶來啟示。
讀者對象
大數(shù)據(jù)、人工智能相關(guān)產(chǎn)業(yè)的從業(yè)者和研究人員,包括但不局限于:
q想要全面了解、探索聯(lián)邦學(xué)習(xí)的讀者;
q想要上手實(shí)踐聯(lián)邦學(xué)習(xí)的讀者。
本書主要內(nèi)容
全書共9章,分為4部分。
第一部分 基礎(chǔ)(第1~2章)
主要介紹了聯(lián)邦學(xué)習(xí)的概念、由來、發(fā)展歷史、架構(gòu)思想、應(yīng)用場景、優(yōu)勢、規(guī)范與標(biāo)準(zhǔn)、社區(qū)與生態(tài)等基礎(chǔ)內(nèi)容。
第二部分 原理(第3~5章)
詳細(xì)講解了聯(lián)邦學(xué)習(xí)的工作原理、算法、加密機(jī)制、激勵(lì)機(jī)制等核心技術(shù)。
第三部分 實(shí)戰(zhàn)(第6~7章)
主要講解了PySyft、TFF、CrypTen等主流聯(lián)邦學(xué)習(xí)開源框架的部署實(shí)踐,并給出了聯(lián)邦學(xué)習(xí)在智慧金融、智慧醫(yī)療、智慧城市、物聯(lián)網(wǎng)等領(lǐng)域的具體解決方案。
第四部分 拓展(第8~9章)
概述了聯(lián)邦學(xué)習(xí)的形態(tài)、聯(lián)邦學(xué)習(xí)的系統(tǒng)架構(gòu)、當(dāng)前面臨的挑戰(zhàn)等,并探討了聯(lián)邦學(xué)習(xí)的發(fā)展前景和趨勢。
勘誤與支持
聯(lián)邦學(xué)習(xí)的概念很新,更新很快,雖然我們已盡可能使本書內(nèi)容準(zhǔn)確、全面、緊跟技術(shù)前沿,但書中仍難免存在遺漏或不妥之處,懇請讀者批評指正。如果你有關(guān)于本書的任何意見或建議,歡迎發(fā)送郵件到y(tǒng)fc@hzbook.com,期待你的反饋。
致謝
本書的寫作占用了我們大量的業(yè)余時(shí)間,在此特別感謝家人、朋友的理解和支持。另外,在本書寫作過程中,機(jī)械工業(yè)出版社華章公司的編輯們給予了精心指導(dǎo)和大力支持,沒有他們細(xì)致的工作,本書無法如此順利地出版,特此感謝。
前言
第一部分 基礎(chǔ)
第1章 聯(lián)邦學(xué)習(xí)的前世今生2
1.1 聯(lián)邦學(xué)習(xí)的由來2
1.2 聯(lián)邦學(xué)習(xí)的發(fā)展歷程3
1.3 聯(lián)邦學(xué)習(xí)的規(guī)范與標(biāo)準(zhǔn)8
1.4 聯(lián)邦學(xué)習(xí)的社區(qū)與生態(tài)9
1.5 本章小結(jié)10
第2章 全面認(rèn)識(shí)聯(lián)邦學(xué)習(xí)11
2.1 什么是聯(lián)邦學(xué)習(xí)11
2.2 聯(lián)邦學(xué)習(xí)的架構(gòu)思想12
2.3 聯(lián)邦學(xué)習(xí)的應(yīng)用場景14
2.4 聯(lián)邦學(xué)習(xí)的優(yōu)勢與前景15
2.5 本章小結(jié)16
第二部分 原理
第3章 聯(lián)邦學(xué)習(xí)的工作原理18
3.1 聯(lián)邦學(xué)習(xí)的計(jì)算環(huán)境18
3.1.1 可信執(zhí)行環(huán)境18
3.1.2 無可信計(jì)算環(huán)境22
3.2 聯(lián)邦學(xué)習(xí)的算法23
3.2.1 中心聯(lián)邦優(yōu)化算法24
3.2.2 聯(lián)邦機(jī)器學(xué)習(xí)算法25
3.2.3 聯(lián)邦深度學(xué)習(xí)算法28
3.3 聯(lián)邦學(xué)習(xí)的算子29
3.3.1 聯(lián)邦學(xué)習(xí)數(shù)據(jù)預(yù)處理算子30
3.3.2 聯(lián)邦學(xué)習(xí)模型訓(xùn)練算子34
3.4 本章小結(jié)49
第4章 聯(lián)邦學(xué)習(xí)的加密機(jī)制50
4.1 聯(lián)邦學(xué)習(xí)的安全問題50
4.1.1 模型完整性問題50
4.1.2 模型可用性問題51
4.1.3 模型機(jī)密性問題52
4.1.4 問題總結(jié)53
4.2 聯(lián)邦學(xué)習(xí)的加密方式53
4.2.1 同態(tài)加密53
4.2.2 差分隱私55
4.2.3 安全多方計(jì)算57
4.2.4 國密SM2算法58
4.2.5 國密SM4算法60
4.2.6 Deffie-Hellman算法61
4.2.7 混合加密61
4.3 本章小結(jié)63
第5章 聯(lián)邦學(xué)習(xí)的激勵(lì)機(jī)制64
5.1 數(shù)據(jù)貢獻(xiàn)評估65
5.2 數(shù)據(jù)貢獻(xiàn)與激勵(lì)支付的關(guān)系66
5.3 參與方貢獻(xiàn)效益評估67
5.4 參與方貢獻(xiàn)效益與激勵(lì)支付的關(guān)系68
5.5 計(jì)算和通信消耗評估68
5.6 計(jì)算消耗、通信消耗和激勵(lì)支付的關(guān)系69
5.7 本章小結(jié)70
第三部分 實(shí)戰(zhàn)
第6章 聯(lián)邦學(xué)習(xí)開發(fā)實(shí)踐72
6.1 聯(lián)邦學(xué)習(xí)開源框架部署:PySyft72
6.1.1 PySyft基本介紹72
6.1.2 開發(fā)環(huán)境準(zhǔn)備與搭建72
6.1.3 PySyft安裝指南75
6.1.4 開發(fā)前的準(zhǔn)備76
6.1.5 PySyft測試樣例76
6.1.6 實(shí)操:分布式聯(lián)邦學(xué)習(xí)部署87
6.2 聯(lián)邦學(xué)習(xí)開源框架部署:TFF93
6.2.1 TFF基本介紹93
6.2.2 開發(fā)環(huán)境準(zhǔn)備與搭建94
6.2.3 TFF安裝指南94
6.2.4 開發(fā)前的準(zhǔn)備95
6.2.5 TFF測試樣例95
6.3 聯(lián)邦學(xué)習(xí)開源框架部署:CrypTen100
6.3.1 CrypTen基本介紹100
6.3.2 開發(fā)環(huán)境準(zhǔn)備與搭建100
6.3.3 CrypTen安裝指南101
6.3.4 開發(fā)前的準(zhǔn)備101
6.3.5 CrypTen測試樣例102
6.4 本章小結(jié)111
第7章 聯(lián)邦學(xué)習(xí)的行業(yè)解決方案112
7.1 聯(lián)邦學(xué)習(xí)+智慧金融112
7.1.1 聯(lián)邦學(xué)習(xí)+銀行112
7.1.2 聯(lián)邦學(xué)習(xí)+保險(xiǎn)121
7.1.3 聯(lián)邦學(xué)習(xí)+投資125
7.2 聯(lián)邦學(xué)習(xí)+智慧醫(yī)療128
7.2.1 聯(lián)邦學(xué)習(xí)+醫(yī)療影像診斷128
7.2.2 聯(lián)邦學(xué)習(xí)+疾病風(fēng)險(xiǎn)預(yù)測130
7.2.3 聯(lián)邦學(xué)習(xí)+藥物挖掘133
7.2.4 聯(lián)邦學(xué)習(xí)+醫(yī)護(hù)資源配置135
7.3 聯(lián)邦學(xué)習(xí)+智慧城市137
7.3.1 聯(lián)邦學(xué)習(xí)+零售137
7.3.2 聯(lián)邦學(xué)習(xí)+交通140
7.3.3 聯(lián)邦學(xué)習(xí)+物流141
7.3.4 聯(lián)邦學(xué)習(xí)+政府143
7.3.5 聯(lián)邦學(xué)習(xí)+安防146
7.4 聯(lián)邦學(xué)習(xí)+物聯(lián)網(wǎng)148
7.4.1 聯(lián)邦學(xué)習(xí)+車聯(lián)網(wǎng)148
7.4.2 聯(lián)邦學(xué)習(xí)+智能家居150
7.4.3 聯(lián)邦學(xué)習(xí)+可穿戴設(shè)備153
7.4.4 聯(lián)邦學(xué)習(xí)+機(jī)器人155
7.5 本章小結(jié)160
第四部分 拓展
第8章 聯(lián)邦學(xué)習(xí)的延伸162
8.1 聯(lián)邦學(xué)習(xí)的布局162
8.1.1 Google的聯(lián)邦學(xué)習(xí)162
8.1.2 Facebook的聯(lián)邦學(xué)習(xí)166
8.1.3 聯(lián)邦智能167
8.1.4 共享智能169
8.1.5 知識(shí)聯(lián)邦172
8.1.6 異構(gòu)聯(lián)邦177
8.1.7 聯(lián)邦學(xué)習(xí)方案對比178
8.2 聯(lián)邦學(xué)習(xí)系統(tǒng)框架179
8.2.1 工業(yè)級(jí)聯(lián)邦學(xué)習(xí)系統(tǒng)179
8.2.2 企業(yè)級(jí)聯(lián)邦學(xué)習(xí)系統(tǒng)181
8.2.3 實(shí)驗(yàn)開發(fā)級(jí)聯(lián)邦學(xué)習(xí)系統(tǒng)181
8.3 本章小結(jié)183
第9章 聯(lián)邦學(xué)習(xí)的挑戰(zhàn)、趨勢和展望184
9.1 聯(lián)邦學(xué)習(xí)應(yīng)對的挑戰(zhàn)184
9.2 聯(lián)邦學(xué)習(xí)的趨勢和展望187
9.3 本章小結(jié)189