序 一
2019年4月,我應(yīng)北京易華錄林擁軍總裁邀請到湖南長沙,出席中國華錄集團和株洲市人民政府聯(lián)合舉辦的互聯(lián)網(wǎng)岳麓峰會大數(shù)據(jù)產(chǎn)業(yè)論壇,并發(fā)表了題為《數(shù)字經(jīng)濟時代的機遇與網(wǎng)絡(luò)安全》的主旨演講。在這次論壇上,我對易華錄提出的數(shù)據(jù)湖有了一些了解?偟膩砜,他們提出了在數(shù)字經(jīng)濟時代發(fā)展大數(shù)據(jù)產(chǎn)業(yè)的一種新模式,在全國也落地了不少實踐案例。最近,得知林擁軍總裁能夠組織團隊,總結(jié)這些理論和實踐成果并最終成書出版,實屬可喜可賀。借此機會,我談?wù)剬Υ髷?shù)據(jù)的看法。
什么是大數(shù)據(jù)?是不是數(shù)據(jù)量比較大,數(shù)據(jù)共享互聯(lián)就叫大數(shù)據(jù)?恐怕不是的。人類文明自誕生以來就有數(shù)據(jù)這一概念了,數(shù)據(jù)有其科學的發(fā)展過程。遠的不說,從計算機處理數(shù)據(jù)開始,數(shù)據(jù)的發(fā)展分三個階段。首先是數(shù)值計算時代。數(shù)值計算時代的特征是用機器代替手工處理數(shù)據(jù),將數(shù)據(jù)處理的過程用信息化的方式來完成。隨著數(shù)據(jù)量的增多,數(shù)據(jù)除了有相關(guān)關(guān)系以外,還有語意、語法、相互邏輯,尤其是多媒體時代以后,文件系統(tǒng)處理數(shù)據(jù)顯得不夠有力,于是便誕生了關(guān)系型數(shù)據(jù)庫。后來,隨著數(shù)據(jù)量的爆炸,又產(chǎn)生了數(shù)據(jù)倉庫。用數(shù)字來表達產(chǎn)業(yè)與產(chǎn)業(yè)的過程,既提高了效率,又加快了進度,可稱之為數(shù)據(jù)工程時代。在這個階段,數(shù)據(jù)還是作為處理的基礎(chǔ)元素,還沒有形成生產(chǎn)的要素,F(xiàn)在的數(shù)據(jù)是金錢,也是財富,因此,數(shù)據(jù)已經(jīng)不再是工具,更不是以前用于計算的數(shù)值,數(shù)據(jù)本身也已成為生產(chǎn)的要素。
那么,到底什么是大數(shù)據(jù)呢?從科學的角度來定義,大數(shù)據(jù)是指無法用現(xiàn)有的軟件工具進行處理的海量復雜的數(shù)據(jù)集合,它具有多源異構(gòu)、非結(jié)構(gòu)化、低價值度、快速處理等特點。也就是說,不能用現(xiàn)有的數(shù)據(jù)庫,也不能用現(xiàn)有數(shù)據(jù)互聯(lián)互通的協(xié)議來處理的數(shù)據(jù)才是大數(shù)據(jù)。
因此,數(shù)據(jù)大從根本上講并不是大數(shù)據(jù),有什么區(qū)別呢?無非就是以下幾個區(qū)別:第一,以前我們對數(shù)據(jù)的互通互聯(lián)是有目的、有對象的,但是大數(shù)據(jù)卻非如此。各種各樣的數(shù)據(jù)都要被收集起來,即便是跟你無關(guān)的數(shù)據(jù),也可能擦出新的火花。因此,大數(shù)據(jù)是多源異構(gòu),它數(shù)量龐大。第二,政府要治理社會,不是簡單地將與政府有關(guān)的數(shù)據(jù)收集起來就可以了,更重要的是要收集那些看似沒有關(guān)系的數(shù)據(jù)。因此,這些數(shù)據(jù)收集下來以后是不完全的,是非結(jié)構(gòu)化的。第三,有些數(shù)據(jù)本身價值密度很低,但數(shù)量巨大,那么它就不是大數(shù)據(jù)。數(shù)據(jù)再海量也不是大數(shù)據(jù)。大數(shù)據(jù)要快進快出,不要把垃圾堆積如山。
大數(shù)據(jù)是鉆石礦,而是鉆石礦就會有競爭,就會有搗亂,就會有破壞,會面臨大數(shù)據(jù)時代新的安全風險。怎么辦?我們要有科學的網(wǎng)絡(luò)安全觀。殺病毒、防火墻、補漏洞、打補丁,這些是不夠的。那么離開封堵查殺,如何保障網(wǎng)絡(luò)安全?這就要有安全可信的體系。按照《中華人民共和國網(wǎng)絡(luò)安全法》第十六條,國務(wù)院和省、自治區(qū)、直轄市人民政府應(yīng)當統(tǒng)籌規(guī)劃,加大投入,扶持重點網(wǎng)絡(luò)安全技術(shù)產(chǎn)業(yè)和項目,支持網(wǎng)絡(luò)安全技術(shù)的研究開發(fā)和應(yīng)用,推廣安全可信的網(wǎng)絡(luò)產(chǎn)品和服務(wù)。《國家網(wǎng)絡(luò)空間安全戰(zhàn)略》也提出夯實網(wǎng)絡(luò)安全基礎(chǔ),強調(diào)盡快在核心技術(shù)上取得突破,加快安全可信的產(chǎn)品推廣應(yīng)用。
我國在可信計算領(lǐng)域的創(chuàng)新比較早,從1992年2月第一批成果通過測評和鑒定開始,有關(guān)成果被先后應(yīng)用在國家電網(wǎng)、中央電視臺等核心要害部門。目前,我們開啟了可信計算3.0時代,下一步要按照國家法律法規(guī)、技術(shù)標準有關(guān)要求,用可信計算3.0夯實網(wǎng)絡(luò)安全等級保護基礎(chǔ),堅決捍衛(wèi)國家網(wǎng)絡(luò)安全。這正是我們要在大數(shù)據(jù)時代應(yīng)該做的。
希望通過這篇序言,讓更多的人關(guān)注和正確認識大數(shù)據(jù),關(guān)注大數(shù)據(jù)安全和大數(shù)據(jù)產(chǎn)業(yè)發(fā)展,共同攜起手來,為國家數(shù)字經(jīng)濟建設(shè)和網(wǎng)絡(luò)強國戰(zhàn)略推進做出更大的貢獻。
中國工程院院士
國家集成電路產(chǎn)業(yè)發(fā)展咨詢委員會委員
國家信息化專家咨詢委員會委員
國家三網(wǎng)融合專家組成員
2019年8月于北京
序 二
什么是數(shù)據(jù)湖?根據(jù)亞馬遜公司的定義,數(shù)據(jù)湖是一個集中式存儲庫,允許以任意規(guī)模存儲所有結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)?梢园丛瓨哟鎯(shù)據(jù)(無須先對數(shù)據(jù)進行結(jié)構(gòu)化處理),并運行不同類型的分析從控制面板和可視化到大數(shù)據(jù)處理、實時分析和機器學習,以指導做出更好的決策。
在這本《數(shù)據(jù)湖:新時代數(shù)字經(jīng)濟基礎(chǔ)設(shè)施》中,北京易華錄信息技術(shù)股份有限公司創(chuàng)始人、總裁林擁軍先生首創(chuàng)城市數(shù)據(jù)湖理論體系,圍繞城市數(shù)據(jù)存儲、加工、分析、應(yīng)用,提出獨特的大數(shù)據(jù)解決方案,將城市數(shù)據(jù)湖打造成為新時代的數(shù)字經(jīng)濟基礎(chǔ)設(shè)施。
2017年8月,我受邀參訪易華錄,第一次聽取了林擁軍團隊提出的城市數(shù)據(jù)湖概念和實踐。之后我與易華錄團隊多次在全國各地的大數(shù)據(jù)會議碰面并交流。今年5月第三屆世界智能大會期間,受林總邀請,我在數(shù)據(jù)湖生態(tài)與數(shù)據(jù)智能高峰論壇上發(fā)表主旨演講,同時也驚喜地發(fā)現(xiàn):短短兩年時間,易華錄城市數(shù)據(jù)湖已在全國20多個城市中推廣和應(yīng)用,成為積淀城市數(shù)據(jù)的重要載體,為各地構(gòu)建以數(shù)據(jù)為要素的數(shù)字經(jīng)濟打下了堅實的基礎(chǔ)。
大數(shù)據(jù)相關(guān)歷史
大數(shù)據(jù)背后是數(shù)據(jù)科學,而數(shù)據(jù)科學是關(guān)于數(shù)據(jù)收集、管理、轉(zhuǎn)換、分析與應(yīng)用的科學,其核心是研究從數(shù)據(jù)中獲取知識,而基礎(chǔ)是先記錄這些數(shù)據(jù)。
數(shù)據(jù)分析的歷史可追溯到250年前早期使用統(tǒng)計數(shù)據(jù)來解決實際問題。在統(tǒng)計學領(lǐng)域,貝葉斯(Bayes)定理在概率論和統(tǒng)計應(yīng)用的發(fā)展中發(fā)揮了關(guān)鍵作用。1783年,著名統(tǒng)計學家理查德·普萊斯(Richard Price)發(fā)表了壽命表,根據(jù)他作為精算師的觀察結(jié)果計算了英格蘭人生命持續(xù)時間的概率。觀察結(jié)果以記錄行和屬性列作為統(tǒng)計分析的基礎(chǔ)。這些表現(xiàn)在通常在數(shù)據(jù)挖掘中用作多維表。因此,從歷史的角度來看,多維表應(yīng)稱為理查德普萊斯表,而普萊斯應(yīng)該被譽為數(shù)據(jù)分析和數(shù)據(jù)挖掘之父。
自20世紀50年代以來,隨著計算技術(shù)逐漸被應(yīng)用于商業(yè),許多公司已經(jīng)開發(fā)了用于存儲和分析所收集數(shù)據(jù)的數(shù)據(jù)庫。用于處理數(shù)據(jù)集的數(shù)學工具已經(jīng)從統(tǒng)計學演變?yōu)槿斯ぶ悄艿姆椒,包括神?jīng)網(wǎng)絡(luò)和決策樹。在20世紀90年代,數(shù)據(jù)庫社區(qū)開始使用術(shù)語數(shù)據(jù)挖掘,這與術(shù)語數(shù)據(jù)庫中的知識發(fā)現(xiàn)是等價的。數(shù)據(jù)挖掘(常伴隨人工干預)、機器學習、數(shù)學建模和數(shù)據(jù)庫相交叉,是現(xiàn)在數(shù)據(jù)分析的常用方法。構(gòu)建對大數(shù)據(jù)或數(shù)據(jù)科學的理論組成部分需要來自數(shù)學、社會學、經(jīng)濟學、計算科學和管理科學等學科的共同努力。
大數(shù)據(jù)挑戰(zhàn)
大數(shù)據(jù)分析或數(shù)據(jù)挖掘的關(guān)鍵價值在于獲取智能知識。大數(shù)據(jù)分析面臨許多挑戰(zhàn)。為了在科學、工程和商業(yè)應(yīng)用中利用大數(shù)據(jù)獲益,需要解決以下三個問題:一是半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)向結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變;二是復雜性,不確定性和系統(tǒng)建模;三是理解數(shù)據(jù)異質(zhì)性,知識異質(zhì)性和決策異質(zhì)性之間的關(guān)系。
第一個問題,在云存儲和云計算基礎(chǔ)上,如何利用信息技術(shù)等手段對非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)進行有效處理,已成為各國大數(shù)據(jù)專家共同關(guān)注的前沿科研問題。在大數(shù)據(jù)的學術(shù)領(lǐng)域,由于這些數(shù)據(jù)的復雜性、數(shù)據(jù)的原理、基本規(guī)則和屬性,特別是半結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù)尚未得到闡明。這種復雜性不僅反映了數(shù)據(jù)所代表的對象的多樣性,而且反映了每個數(shù)據(jù)集只能呈現(xiàn)給定對象的部分圖像的事實:盡管數(shù)據(jù)集可以準確地表示對象的一個方面,但它無法傳達整個圖像。因此,數(shù)據(jù)表示與真實對象之間的關(guān)系類似于盲人和大象的關(guān)系:所得到的感知圖像將在很大程度上取決于所觀察的特定方面。
由于最近的進步,Hadoop和MapReduce等技術(shù)使得在合理的時間內(nèi)收集大量半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)成為可能。關(guān)鍵的工程挑戰(zhàn)是如何有效地分析這些數(shù)據(jù)并在特定的時間內(nèi)從中提取知識?赡艿牡谝徊绞菍虢Y(jié)構(gòu)或非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),然后應(yīng)用為結(jié)構(gòu)化數(shù)據(jù)開發(fā)的數(shù)據(jù)挖掘算法。
一旦數(shù)據(jù)被結(jié)構(gòu)化,已知的數(shù)據(jù)挖掘算法就可以產(chǎn)生粗略的知識。該過程的這個階段可以被視為一階挖掘。結(jié)構(gòu)化粗略知識可以反映決策者在升級為智能知識后可以使用的新屬性。此升級需要分析師利用經(jīng)驗,常識和主題專業(yè)知識等人類知識,這個階段稱為二階挖掘。由于知識隨個人和情況而變化,因此人機界面(大數(shù)據(jù)挖掘與人類知識)在大數(shù)據(jù)分析中起著關(guān)鍵作用。
第二個問題,如何探索大數(shù)據(jù)復雜性、不確定性特征描述的刻畫方法及大數(shù)據(jù)的系統(tǒng)建模,這一問題的突破是實現(xiàn)大數(shù)據(jù)知識發(fā)現(xiàn)的前提和關(guān)鍵。大數(shù)據(jù)的復雜性是由數(shù)據(jù)的數(shù)量和種類引起的,不確定性來自數(shù)據(jù)表示的性質(zhì)和多樣性的變化。
當某種分析方法應(yīng)用于大數(shù)據(jù)時,得到的知識受限于真實對象的特定角度或方面。一旦角度改變,通過收集方法或分析方法獲得的知識就不再有用了。例如,在涉及大數(shù)據(jù)的石油勘探工程中,數(shù)據(jù)挖掘已應(yīng)用于由地震測試和測井數(shù)據(jù)生成的空間數(shù)據(jù)庫。地下地質(zhì)結(jié)構(gòu)本身很復雜,非線性數(shù)據(jù)模式可能因尺寸和角度改變而改變。因此,數(shù)據(jù)挖掘或分析的任何結(jié)果僅代表給定表面的知識。如果曲面發(fā)生變化,結(jié)果也會發(fā)生變化。挑戰(zhàn)在于確定如何從空間數(shù)據(jù)的不同表面獲得有意義的知識。
為了應(yīng)對這一挑戰(zhàn),需要對大數(shù)據(jù)的復雜性和不確定性進行系統(tǒng)建模。建立一個廣泛適用于大數(shù)據(jù)的綜合數(shù)學系統(tǒng)可能很困難,但通過了解給定主題或領(lǐng)域的特定復雜性或不確定性,可以為特定的大數(shù)據(jù)表示創(chuàng)建基于領(lǐng)域的系統(tǒng)建模。一系列此類建模結(jié)構(gòu)可以模擬不同主題或領(lǐng)域的大數(shù)據(jù)分析。
如果工程師能夠確定一些處理特定領(lǐng)域大數(shù)據(jù)的復雜性和不確定性的一般方法,比如金融市場(有數(shù)據(jù)流和媒體新聞)或互聯(lián)網(wǎng)購物(圖像和媒體評估),這將特別有利于社會和經(jīng)濟發(fā)展。工程中的許多已知技術(shù)(例如優(yōu)化、效用理論、期望分析)可用于衡量從大數(shù)據(jù)獲得的粗略知識如何在二階挖掘過程中有效地與人類判斷相結(jié)合,從而引出決策所需的智能知識支持。
第三個問題,研究數(shù)據(jù)異構(gòu)性與決策異構(gòu)性的關(guān)系對大數(shù)據(jù)知識發(fā)現(xiàn)與管理決策的影響。大數(shù)據(jù)為決策者帶來了數(shù)據(jù)異質(zhì)性,知識異質(zhì)性和決策異質(zhì)性的問題。傳統(tǒng)意義上,決策依賴于從他人和經(jīng)驗中學到的知識。知識獲取現(xiàn)在越來越多地基于數(shù)據(jù)分析和數(shù)據(jù)挖掘。
與數(shù)據(jù)一樣,決策可以分為結(jié)構(gòu)化,半結(jié)構(gòu)化或非結(jié)構(gòu)化,具體取決于組織中的職責分配。決策者對(定量)數(shù)據(jù)、信息和(定性)知識的需求根據(jù)其責任程度不同而不同。處理日常工作的操作人員做出結(jié)構(gòu)化決策,管理者的決策是基于下屬報告(大多數(shù)是結(jié)構(gòu)化的)和他們自己的判斷的組合,因此是半結(jié)構(gòu)化的。高層管理人員或首席執(zhí)行官(CEO)做出非結(jié)構(gòu)化的最終決策。
大數(shù)據(jù)正在顛覆性地改變決策過程。使用大數(shù)據(jù)分析,可以將運營人員、經(jīng)理和CEO的職能結(jié)合起來,以簡化決策制定過程。例如,銷售人員可以使用基于大數(shù)據(jù)挖掘技術(shù)的實時信用卡審批系統(tǒng)來快速批準客戶的信用額度而無須向主管報告。這樣的決定幾乎沒有風險。銷售助理是最終的決策者,代表經(jīng)理和CEO。
在使用結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)挖掘過程中,粗略的知識通常是結(jié)構(gòu)化知識,可以給定其數(shù)據(jù)格式。在大數(shù)據(jù)挖掘中,盡管一階挖掘中的粗略知識源自異構(gòu)數(shù)據(jù),但它可以被視為結(jié)構(gòu)化知識,因為數(shù)據(jù)挖掘是以結(jié)構(gòu)化數(shù)據(jù)類型格式執(zhí)行的。在二階挖掘階段,結(jié)構(gòu)化知識與經(jīng)理或CEO的半結(jié)構(gòu)化或非結(jié)構(gòu)化領(lǐng)域知識相結(jié)合,并逐步升級為智能知識。因此,智能知識成為非結(jié)構(gòu)化知識的代表。
如果業(yè)務(wù)操作僅涉及半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),則結(jié)果是沒有數(shù)據(jù)分析的非結(jié)構(gòu)化知識或來自數(shù)據(jù)挖掘的結(jié)構(gòu)化知識。這種結(jié)構(gòu)化或非結(jié)構(gòu)化知識可能會影響半結(jié)構(gòu)化或非結(jié)構(gòu)化決策,具體取決于所涉及的管理級別。
基于一階挖掘的粗略知識,通過二階挖掘搜索智能知識是理解數(shù)據(jù)異質(zhì)性,知識異質(zhì)性和決策異質(zhì)性之間關(guān)系的關(guān)鍵。學習如何通過大數(shù)據(jù)改變決策制定的成果,需要了解異構(gòu)數(shù)據(jù)處理,大數(shù)據(jù)挖掘,決策者的領(lǐng)域知識以及他們參與決策制定之間的關(guān)系。
大數(shù)據(jù)是人類創(chuàng)造的財富。針對上述三大挑戰(zhàn),任何政府、企業(yè)或個人如果在理論或?qū)嵺`方面有所探索、突破,都將更好地造福人類。數(shù)據(jù)湖概念的提出,以及國內(nèi)外商業(yè)巨頭所提出的一系列相應(yīng)的解決方案,一定程度上回應(yīng)了大數(shù)據(jù)發(fā)展和應(yīng)用所面臨的挑戰(zhàn)。而如書中所述,林擁軍團隊基于智慧城市、數(shù)字生態(tài)建設(shè)的豐富經(jīng)驗,積極響應(yīng)國家大數(shù)據(jù)戰(zhàn)略、數(shù)字經(jīng)濟發(fā)展要求,緊緊圍繞數(shù)據(jù)這一數(shù)字經(jīng)濟重要生產(chǎn)資料和核心要素的歸集、運用,打造融合數(shù)據(jù)感知、存儲、分析、應(yīng)用為一體的新時代數(shù)字經(jīng)濟基礎(chǔ)設(shè)施,無疑也是直面上述三大挑戰(zhàn)而開展的具有中國特色的有益探索和重要實踐。
我真誠地希望無論政府、企業(yè)還是個人讀者朋友,通過此書,在建設(shè)城市大數(shù)據(jù)基礎(chǔ)設(shè)施、繁榮區(qū)域數(shù)字經(jīng)濟發(fā)展等方面,獲得新的啟迪,激發(fā)出更多創(chuàng)舉!
中國科學院大數(shù)據(jù)挖掘與知識管理重點實驗室主任
國務(wù)院參事 第三世界科學院院士
2019年8月于北京
前言
第一章 人類社會進入大數(shù)據(jù)時代
一、從數(shù)據(jù)到大數(shù)據(jù)
二、數(shù)據(jù)的特征
三、數(shù)據(jù)的本質(zhì)
四、大數(shù)據(jù)戰(zhàn)略
第二章 數(shù)字經(jīng)濟產(chǎn)業(yè)發(fā)展
一、關(guān)于數(shù)字經(jīng)濟
二、數(shù)字經(jīng)濟產(chǎn)業(yè)發(fā)展現(xiàn)狀
三、數(shù)字經(jīng)濟發(fā)展過程中面臨的問題
第三章 數(shù)據(jù)湖的基本特征和理論
一、數(shù)據(jù)湖理論
二、數(shù)據(jù)湖的先進性
三、數(shù)據(jù)湖產(chǎn)業(yè)實踐
四、數(shù)據(jù)產(chǎn)業(yè)發(fā)展的五化理論
第四章 數(shù)字經(jīng)濟時代城市基礎(chǔ)設(shè)施
一、數(shù)據(jù)湖基礎(chǔ)設(shè)施
二、數(shù)據(jù)湖提供的服務(wù)
三、城市數(shù)據(jù)湖產(chǎn)業(yè)園生態(tài)
四、基礎(chǔ)設(shè)施建設(shè)在數(shù)字經(jīng)濟發(fā)展中的重要作用
第五章 數(shù)字經(jīng)濟新業(yè)態(tài)數(shù)據(jù)銀行
一、數(shù)據(jù)交易發(fā)展現(xiàn)狀與未來趨勢
二、數(shù)據(jù)銀行概述
三、數(shù)據(jù)銀行業(yè)務(wù)探討
四、數(shù)據(jù)銀行業(yè)務(wù)探索的意義與重要性
五、數(shù)據(jù)湖與數(shù)據(jù)銀行的關(guān)系
第六章 數(shù)據(jù)確權(quán)、數(shù)據(jù)立法配套設(shè)施
一、國家政策、行業(yè)背景
二、我國數(shù)據(jù)立法的現(xiàn)狀及特點
三、數(shù)據(jù)確權(quán)的必要性
四、數(shù)據(jù)確權(quán)的主要內(nèi)容
五、立法的價值選擇
六、立法的路徑選擇
后 記