欧美日韩激情高清,av久久精品亚洲牛牛影视,久久精品无码一区二区AV

本書針對(duì)現(xiàn)有科技大數(shù)據(jù)存在眾多數(shù)據(jù)來源、數(shù)據(jù)異構(gòu)、數(shù)據(jù)質(zhì)量不均衡等問題, 解決多源異構(gòu)科技大數(shù)據(jù)的數(shù)據(jù)采集、清洗、融合、存儲(chǔ)等問題, 構(gòu)建科技大數(shù)據(jù)高效匯聚融合、智能演化分析、以及個(gè)性化檢索服務(wù)平臺(tái)。主要內(nèi)容包括多源異構(gòu)科技大數(shù)據(jù)采集機(jī)制、科技大數(shù)據(jù)匯聚融合機(jī)制、科技大數(shù)據(jù)分布式存儲(chǔ)關(guān)鍵技術(shù)、面向開放協(xié)同的科技大數(shù)據(jù)檢索服務(wù)接口、科技大數(shù)據(jù)交換與可信確權(quán)、科技大數(shù)據(jù)交互式演化分析、面向領(lǐng)域的科技大數(shù)據(jù)智能服務(wù)應(yīng)用。

更多科學(xué)出版社服務(wù)，請(qǐng)掃碼獲取。

第1章緒論
　　1.1 研究背景及意義
　　1.1.1 研究背景
　　隨著新興技術(shù)的不斷突破，不管是區(qū)塊鏈還是AI（artificial intelligence，人工智能），抑或是大數(shù)據(jù)，當(dāng)前正處于科技和產(chǎn)業(yè)變革的關(guān)鍵節(jié)點(diǎn)。隨著技術(shù)的進(jìn)步和社會(huì)需求的改變，每一天、每一小時(shí)甚至每一秒都在不斷產(chǎn)生海量支撐AI發(fā)展的科技數(shù)據(jù)。盡管數(shù)據(jù)龐雜，但其中記載著詳細(xì)學(xué)科知識(shí)、相關(guān)真理及驗(yàn)證過程、某學(xué)科的實(shí)驗(yàn)過程和結(jié)論等，這些對(duì)推動(dòng)技術(shù)發(fā)展起到關(guān)鍵作用的核心科技情報(bào)知識(shí)線索，是現(xiàn)代各尖端領(lǐng)域用于科技創(chuàng)新發(fā)現(xiàn)的算法模型實(shí)現(xiàn)的核心數(shù)據(jù)根基和重要知識(shí)基礎(chǔ)[1]。
　　在數(shù)據(jù)快速增長(zhǎng)的信息爆炸時(shí)代，亟待解決的問題就是對(duì)大數(shù)據(jù)的數(shù)據(jù)質(zhì)量的甄別及分析。解決信息孤島和數(shù)據(jù)疏散等問題，沖破現(xiàn)行的各類行政壁壘，推進(jìn)科技資本的合理布局、統(tǒng)籌規(guī)劃及整合，從而滿足同享同用的需求；解決數(shù)據(jù)時(shí)效性差、多頭來源，數(shù)據(jù)指標(biāo)不統(tǒng)一、口徑不一致的問題，從而實(shí)現(xiàn)資源規(guī)范標(biāo)準(zhǔn)、利用快捷高效；解決數(shù)據(jù)開發(fā)潛力不足的難題，從而實(shí)現(xiàn)多形式展示、深層次挖掘、定制式推送、個(gè)性化服務(wù)等。對(duì)復(fù)雜構(gòu)成的科技大數(shù)據(jù)進(jìn)行基于語義的計(jì)算分析，已經(jīng)成為Google、Microsoft等企業(yè)搶占未來大數(shù)據(jù)AI服務(wù)的重要部署[2]。
　　一系列文件指出，應(yīng)該建立健全鼓勵(lì)原始創(chuàng)新、集成創(chuàng)新、引進(jìn)消化吸收再創(chuàng)新的體制機(jī)制，健全技術(shù)創(chuàng)新市場(chǎng)導(dǎo)向機(jī)制，建立產(chǎn)學(xué)研協(xié)同創(chuàng)新機(jī)制，加強(qiáng)知識(shí)產(chǎn)權(quán)運(yùn)用和保護(hù)，健全技術(shù)創(chuàng)新激勵(lì)機(jī)制，整合科技規(guī)劃和資源，完善政府對(duì)基礎(chǔ)性、戰(zhàn)略性、前沿性科學(xué)研究和共性技術(shù)研究的支持機(jī)制[3， 4]。我國現(xiàn)階段在科技平臺(tái)建設(shè)方面，不管是模式、內(nèi)容還是機(jī)制都面臨著巨大的挑戰(zhàn)，而矢志不渝地進(jìn)行科技平臺(tái)建設(shè)是推動(dòng)知識(shí)服務(wù)的供給側(cè)結(jié)構(gòu)性改革的重要部分。
　　盡管我國于2003年全面啟動(dòng)國家科技基礎(chǔ)條件平臺(tái)建設(shè)，并產(chǎn)出了很多重要的成果，但目前仍存在不少亟待突破的問題，如平臺(tái)信息滯后、各平臺(tái)間聯(lián)結(jié)度與信息共享度低，無法滿足客戶動(dòng)態(tài)需求等，解決這些問題將會(huì)使我國的科技平臺(tái)建設(shè)飛躍到一個(gè)新的高度。開放共享經(jīng)濟(jì)環(huán)境下，借助云技術(shù)的精準(zhǔn)定位與信息挖掘，探索科技大數(shù)據(jù)服務(wù)平臺(tái)的功能與運(yùn)作，有利于實(shí)時(shí)追蹤技術(shù)交易，提供個(gè)性化信息推送、專利技術(shù)需求智能關(guān)聯(lián)等服務(wù)，進(jìn)而促進(jìn)科技向生產(chǎn)力的快速轉(zhuǎn)化。
　　數(shù)據(jù)作為目前最有價(jià)值、最重要的資本之一，得到了研究人員的廣泛關(guān)注。企業(yè)管理者能否做出正確決策與其承載數(shù)據(jù)量的大小有關(guān)，所以，對(duì)歷史數(shù)據(jù)的采集和處理一直都是研究人員關(guān)注的重點(diǎn)內(nèi)容，大型企業(yè)、中小型企業(yè)及政府部門都在對(duì)構(gòu)建大數(shù)據(jù)平臺(tái)進(jìn)行探索、整合各部門數(shù)據(jù)，進(jìn)而形成關(guān)聯(lián)，最終將其有效用于決策支持。大數(shù)據(jù)有別于常見的數(shù)據(jù)，通常使用一些常規(guī)軟件就可以實(shí)現(xiàn)常見的數(shù)據(jù)的抓取、分析和處理等操作，但大數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)價(jià)值密度相對(duì)較低、數(shù)據(jù)類型多、處理速度快、時(shí)效性要求高等特征，人們無法使用常規(guī)處理數(shù)據(jù)的方式去處理大數(shù)據(jù)。而針對(duì)大數(shù)據(jù)的分析與處理，往往不是使用隨機(jī)分析、抽樣調(diào)查等方法對(duì)局部數(shù)據(jù)進(jìn)行操作，而是對(duì)所有數(shù)據(jù)進(jìn)行分析，從而得到數(shù)據(jù)整體的分析結(jié)果與處理方案。這就要求在大數(shù)據(jù)處理過程中，采用技術(shù)上具有可操作性、便捷高效的處理模式。因此，對(duì)大數(shù)據(jù)進(jìn)行分析處理，要求具備從大量數(shù)據(jù)中抽絲剝繭地提取出有效的數(shù)據(jù)信息，對(duì)大批量數(shù)據(jù)從不同維度同時(shí)進(jìn)行分析處理，并快速得到目標(biāo)數(shù)據(jù)集的能力。
　　大數(shù)據(jù)涉及很多領(lǐng)域，其中具備科技及知識(shí)屬性的大數(shù)據(jù)資源，被認(rèn)為是科技大數(shù)據(jù)�？萍即髷�(shù)據(jù)依托于信息技術(shù)的高速發(fā)展，加速了與經(jīng)濟(jì)社會(huì)的交匯融合，科技大數(shù)據(jù)因?qū)ι鐣?huì)生產(chǎn)、物流、消費(fèi)等日常活動(dòng)及經(jīng)濟(jì)運(yùn)行機(jī)制、社會(huì)生活方式和國家治理能力產(chǎn)生越來越大的影響而成為國家基礎(chǔ)性戰(zhàn)略資源，所以構(gòu)建針對(duì)大數(shù)據(jù)的工具，從而合理、高效地使用科技知識(shí)領(lǐng)域的大數(shù)據(jù)資源，就十分具有戰(zhàn)略意義。
　　科技大數(shù)據(jù)有別于傳統(tǒng)的數(shù)據(jù)資源領(lǐng)域，也并不是常見的網(wǎng)絡(luò)及行業(yè)大數(shù)據(jù)�？萍即髷�(shù)據(jù)主要是指包括科技成果數(shù)據(jù)、科技活動(dòng)數(shù)據(jù)及互聯(lián)網(wǎng)自媒體科技資訊數(shù)據(jù)在內(nèi)的數(shù)據(jù)內(nèi)容。其中，科技成果數(shù)據(jù)是指各學(xué)科內(nèi)記錄形成的數(shù)據(jù)、資料、文獻(xiàn)、報(bào)告、網(wǎng)絡(luò)科技報(bào)道等承載知識(shí)的數(shù)據(jù)�？萍蓟顒�(dòng)數(shù)據(jù)包括兩類，一類是科技實(shí)體數(shù)據(jù)，科技實(shí)體數(shù)據(jù)包括科技項(xiàng)目、學(xué)術(shù)會(huì)議、科技團(tuán)隊(duì)、科技組織、科技人才、科技機(jī)構(gòu)、科技獎(jiǎng)項(xiàng)、科技主題、科技概念、研究設(shè)備、研究模型、研究方法等；另一類就是知識(shí)關(guān)系數(shù)據(jù)，知識(shí)關(guān)系數(shù)據(jù)包括語義關(guān)系及計(jì)量關(guān)系等�；ヂ�(lián)網(wǎng)自媒體科技資訊數(shù)據(jù)是指常見自媒體產(chǎn)生的數(shù)據(jù)，如微信數(shù)據(jù)或微博數(shù)據(jù)，其特征是及時(shí)、權(quán)威、互動(dòng)性較好。
　　科技大數(shù)據(jù)理論與技術(shù)研究是一項(xiàng)順應(yīng)目前科技行業(yè)信息化技術(shù)水平發(fā)展、服務(wù)政府職能改革的科學(xué)研究工作，主要目標(biāo)是強(qiáng)化科技與經(jīng)濟(jì)運(yùn)行監(jiān)測(cè)分析，并將分析結(jié)果提供給科技管理者、科研機(jī)構(gòu)、企業(yè)和個(gè)人，從而有效推動(dòng)科技創(chuàng)新的一站式的云管理和服務(wù)平臺(tái)建設(shè)，推進(jìn)科技數(shù)據(jù)共享和業(yè)務(wù)協(xié)同，以信息化提升數(shù)據(jù)化管理與服務(wù)能力，準(zhǔn)確掌握科技發(fā)展在宏觀和微觀等多種維度的動(dòng)態(tài)，及時(shí)并快速地響應(yīng)科技政策的更新，并為其制定提供依據(jù)。
　　1.1.2 研究意義
　　本書針對(duì)科技服務(wù)對(duì)科技資源數(shù)據(jù)匯聚融合的需求，研究多源科技大數(shù)據(jù)資源融合的云計(jì)算系統(tǒng)平臺(tái)分布式管理方法，形成協(xié)調(diào)統(tǒng)一的科技大數(shù)據(jù)分布式存儲(chǔ)與處理模式。本書基于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型和特征表示學(xué)習(xí)的科技大數(shù)據(jù)融合處理方法，實(shí)現(xiàn)跨領(lǐng)域跨學(xué)科的科技大數(shù)據(jù)自動(dòng)監(jiān)測(cè)與采集。利用在線知識(shí)圖譜中所蘊(yùn)含的豐富結(jié)構(gòu)化文本與鏈接信息，建立多源異構(gòu)、碎片化數(shù)據(jù)之間的語義關(guān)聯(lián)和多粒度層次之間的語義映射，完成科技大數(shù)據(jù)的實(shí)體識(shí)別和匹配；設(shè)計(jì)以多粒度知識(shí)服務(wù)為核心的大數(shù)據(jù)處理架構(gòu)與引擎，實(shí)現(xiàn)從元數(shù)據(jù)記錄層、知識(shí)實(shí)體層以及知識(shí)關(guān)系層的智能數(shù)據(jù)融合與演化分析；研究跨平臺(tái)跨系統(tǒng)跨業(yè)務(wù)跨場(chǎng)景的大數(shù)據(jù)共享交換機(jī)制技術(shù)，構(gòu)建支持?jǐn)?shù)據(jù)交換、可信確權(quán)與追蹤保護(hù)的科技大數(shù)據(jù)資源融合系統(tǒng)平臺(tái)，實(shí)現(xiàn)科技大數(shù)據(jù)的生命周期管理，以期在跨媒體跨領(lǐng)域科技大數(shù)據(jù)的實(shí)體識(shí)別、匯聚融合與演化分析等一系列關(guān)鍵技術(shù)上取得進(jìn)展。
　　1.2 國內(nèi)外研究現(xiàn)狀
　　1.2.1 多源異構(gòu)數(shù)據(jù)融合研究現(xiàn)狀
　　多源異構(gòu)大數(shù)據(jù)融合的研究開始于美國，早在20世紀(jì)中期，美國軍隊(duì)就已經(jīng)可以對(duì)多源傳感器所獲得的相關(guān)信息進(jìn)行多源數(shù)據(jù)融合，進(jìn)一步提高了決策的精確度。數(shù)據(jù)融合是一個(gè)針對(duì)多源異構(gòu)數(shù)據(jù)信息的加工過程，該過程還包括自動(dòng)化檢測(cè)、相關(guān)互聯(lián)以及多級(jí)組合等[5， 6]。Greif在1998年將數(shù)據(jù)融合技術(shù)定義成一種通過融合算法以及相關(guān)工具方式對(duì)多源異構(gòu)數(shù)據(jù)信息進(jìn)行關(guān)聯(lián)分析的形式框架[7]。該框架的意義不僅在于可以獲得更加多源優(yōu)質(zhì)的數(shù)據(jù)信息資源，還在于可以有效改善決策的魯棒性以及可靠性。在應(yīng)用領(lǐng)域上，數(shù)據(jù)融合在工業(yè)控制領(lǐng)域、醫(yī)療識(shí)別領(lǐng)域、天氣預(yù)測(cè)領(lǐng)域等相關(guān)領(lǐng)域有所應(yīng)用，并逐漸向更多更廣的交叉領(lǐng)域擴(kuò)展。
　　為解決多源異構(gòu)數(shù)據(jù)中存在的諸多問題，有一些研究成果通過給多源異構(gòu)數(shù)據(jù)添加相應(yīng)的規(guī)則，實(shí)現(xiàn)多源數(shù)據(jù)的融合。例如，“線性加權(quán)融合”運(yùn)算、“最大值”運(yùn)算、“最小值”運(yùn)算、“求和”運(yùn)算、“求或”運(yùn)算以及“投票機(jī)制”。相關(guān)核心工作成果有如下幾個(gè)。文獻(xiàn)[8]通過正則化項(xiàng)與鉸鏈損失函數(shù)相結(jié)合對(duì)多模態(tài)數(shù)據(jù)進(jìn)行特征選擇，利用正則化項(xiàng)引入不同的和函數(shù)學(xué)習(xí)不同來源數(shù)據(jù)中的互補(bǔ)信息。文獻(xiàn)[9]提出了一種聯(lián)合判別特征融合框架，該框架通過約束函數(shù)，最大化樣本間的距離和最小化樣本內(nèi)的距離，實(shí)現(xiàn)特征融合。文獻(xiàn)[10]提出了一種判別分析方法，主要通過學(xué)習(xí)多源異構(gòu)數(shù)據(jù)之間、數(shù)據(jù)對(duì)之間的線性變化，引入約束條件加強(qiáng)多個(gè)線性變換視圖的一致性。文獻(xiàn)[11]利用線性組合技術(shù)對(duì)多源異構(gòu)數(shù)據(jù)進(jìn)行特征融合，從得到的融合特征中篩選出貢獻(xiàn)率最大的特征，利用遺傳算法進(jìn)行特征加權(quán)。文獻(xiàn)[12]提出了一種新的特征提取方法，即正態(tài)分布的貝葉斯誤差和貝葉斯相結(jié)合的方法，能夠?qū)崿F(xiàn)特征融合和特征選擇。文獻(xiàn)[13]提出了一種基于相位一致性和能量加權(quán)的融合方法，通過NSCT（non subsampled contourlet transform，非下采樣輪廓波變換）濾波獲得不同模態(tài)數(shù)據(jù)中不同頻率的特征，其中高頻特征通過相位一致性規(guī)則進(jìn)行融合，低頻特征通過能量加權(quán)進(jìn)行融合。有的學(xué)者利用深度多項(xiàng)式網(wǎng)絡(luò)[14]給多源異構(gòu)數(shù)據(jù)添加線性約束，實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的融合。還有學(xué)者提出了一種新的深度學(xué)習(xí)結(jié)構(gòu)[15]，通過不斷加權(quán)特征信息來實(shí)現(xiàn)特征融合。
　　除了基于規(guī)則的方法之外，還可以通過表征學(xué)習(xí)的方法，將多源異構(gòu)數(shù)據(jù)投影到一個(gè)公共的子空間中。代表性工作有如下幾個(gè)。文獻(xiàn)[16]通過對(duì)多項(xiàng)式網(wǎng)絡(luò)進(jìn)行疊加完成數(shù)據(jù)的融合：第一層多項(xiàng)式網(wǎng)絡(luò)提取多源異構(gòu)數(shù)據(jù)的高層語義特征，第二層多項(xiàng)式用于學(xué)習(xí)多源異構(gòu)數(shù)據(jù)間的相互聯(lián)系。文獻(xiàn)[17]提出在統(tǒng)一的框架下識(shí)別和選擇出各個(gè)模態(tài)中有用的特征，通過子空間學(xué)習(xí)的方法學(xué)習(xí)數(shù)據(jù)的內(nèi)部結(jié)構(gòu)特征。這是一種特征選擇和子空間學(xué)習(xí)相結(jié)合的方法。文獻(xiàn)[18]提出了一種新的多類型診斷框架，該框架由自動(dòng)編碼器和softmax層組成，通過自動(dòng)編碼器網(wǎng)絡(luò)學(xué)習(xí)多源異構(gòu)數(shù)據(jù)空間共享表示。Huddar等在雙向LSTM（long-short term memory，長(zhǎng)短期記憶）神經(jīng)網(wǎng)絡(luò)中加入多個(gè)注意力機(jī)制，對(duì)多源異構(gòu)數(shù)據(jù)進(jìn)行多次融合得到融合信息[19]。一部分學(xué)者利用深度學(xué)習(xí)在高維空間中表示多源異構(gòu)數(shù)據(jù)之間的關(guān)系，獲得多源異構(gòu)數(shù)據(jù)的在高維空間中的融合表示，完成分類任務(wù)[20， 21]。還有一部分學(xué)者通過稀疏表示將多源異構(gòu)數(shù)據(jù)映射到統(tǒng)一表示空間[22， 23]。另外有研究者提出了一種基于聯(lián)合訓(xùn)練框架的方法，并證明了該方法的成功性和適用性[24， 25]。最近，有研究者提出了一種基于典型相關(guān)分析的共享隱空間學(xué)習(xí)方法[26]，也存在一些表征學(xué)習(xí)的框架旨在充分利用多模態(tài)不完全異構(gòu)數(shù)據(jù)[27， 28]。
　　雖然我國很重視這方面的發(fā)展，但與國際水平相比還有一些差距，為了縮小數(shù)據(jù)融合在運(yùn)算精度以及速度方面的差距，還需要再接再厲，促進(jìn)科技發(fā)展與進(jìn)步。
　　1.2.2 科技大數(shù)據(jù)知識(shí)圖譜的應(yīng)用
　　知識(shí)圖譜（knowledge graph）[29]的主要目的是針對(duì)其搜索引擎，通過分析描述真實(shí)世界中存在的各種實(shí)體以及概念，找到并以圖的形式描述這些實(shí)體、概念之間的關(guān)聯(lián)關(guān)系，從而改善搜索結(jié)果，將知識(shí)系統(tǒng)化地呈現(xiàn)給用戶，提高用戶目標(biāo)搜索結(jié)果的命中率。
　　知識(shí)圖譜可以顯示知識(shí)發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形，利用可視化技術(shù)描述知識(shí)資源及其載體，挖掘、分析、構(gòu)建、繪制和顯示知識(shí)及它們之間的相互聯(lián)系。應(yīng)用知識(shí)圖譜時(shí)，通常是將應(yīng)用數(shù)學(xué)、圖形學(xué)、信息可視化技術(shù)、信息科學(xué)等學(xué)科的理論與方法和計(jì)量學(xué)引文分析、共現(xiàn)分析等方法結(jié)合，并利用可視化的圖譜形象地展示學(xué)科的核心結(jié)構(gòu)、發(fā)展歷史、前沿領(lǐng)域以及整體知識(shí)架構(gòu)，達(dá)到多學(xué)科融合目的�；谏鲜鲈颍R(shí)圖譜適用于科技大數(shù)據(jù)的分析研究，其可以實(shí)現(xiàn)對(duì)知識(shí)持續(xù)增量的自動(dòng)獲取，具備概念識(shí)別、實(shí)體發(fā)現(xiàn)、屬性預(yù)測(cè)、知識(shí)演化建模和關(guān)系挖掘能力，可以形成涵蓋數(shù)十億實(shí)體規(guī)模的多源、多學(xué)科和多數(shù)據(jù)類型的跨媒體知識(shí)圖譜[30]。劉嶠等指出科技大數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)信息有很大區(qū)別，主要原因在于科技大數(shù)據(jù)內(nèi)容包括各學(xué)科內(nèi)的記錄數(shù)據(jù)、資料、文獻(xiàn)、報(bào)告、網(wǎng)絡(luò)科技報(bào)道等科技成果數(shù)據(jù)，除以上成果類內(nèi)容之外，還常常包含科技領(lǐng)域中涉及的項(xiàng)目、學(xué)術(shù)會(huì)議、人才、機(jī)構(gòu)、獎(jiǎng)項(xiàng)、主題、概念等特色數(shù)據(jù)，以及研究領(lǐng)域相關(guān)的設(shè)備、模型、方法等實(shí)體及其語義關(guān)系的活動(dòng)數(shù)據(jù)[31]。
　　知識(shí)圖譜被廣泛用于語義搜索，即用戶搜索次數(shù)越多，范圍越廣，搜索引擎越能獲得更多的信息和內(nèi)容；知識(shí)圖譜被廣泛用于智能問答，運(yùn)用知識(shí)圖譜可以融合所有學(xué)科，以保證用戶搜索時(shí)具有連貫性，從而實(shí)現(xiàn)智能問答；知識(shí)圖譜被廣泛用于數(shù)據(jù)挖掘，運(yùn)用知識(shí)圖譜可以從整個(gè)互聯(lián)網(wǎng)汲取有用的信息讓用戶獲得更多相關(guān)的數(shù)據(jù)資源；知識(shí)圖譜被廣泛應(yīng)用于推薦系統(tǒng)，知識(shí)圖譜可以綜合用戶特征，把與關(guān)鍵字相關(guān)的知識(shí)化體系系統(tǒng)化地展示給用戶。
　　在數(shù)字圖書館領(lǐng)域，一些大型出版商也已開始以科技文獻(xiàn)數(shù)據(jù)為基礎(chǔ)構(gòu)建知識(shí)圖譜。

你還可能感興趣

我要評(píng)論