《視頻大數(shù)據(jù)智慧計算方法》以空間為緯度來研究視頻大數(shù)據(jù)中圖像的識別、重建,以時間為經(jīng)度來研究視頻大數(shù)據(jù)中幀間的切分、轉碼,以時空為經(jīng)緯度來研究視頻大數(shù)據(jù)內容的監(jiān)控、審查、分類!兑曨l大數(shù)據(jù)智慧計算方法》的原創(chuàng)性在于:提出并研究給出了視頻大數(shù)據(jù)智慧計算方法,具體又提出并研究給出了視頻大數(shù)據(jù)空間智慧計算方法、視頻大數(shù)據(jù)時間智慧計算方法、視頻大數(shù)據(jù)時空編解碼智慧計算方法、視頻大數(shù)據(jù)時空監(jiān)控智慧計算方法、視頻大數(shù)據(jù)時空審查智慧計算方法、視頻大數(shù)據(jù)時空分類智慧計算方法。
更多科學出版社服務,請掃碼獲取。
《視頻大數(shù)據(jù)智慧計算方法》:
第1章 視頻大數(shù)據(jù)智慧計算緒論
1.1 視頻大數(shù)據(jù)的特點
視頻大數(shù)據(jù)有三大特點:數(shù)據(jù)量大、結構復雜、全數(shù)據(jù),如圖1.1所示。
圖1.1視頻大數(shù)據(jù)的特點
視頻大數(shù)據(jù)的第一個特點是數(shù)據(jù)量大,而且視頻大數(shù)據(jù)的數(shù)據(jù)量增長速度非?。每天有無數(shù)的人在向優(yōu)酷等在線視頻網(wǎng)站上傳各種視頻,每天都有無數(shù)的監(jiān)控器、攝像頭在錄制各種各樣的實時視頻,每天電視臺、電影院都在播放著不斷更新的視頻 。我們的世界是可視的、動態(tài)的,整個世界最原始的狀態(tài)就是一個連續(xù)不斷的、將會延續(xù)無數(shù)億年的視頻。
隨著視頻錄制設備的普及,特別是智能手機也具備了錄制視頻的能力,現(xiàn)在已經(jīng)進入視頻大數(shù)據(jù)的時代。人們喜歡錄制視頻來記錄生活中的點點滴滴,學校喜歡用視頻來記錄教師上課的實況,政府喜歡用視頻來監(jiān)控社會的動態(tài)。一個文本文件或圖像文件或聲音文件,其數(shù)據(jù)量都一般在M級,但一個視頻文件數(shù)據(jù)量一般都在G級,而有的高清視頻能達到T級。每個視頻都含有非常豐富的信息,都要占用大量的存儲空間,而視頻的數(shù)量又非常龐大,這就使得視頻成為各種格式的數(shù)據(jù)中數(shù)據(jù)量最為突出的大數(shù)據(jù)。
同時,隨著互聯(lián)網(wǎng)特別是移動互聯(lián)網(wǎng)的發(fā)展,越來越多的視頻被上傳到網(wǎng)上進行分享、轉碼、加工、重組,從而使得從無數(shù)的原始視頻中,又衍生出更多數(shù)據(jù)量更大的目標視頻,這又進一步增加了視頻大數(shù)據(jù)的數(shù)據(jù)量。
視頻大數(shù)據(jù)的第二個特點是結構復雜。視頻數(shù)據(jù)相對于文本、圖像、聲音這些單一的數(shù)據(jù)類型而言,是結構最為復雜的一種數(shù)據(jù)。視頻大數(shù)據(jù)是一種集圖像、聲音、文字于一體的大數(shù)據(jù),也是一種集時間維、空間維、本性維于一體的大數(shù)據(jù)。正是因為其組成成分的復雜性,以及不同維之間的關聯(lián)性,使得其大數(shù)據(jù)的特性更為突出。正是由于視頻結構的復雜性,所以以不同的方式來組織視頻數(shù)據(jù)就形成了視頻的不同編碼格式和封裝格式。視頻的編碼格式和封裝格式之多遠遠超過了文本、圖像、聲音這些類型的文件數(shù)據(jù),這也從一個側面反映了視頻結構的復雜性。不但視頻內部的結構復雜,由于視頻轉碼、視頻加工、視頻重組、視頻挖掘等技術的應用,使得不同視頻數(shù)據(jù)之間也存在著千絲萬縷的聯(lián)系,形成了視頻數(shù)據(jù)之間結構的復雜性。
視頻大數(shù)據(jù)的第三個特點是全數(shù)據(jù)。視頻所見即所得,是對現(xiàn)實世界的真實記錄和復制,這一點不同于文本數(shù)據(jù)。因為文本數(shù)據(jù)是人類或人類程序對客觀世界的記錄,其中有人類對客觀世界的抽象及取舍。全數(shù)據(jù)在數(shù)據(jù)的維度上沒有任何損失,所以視頻大數(shù)據(jù)的挖掘價值更大。視頻大數(shù)據(jù)相對于文本等類型的大數(shù)據(jù)而言,其全數(shù)據(jù)性更為明顯。當然,這也是相對的,因為視頻的分辨率是有限的,而且大部分視頻不是三維的、更不是全息的,因此視頻也無法完全地復制現(xiàn)實,所以說視頻大數(shù)據(jù)只是相對的全數(shù)據(jù),但隨著視頻技術、存儲技術的發(fā)展,視頻的分辨率會越來越高,而且會朝著三維、全息的方向發(fā)展,所以視頻大數(shù)據(jù)的全數(shù)據(jù)性會越來越高。
1.2視頻大數(shù)據(jù)對智慧計算的需求
大數(shù)據(jù)的價值在于其中所蘊含的知識,而大數(shù)據(jù)中的知識只有依靠智慧計算才能充分地發(fā)現(xiàn)和利用。因為大數(shù)據(jù)不同于傳統(tǒng)的數(shù)據(jù),大數(shù)據(jù)是未經(jīng)采樣和加工的全數(shù)據(jù),因此其數(shù)據(jù)質量遠遠低于傳統(tǒng)數(shù)據(jù),而數(shù)據(jù)復雜性遠遠高于傳統(tǒng)數(shù)據(jù),這就對處理數(shù)據(jù)的計算方法提出了更高的要求,因此需要一種針對大數(shù)據(jù)的智慧計算方法。
特別是視頻大數(shù)據(jù)對智慧計算有著更高的要求,因為視頻大數(shù)據(jù)是最為難以處理的大數(shù)據(jù)類型之一。傳統(tǒng)處理大數(shù)據(jù)的框架如hadoop,比較擅長于處理文本大數(shù)據(jù),但在處理視頻大數(shù)據(jù)時就有些力不從心,因為視頻大數(shù)據(jù)的數(shù)據(jù)內部、數(shù)據(jù)之間的關系非常復雜,同時其數(shù)據(jù)量也不是文本大數(shù)據(jù)可以同日而語的。所以急需研究專門針對視頻大數(shù)據(jù)的更為智慧的計算方法,來針對視頻大數(shù)據(jù)的結構復雜性、海量性、全數(shù)據(jù)性進行高效的處理,得到預期的結果和效果。
從應用的角度來看,視頻大數(shù)據(jù)對智慧計算的需求包括七大需求:視頻大數(shù)據(jù)識別的需求、視頻大數(shù)據(jù)重建的需求、視頻大數(shù)據(jù)重組的需求、視頻大數(shù)據(jù)轉碼的需求、視頻大數(shù)據(jù)監(jiān)控的需求、視頻大數(shù)據(jù)審查的需求和視頻大數(shù)據(jù)處理的需求,如圖1.2所示。
圖1.2視頻大數(shù)據(jù)對智慧計算的需求視頻大數(shù)據(jù)對智慧計算的需求,第一體現(xiàn)在對視頻大數(shù)據(jù)識別的需求。因為視頻如果不被識別,則毫無意義,但視頻識別對計算機來說不是一件很容易的事情,雖然我們人類每天都在看電影、看電視,識別視頻對于我們人類來說,非常容易。因此,在視頻識別這一方面,計算機當前發(fā)展水平還遠遠不如人腦。但視頻大數(shù)據(jù)的海量數(shù)據(jù)性,使得無法完全由人工來進行識別,所以急需一種更為智慧的計算來對視頻進行自動高效的識別。
視頻大數(shù)據(jù)對智慧計算的需求,第二體現(xiàn)在對視頻大數(shù)據(jù)重建的需求。視頻重建是基于視頻識別所得到知識所進行的創(chuàng)造性活動。視頻本身是源于現(xiàn)實,而視頻重建的結果是對現(xiàn)實的重塑。因此,視頻重建是對視頻的有效利用。但視頻重建比視頻識別對計算機而言更為困難,因為視頻重建是一種創(chuàng)造性的活動,而計算機最不擅長做的事情就是創(chuàng)造性的活動。所以當前視頻重建一般都是人工來做的。例如,根據(jù)動畫形象進行三維建模,都是由3D模型設計師進行手工設計。但是當面臨視頻大數(shù)據(jù)時,如果有大量的視頻需要被重建,則無法完全由人工來進行重建,所以急需一種更為智慧的計算來對視頻進行自動高效的重建。
視頻大數(shù)據(jù)對智慧計算的需求,第三體現(xiàn)在對視頻大數(shù)據(jù)重組的需求。因為視頻是一個圖像、聲音、文字的時間序列,這個序列可以分片,可以合并,統(tǒng)稱為重組,F(xiàn)實生活中對視頻重組的需求是巨大而迫切的。例如,不同的人可能關心不同視頻中的某個主題和片段,那么就需要把這些主題和片段切分出來并進行合并后交付給不同的用戶。這個例子講的是用戶的需求。還有一種更大的需求,是對視頻大數(shù)據(jù)處理的需求,因為為了加快大視頻的處理速度,則需要采用分而治之的云計算模式進行處理,所以需要對視頻進行分片后再合并。但視頻的分片、合并并不像文本那么容易和簡單,如果采用人工交互式地進行分片,那么就會影響對視頻大數(shù)據(jù)的整體處理的自動化,因此急需一種更為智慧的計算來對視頻進行自動高效的分片。
視頻大數(shù)據(jù)對智慧計算的需求,第四體現(xiàn)在對視頻大數(shù)據(jù)轉碼的需求。由于視頻結構及其應用的復雜性,所以以不同的方式來組織視頻數(shù)據(jù)就形成了視頻的不同編碼格式和封裝格式。視頻的編碼格式和封裝格式之多遠遠地超過了文本、圖像、聲音這些類型的文件數(shù)據(jù)。特別是隨著電視網(wǎng)、電腦網(wǎng)、手機網(wǎng)的互聯(lián)互通,使得三網(wǎng)之間視頻格式的互轉變得非常頻繁和泛化,轉碼可以使得視頻大數(shù)據(jù)在三網(wǎng)之間無礙地流通,這就使得三網(wǎng)上的視頻大數(shù)據(jù)對轉碼的需求與日俱增。當人們用不同手機、在不同帶寬下觀看或下載同一個視頻源時,所得到的視頻的編碼格式和封裝格式可能都會不同,在這些時候,都有轉碼的發(fā)生。但隨著視頻大數(shù)據(jù)的數(shù)據(jù)量的激增,傳統(tǒng)上依靠改進轉碼硬件性能及轉碼串行算法的途徑已經(jīng)無法滿足需求了,其結果必然會影響視頻下載和在線播放的速度。因此急需一種更為智慧的計算來對視頻進行自動高效的轉碼。
視頻大數(shù)據(jù)對智慧計算的需求,第五體現(xiàn)在對視頻大數(shù)據(jù)監(jiān)控的需求。高速公路上、個人家庭中、公司中、超市中、ATM機旁等地方,監(jiān)控攝像頭無處不在,但這些“眼睛”真的在發(fā)揮作用嗎?大部分的監(jiān)控攝像頭只能起到事后取證的作用,而無法像人眼那樣看到異常立即報警。當前視頻監(jiān)控大數(shù)據(jù)沒有做到實時的監(jiān)控和處理,也沒有做到事后的海量挖掘和分析。因此急需一種更為智慧的計算來對視頻進行自動高效的監(jiān)控。
視頻大數(shù)據(jù)對智慧計算的需求,第六體現(xiàn)在對視頻大數(shù)據(jù)審查的需求,F(xiàn)在網(wǎng)絡上黃色視頻、暴力視頻嚴重危害了未成年人的身心健康,如果靠人工網(wǎng)絡警察去一個個地看、一個個地查,總是有漏網(wǎng)之魚的視頻,因為視頻的數(shù)量實在太大了,而且每一個視頻人工也難以從頭看到尾,即使從頭看到尾也難以對非法內容毫無遺漏。因此迫切需要一種更為智慧的計算來對視頻進行自動高效的審查。
視頻大數(shù)據(jù)對智慧計算還有很多其他需求,統(tǒng)稱為對視頻大數(shù)據(jù)處理的需求,包括對視頻分類的需求、對視頻推薦的需求、對視頻拆條的需求等。這些需求也隨著視頻大數(shù)據(jù)的數(shù)據(jù)量的攀升而越來越需要一種更為智慧的計算來對視頻進行自動高效的處理。
1.3視頻大數(shù)據(jù)智慧計算的分類
視頻大數(shù)據(jù)智慧計算方法,如果按照需求進行分類,則可以分為:視頻大數(shù)據(jù)識別的方法、視頻大數(shù)據(jù)重建的方法、視頻大數(shù)據(jù)重組的方法、視頻大數(shù)據(jù)轉碼的方法、視頻大數(shù)據(jù)監(jiān)控的方法、視頻大數(shù)據(jù)審查的方法和視頻大數(shù)據(jù)處理的方法,如圖1.3所示。
圖1.3視頻大數(shù)據(jù)智慧計算方法按照需求的分類
但如果從結合視頻大數(shù)據(jù)的時空性三個維度來分類,則視頻大數(shù)據(jù)智慧計算可以分為:視頻大數(shù)據(jù)空間智慧計算方法、視頻大數(shù)據(jù)時間智慧計算方法、視頻大數(shù)據(jù)時空智慧計算方法,如圖1.4所示。這里沒有提到本性維。因為本性維是最基本的維,不管是哪種類型的計算,本性維都默認存在并且參與其中,因為如果脫離了視頻的本性來討論視頻的時間性、空間性和時空性是沒有意義,“皮之不存,毛將焉附?” 圖1.4視頻大數(shù)據(jù)智慧計算方法按照維度的分類第2章視頻大數(shù)據(jù)空間智慧計算方法第2章視頻大數(shù)據(jù)空間智慧計算方法
如果不考慮時間維,則視頻成為了一幅幅靜止的圖像,所以只考慮空間維的視頻大數(shù)據(jù)實質上是圖像大數(shù)據(jù),所以視頻大數(shù)據(jù)空間智慧計算方法實質上是圖像大數(shù)據(jù)智慧計算方法。之所以要將視頻大數(shù)據(jù)的空間維拿出來單獨研究,是因為的確有不少視頻實際應用(如視頻大數(shù)據(jù)中圖像的識別、重建)中只涉及視頻的空間維,所以研究視頻大數(shù)據(jù)空間智慧計算方法有其實際意義。將視頻大數(shù)據(jù)的空間維拿出來單獨研究的另一個原因是,只有將視頻大數(shù)據(jù)的空間維(各幅圖像)的智慧計算方法研究清楚了,才能與視頻大數(shù)據(jù)的時間維(各幀)進行結合,從而為視頻大數(shù)據(jù)的時空智慧計算方法奠定基礎。
本章提出了使得視頻空間計算更加智慧的方法,2.1節(jié)利用識別知識庫,2.2節(jié)利用圖像樣本庫,2.3節(jié)利用三維模型庫,加上自動搜索和匹配的算法,使得視頻空間計算(就是圖像的識別重建)更加自動化、普適化、精準化,再加上并行計算,又可使之快速化,從而使得在視頻空間計算方面,計算機更加接近人腦對圖像的處理重建能力,因而更接近人的智慧。
2.1識別知識庫下物體識別的方法
本方法提供一種基于識別知識庫的識別方法,用于識別多個類型目標,所述識別方法包括:從關聯(lián)索引表中尋找與興趣目標最接近的預期目標樣本;根據(jù)關聯(lián)索引表調用相應的預期目標特征提取規(guī)則,并根據(jù)該特征提取規(guī)則確定匹配窗口;根據(jù)關聯(lián)索引表調用相應的特征提取規(guī)則,由所述匹配窗口對待識別對象進行特征提;調用對應的特征比較規(guī)則并調用關聯(lián)的特征比較程序,根據(jù)所述特征比較程序將預期目標樣本的特征與匹配窗口中的對象的特征進行比較,并將特征比較的結果記為相似度;根據(jù)所述相似度確定識別結果。本方法提供的基于識別知識庫的識別方法,預先在識別知識庫中存儲若干類型目標樣本,實現(xiàn)識別多個類型目標。
2.1.1現(xiàn)有物體識別方法的不足
現(xiàn)代信息處理技術的發(fā)展使得自動識別技術成為可能,比較常見的例子就是,將計算機信息處理技術應用到識別技術領域,使得無需人為操作從而實現(xiàn)自動化識別興趣目標。
目前,自動識別方法有條碼識別、IC卡識別、射頻識別(RFID)、聲音識別、視覺識別以及光學字符識別等。
識別的過程就是從對象中識別出目標,對所述對象中目標進行識別得到的結果被稱為識別結果。
識別即是通過目標的特征將目標從對象中分離出來并判斷出目標類型和目標屬性的過程。識別的對象可以是圖像、聲音、視頻、波譜、文本等中的一種類型或其混合。例如,識別一個人,可以同時識別他的語音(聲音識別)、面部相貌(圖像識別)。再如識別草,可以同時識別它的可見光譜(圖像識別)和紅外光譜(波譜識別)。識別的輸入為對象,輸出為目標。
樣本,是指用于識別的參照目標,其一般預先存儲在所述識別系統(tǒng)中的數(shù)據(jù)庫(也稱識別知識庫)。
……