關(guān)于我們
書單推薦
新書推薦
看國(guó)家數(shù)字圖書館怎樣跨入大數(shù)據(jù)時(shí)代
發(fā)布者:網(wǎng)上館配會(huì) 發(fā)布時(shí)間:2015/3/20

  在以“數(shù)字資源揭示——海量數(shù)據(jù)環(huán)境下圖書館資源發(fā)現(xiàn)之路”為題的第二屆2014圖書館現(xiàn)代技術(shù)學(xué)術(shù)研討會(huì)上,國(guó)家圖書館副館長(zhǎng)魏大威分享和探討了他對(duì)大數(shù)據(jù)環(huán)境下國(guó)家數(shù)字圖書館建設(shè)的一些思考。如果說未來不會(huì)用大數(shù)據(jù)的企業(yè)就像現(xiàn)在的企業(yè)不會(huì)用電,這一點(diǎn)對(duì)圖書館也一樣。

  圖書館要重視對(duì)大數(shù)據(jù)的整理和挖掘
  由信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù)即大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)等關(guān)鍵技術(shù)引領(lǐng)的信息技術(shù)變革,為處于大數(shù)據(jù)環(huán)境下數(shù)字圖書館的資源整合以及服務(wù)創(chuàng)新帶來了機(jī)遇和挑戰(zhàn)。
  圖書館的大數(shù)據(jù)是什么?我認(rèn)為它由以下幾方面構(gòu)成:一是多種類型的海量資源及龐大用戶群體所涵蓋的用戶數(shù)據(jù);二是圖書館的生產(chǎn)數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)根據(jù)數(shù)字資源生命周期,在各業(yè)務(wù)系統(tǒng)間高速流轉(zhuǎn)及由此建立的數(shù)據(jù)體系;三是通過圖書館海量數(shù)據(jù)滿足用戶的知識(shí)需求和個(gè)性化服務(wù)需求的價(jià)值體現(xiàn)。
  截至2014年12月,國(guó)家數(shù)字圖書館數(shù)字資源總量從上一年的874.5TB躍增至1024.37TB,電子圖書3,671,058種,電子期刊57,943種,電子報(bào)紙15,237種,特藏專藏合計(jì)10,349,917種,外購(gòu)數(shù)據(jù)庫(kù)277個(gè)。在2013年底,文津搜索匯集的元數(shù)據(jù)已達(dá)2.9億條,數(shù)據(jù)資源增長(zhǎng)量保持迅猛態(tài)勢(shì)。(見表1)
  隨著服務(wù)的創(chuàng)新,國(guó)家數(shù)字圖書館讀者服務(wù)已擴(kuò)展至計(jì)算機(jī)、數(shù)字電視、手機(jī)、手持閱讀器、平板電腦、電子觸摸屏等多種服務(wù)終端,服務(wù)前端包括國(guó)家圖書館主站、國(guó)家圖書館讀者門戶、OPAC檢索、文津搜索、國(guó)家圖書館手機(jī)門戶、國(guó)家圖書館WAP網(wǎng)站、移動(dòng)閱讀平臺(tái)、各APP應(yīng)用程序。這都取得了較好的服務(wù)效果。如,國(guó)家數(shù)字圖書館網(wǎng)站2013年總點(diǎn)擊量達(dá)到13.03億次,2013年為10.36億次。像文津搜索系統(tǒng)、讀者門戶對(duì)象數(shù)據(jù)、手機(jī)門戶等月均頁面訪問次數(shù)都為百萬余次,隨著服務(wù)量的增加,各業(yè)務(wù)系統(tǒng)每天都會(huì)產(chǎn)生大量的日志數(shù)據(jù),其中包含了大量的用戶行為信息,例如,Aleph系統(tǒng)日均產(chǎn)生日志數(shù)據(jù)約20GB,文津搜索系統(tǒng)日均產(chǎn)生日志數(shù)據(jù)大于300G。讀者數(shù)據(jù),尤其是讀者行為數(shù)據(jù)中包含大量有價(jià)值的信息,對(duì)這些信息的挖掘和利用,越來越得到圖書館的重視。
  圖書館的數(shù)據(jù)包括資源數(shù)據(jù)、采集數(shù)據(jù)、讀者數(shù)據(jù)及管理數(shù)據(jù)等幾個(gè)方面。資源數(shù)據(jù)既有傳統(tǒng)文獻(xiàn)的數(shù)字化,也有各種類型的原生數(shù)字資源,包含電子圖書、電子期刊、數(shù)據(jù)庫(kù)、音視頻資源以及網(wǎng)絡(luò)資源等多種類型,還包括其它異地存儲(chǔ)為我所用的虛擬館藏及大量網(wǎng)絡(luò)資源,具有不同的數(shù)據(jù)格式和展示形式。
  綜上,國(guó)家數(shù)字圖書館加強(qiáng)海量數(shù)據(jù)之間的關(guān)聯(lián)和價(jià)值提煉,深入挖掘用戶行為與數(shù)字資源間的關(guān)聯(lián)關(guān)系、通過用戶行為分析為圖書館數(shù)字資源整合與建設(shè)決策提供數(shù)據(jù)支撐;最終滿足用戶的知識(shí)需求和個(gè)性化服務(wù)需求,盤活珍貴的資產(chǎn),實(shí)現(xiàn)保值增值,已成為必然選擇。
  以大數(shù)據(jù)理念實(shí)現(xiàn)國(guó)家數(shù)字圖書館的資源整合
  面對(duì)完善的數(shù)據(jù)體系和高速的數(shù)據(jù)流,我們要以大數(shù)據(jù)理念實(shí)現(xiàn)國(guó)家數(shù)字圖書館的資源整合。國(guó)家數(shù)字圖書館資源整合原則是什么?統(tǒng)籌規(guī)劃、分步實(shí)施;面向用戶、需求牽引;突出特色、博采眾長(zhǎng)。從實(shí)現(xiàn)途徑來說,首先,建立超大型元數(shù)據(jù)倉(cāng)儲(chǔ),構(gòu)建資源利用新格局。盤活圖書館長(zhǎng)期建設(shè)積累的數(shù)據(jù)和知識(shí)資產(chǎn),可以形成科學(xué)、高效的統(tǒng)一數(shù)字資源服務(wù)體系。其次,完善統(tǒng)一發(fā)現(xiàn)與服務(wù),實(shí)現(xiàn)大數(shù)據(jù)環(huán)境下的資源處理。圖書館要采用新技術(shù),實(shí)現(xiàn)資源的統(tǒng)一聚合與一站式檢索,為用戶提供精準(zhǔn)化和個(gè)性化的信息和知識(shí)。再次,利用語義和關(guān)聯(lián)技術(shù),實(shí)現(xiàn)數(shù)字館藏的組織和聚合。將云服務(wù)與關(guān)聯(lián)數(shù)據(jù)結(jié)合起來的資源管理和服務(wù)模式,可鏈接并聚合圖書館數(shù)字資源,形成一個(gè)有序的知識(shí)服務(wù)體系,并有效實(shí)現(xiàn)區(qū)域內(nèi)資源的傳遞和共享。以及,結(jié)合數(shù)據(jù)分析技術(shù),實(shí)現(xiàn)數(shù)字資源的可持續(xù)發(fā)展。通過大數(shù)據(jù)技術(shù)對(duì)這些數(shù)據(jù)進(jìn)行分析可以掌握不同用戶群體的資源和服務(wù)需求,了解館藏資源的使用水平和流轉(zhuǎn)狀況,并通過對(duì)圖書館用戶檢索、瀏覽、點(diǎn)擊、下載、評(píng)論、閱讀學(xué)習(xí)筆記的相關(guān)數(shù)據(jù),構(gòu)建“資源——用戶”關(guān)系模型,按照用戶的喜好和使用習(xí)慣向用戶推薦具有針對(duì)性的O2O信息服務(wù)。最后,擴(kuò)大網(wǎng)絡(luò)信息保存規(guī)模,提升網(wǎng)絡(luò)資源服務(wù)效力。通過對(duì)不同廣度、深度的網(wǎng)絡(luò)信息的采集、加工和管理,還可以對(duì)外界提供知識(shí)服務(wù)和決策支持。
  我國(guó)的數(shù)字圖書館體系是由國(guó)家圖書館、各級(jí)公共圖書館、行業(yè)圖書館共同組成的,需要圖書館界基于大數(shù)據(jù)環(huán)境下的新技術(shù)發(fā)展,通力協(xié)作,探索實(shí)踐圖書館發(fā)展的新業(yè)態(tài),激發(fā)生命力和活力,釋放圖書館生態(tài)圈的新能量。