在以“數字資源揭示——海量數據環(huán)境下圖書館資源發(fā)現之路”為題的第二屆2014圖書館現代技術學術研討會上,國家圖書館副館長魏大威分享和探討了他對大數據環(huán)境下國家數字圖書館建設的一些思考。如果說未來不會用大數據的企業(yè)就像現在的企業(yè)不會用電,這一點對圖書館也一樣。
圖書館要重視對大數據的整理和挖掘
由信息爆炸時代產生的海量數據即大數據、云計算、物聯網等關鍵技術引領的信息技術變革,為處于大數據環(huán)境下數字圖書館的資源整合以及服務創(chuàng)新帶來了機遇和挑戰(zhàn)。
圖書館的大數據是什么?我認為它由以下幾方面構成:一是多種類型的海量資源及龐大用戶群體所涵蓋的用戶數據;二是圖書館的生產數據和業(yè)務數據根據數字資源生命周期,在各業(yè)務系統間高速流轉及由此建立的數據體系;三是通過圖書館海量數據滿足用戶的知識需求和個性化服務需求的價值體現。
截至2014年12月,國家數字圖書館數字資源總量從上一年的874.5TB躍增至1024.37TB,電子圖書3,671,058種,電子期刊57,943種,電子報紙15,237種,特藏專藏合計10,349,917種,外購數據庫277個。在2013年底,文津搜索匯集的元數據已達2.9億條,數據資源增長量保持迅猛態(tài)勢。(見表1)
隨著服務的創(chuàng)新,國家數字圖書館讀者服務已擴展至計算機、數字電視、手機、手持閱讀器、平板電腦、電子觸摸屏等多種服務終端,服務前端包括國家圖書館主站、國家圖書館讀者門戶、OPAC檢索、文津搜索、國家圖書館手機門戶、國家圖書館WAP網站、移動閱讀平臺、各APP應用程序。這都取得了較好的服務效果。如,國家數字圖書館網站2013年總點擊量達到13.03億次,2013年為10.36億次。像文津搜索系統、讀者門戶對象數據、手機門戶等月均頁面訪問次數都為百萬余次,隨著服務量的增加,各業(yè)務系統每天都會產生大量的日志數據,其中包含了大量的用戶行為信息,例如,Aleph系統日均產生日志數據約20GB,文津搜索系統日均產生日志數據大于300G。讀者數據,尤其是讀者行為數據中包含大量有價值的信息,對這些信息的挖掘和利用,越來越得到圖書館的重視。
圖書館的數據包括資源數據、采集數據、讀者數據及管理數據等幾個方面。資源數據既有傳統文獻的數字化,也有各種類型的原生數字資源,包含電子圖書、電子期刊、數據庫、音視頻資源以及網絡資源等多種類型,還包括其它異地存儲為我所用的虛擬館藏及大量網絡資源,具有不同的數據格式和展示形式。
綜上,國家數字圖書館加強海量數據之間的關聯和價值提煉,深入挖掘用戶行為與數字資源間的關聯關系、通過用戶行為分析為圖書館數字資源整合與建設決策提供數據支撐;最終滿足用戶的知識需求和個性化服務需求,盤活珍貴的資產,實現保值增值,已成為必然選擇。
以大數據理念實現國家數字圖書館的資源整合
面對完善的數據體系和高速的數據流,我們要以大數據理念實現國家數字圖書館的資源整合。國家數字圖書館資源整合原則是什么?統籌規(guī)劃、分步實施;面向用戶、需求牽引;突出特色、博采眾長。從實現途徑來說,首先,建立超大型元數據倉儲,構建資源利用新格局。盤活圖書館長期建設積累的數據和知識資產,可以形成科學、高效的統一數字資源服務體系。其次,完善統一發(fā)現與服務,實現大數據環(huán)境下的資源處理。圖書館要采用新技術,實現資源的統一聚合與一站式檢索,為用戶提供精準化和個性化的信息和知識。再次,利用語義和關聯技術,實現數字館藏的組織和聚合。將云服務與關聯數據結合起來的資源管理和服務模式,可鏈接并聚合圖書館數字資源,形成一個有序的知識服務體系,并有效實現區(qū)域內資源的傳遞和共享。以及,結合數據分析技術,實現數字資源的可持續(xù)發(fā)展。通過大數據技術對這些數據進行分析可以掌握不同用戶群體的資源和服務需求,了解館藏資源的使用水平和流轉狀況,并通過對圖書館用戶檢索、瀏覽、點擊、下載、評論、閱讀學習筆記的相關數據,構建“資源——用戶”關系模型,按照用戶的喜好和使用習慣向用戶推薦具有針對性的O2O信息服務。最后,擴大網絡信息保存規(guī)模,提升網絡資源服務效力。通過對不同廣度、深度的網絡信息的采集、加工和管理,還可以對外界提供知識服務和決策支持。
我國的數字圖書館體系是由國家圖書館、各級公共圖書館、行業(yè)圖書館共同組成的,需要圖書館界基于大數據環(huán)境下的新技術發(fā)展,通力協作,探索實踐圖書館發(fā)展的新業(yè)態(tài),激發(fā)生命力和活力,釋放圖書館生態(tài)圈的新能量。