《多語言網(wǎng)絡學術信息挖掘與檢索》對多語言網(wǎng)絡學術信息資源的利用進行了以下四個方面的理論與實踐研究:(1)多語言網(wǎng)絡學術信息用戶需求與行為研究。就兩類網(wǎng)絡學術信息資源--數(shù)字圖書館和新型網(wǎng)絡學術信息資源,展開多語言用戶需求與行為調(diào)查。(2)多語言網(wǎng)絡學術信息表示與規(guī)范方法研究。對能夠提供學術信息的新型網(wǎng)站,包括圖書標注系統(tǒng)、學術論文標注系統(tǒng)、學術博客等的社會標簽與主題詞表的進行比較實驗。(3)多語言網(wǎng)絡學術信息翻譯與測評技術研究。以圖書情報領域為例,構建了兩個圖書情報領域的語義詞典和一套圖書情報領域多語言學術信息檢索測評體系。(4)多語言網(wǎng)絡學術信息檢索系統(tǒng)實現(xiàn)與實驗研究。開發(fā)了一個多語言網(wǎng)絡學術信息檢索系統(tǒng)Milk-Tea,并進一步進行了跨語言信息檢索實驗。
更多科學出版社服務,請掃碼獲取。
吳丹編寫的《多語言網(wǎng)絡學術信息挖掘與檢索》圍繞數(shù)字圖書館和新型網(wǎng)絡學術資源,進行了用戶需求與行為調(diào)查。
從三類新型網(wǎng)絡學術資源上抽取中英文標簽,探討了網(wǎng)絡學術信息表示的規(guī)范性,并通過挖掘這些標簽構建了多種翻譯資源組合模式,及一套圖書情報領域跨語言學術信息檢索測評體系;開發(fā)了一個圖書情報領域中英文跨語言學術信息檢索系統(tǒng),進行了自動和用戶信息檢索實驗分析。
本書適合高校圖書館、情報與檔案管理專業(yè),管理科學與工程專業(yè)及相關專業(yè)的教學科研人員和學生閱讀,也可供工作范圍涉及該領域的工程技術人員參考。
對網(wǎng)絡學術信息進行準確的表示與描述,從而無縫地獲取各種學術信息資源,是科研工作者和信息服務機構亟待解決的一個問題。目前,網(wǎng)絡學術信息資源的特點表現(xiàn)為:數(shù)量龐大,數(shù)字圖書館等網(wǎng)絡資源的建設使得大量文本資源轉(zhuǎn)化成更宜傳播的數(shù)字資源;來源豐富,學術信息不再僅存在于結構化的數(shù)據(jù)庫中,更多的學者或普通用戶通過網(wǎng)頁、論壇、博客、百科、問答系統(tǒng)等多種方式貢獻或獲取有價值的學術信息;語種多樣,隨著世界范圍學術交流活動的日益頻繁,越來越多的科研工作者需要了解和獲取多語種學術資源;信息表示由受控標記發(fā)展為自由標記,用戶不再僅是網(wǎng)絡信息資源的消費者,同時也是創(chuàng)造者、描述者、組織者;無縫智能獲取,網(wǎng)絡學術信息的發(fā)展趨勢是用戶超越時空限制、跨越語言障礙而無縫智能地獲取學術信息,形成信息高度共享。
據(jù)統(tǒng)計,目前網(wǎng)上學術信息按語言分布的情況是:英語大約占7。%,法語、德語分別占6%,而漢語僅占網(wǎng)上學術信息總量的3%左右。這個數(shù)據(jù)說明,僅對漢語學術信息的單一表達處理,網(wǎng)絡發(fā)揮的學術效益只占網(wǎng)絡效益的3%左右。要提高學術信息獲取效率,實現(xiàn)無縫獲取,必須進行多語言網(wǎng)絡學術信息的挖掘與檢索創(chuàng)新研究。
從國內(nèi)外的研究情況可以看出,采用協(xié)同標注對多語言學術信息資源進行描述、分類、組織、檢索的過程中存在著信息描述精確度不高、標簽組織混亂、同一領域不同用戶的表示結果差異較大等缺陷。因此,我們需要對網(wǎng)絡學術信息的多語言標簽進行規(guī)范控制。同時,還需充分考慮對已有的網(wǎng)絡學術信息的標簽進行挖掘和有效利用,形成高質(zhì)量的領域翻譯資源。信息表示的目的是為了信息獲取,利用良好的多語言學術信息標簽去提高多語言學術信息檢索的效率,這種模式對于深度開發(fā)網(wǎng)絡信息資源是十分重要的。
本書對多語言網(wǎng)絡學術信息資源進行了以下四個方面的理論與實踐研究。
。1)多語言網(wǎng)絡學術信息用戶需求與行為研究。通過對兩類網(wǎng)絡學術信息資源——數(shù)字圖書館和新型網(wǎng)絡學術信息資源,展開多語言用戶需求與行為調(diào)查。結果顯示:對于數(shù)字圖書館而言,用戶對多語言學術信息有較強的需求,不同類型用戶對數(shù)字圖書館提供的多語言學術信息服務有不同程度的要求。對于新型網(wǎng)絡學術信息資源而言,大學生普遍認為新型網(wǎng)絡學術信息資源比較重要,且不同國家的用戶對網(wǎng)絡信息資源使用的偏好也不同,這些新型網(wǎng)絡學術信息資源的質(zhì)量有待提高。
。2)多語言網(wǎng)絡學術信息標簽規(guī)范與挖掘研究。通過對能夠提供學術信息的新型網(wǎng)站,包括圖書標注系統(tǒng)、學術論文標注系統(tǒng)、學術博客等的社會標簽與主題詞表的比較實驗發(fā)現(xiàn),盡管標簽與詞表的重合度并不高,且中文網(wǎng)站與英文網(wǎng)站的表示方法也存在異同,但是從新型網(wǎng)絡學術資源網(wǎng)站中抽取出來的社會標簽對多語言網(wǎng)絡學術信息的檢索具有一定的幫助作用,可以用來形成翻譯資源。
。3)多語言網(wǎng)絡學術信息翻譯與測評技術研究。為了支持多語言網(wǎng)絡學術信息檢索,一方面,我們以圖書情報領域為例,構建了兩個圖書情報領域的語義詞典:一是由網(wǎng)絡學術信息資源作者提供或自動抽取術語形成的專業(yè)詞典,二是由網(wǎng)絡學術信息資源用戶提供的社會標簽所形成的標注詞典。另一方面,我們構建了一套圖書情報領域多語言學術信息檢索測評體系。
……
吳丹,女,1978年生,博士,現(xiàn)為武漢大學信息管理學院副教授,珞珈青年學者。2008年畢業(yè)于北京大學情報學專業(yè),獲管理學博士學位。2006年至2007年公派赴美國匹茲堡大學從事跨語言信息檢索研究。近年先后在國內(nèi)外發(fā)表學術論文60余篇,其中被SCI和SSCI檢索4篇,參編著作8部,主持國家級、省部級、校級科研課題10項。主要研究領域為跨語言信息檢索、語言處理技術、數(shù)字圖書館、知識組織等。
目錄CONTENTS
序言 i
前言 v
第一章 網(wǎng)絡學術信息概述 1
第一節(jié) 網(wǎng)絡學術交流方式 2
一、正式的網(wǎng)絡學術信息交流方式 2
二、半正式的網(wǎng)絡學術信息交流方式 3
三、非正式的網(wǎng)絡學術信息交流方式 4
第二節(jié) 網(wǎng)絡學術信息的特點 6
第三節(jié) 網(wǎng)絡學術信息的組織 7
一、數(shù)據(jù)庫 8
二、學術搜索引擎 8
三、數(shù)字圖書館 8
四、用戶標注 9
第四節(jié) 未來網(wǎng)絡學術信息的無縫獲取——cyberscholarship 9
第五節(jié) 多語言網(wǎng)絡學術信息研究述評 10
本章參考文獻 13
第二章 多語言網(wǎng)絡學術信息用戶需求與行為調(diào)查 16
第一節(jié) 網(wǎng)絡學術信息的用戶研究 16
一、用戶使用信息資源的類型 17
二、不同國家用戶的信息行為 18
三、大學生的信息行為 18
四、團隊的信息行為 19
第二節(jié) 數(shù)字圖書館用戶的多語言信息需求與期望調(diào)查 20
一、調(diào)查目的 20
二、問卷設計 21
三、調(diào)查對象 22
四、問卷信度和效度測試 23
五、問卷結果統(tǒng)計分析 24
第三節(jié) 用戶與新型網(wǎng)絡學術信息資源的交互行為調(diào)查 34
一、調(diào)查目的 34
二、問卷設計 35
三、調(diào)查對象 36
四、問卷結果統(tǒng)計分析 37
第四節(jié) 用戶對多語言網(wǎng)絡學術信息的需求與行為分析 45
一、用戶對多語言網(wǎng)絡學術信息的需求 45
二、用戶對多語言網(wǎng)絡學術信息的行為 47
第五節(jié) 本章小結 48
本章參考文獻 49
第三章 多語言網(wǎng)絡學術信息標簽規(guī)范與挖掘 53
第一節(jié) Web2.0環(huán)境下的網(wǎng)絡學術信息資源 53
一、圖書標注系統(tǒng) 53
二、學術論文標注系統(tǒng) 55
三、學術博客 57
第二節(jié) 社會標簽——網(wǎng)絡學術信息表示的新方法 58
一、社會標簽在網(wǎng)絡學術信息表示中的作用 59
二、社會標注與主題標引的比較 61
第三節(jié) 中英文學術資源網(wǎng)站的社會標簽規(guī)范性測評實驗——以圖書情報領域為例 63
一、圖書標注的規(guī)范性測評 63
二、學術論文標注的規(guī)范性測評 76
三、學術博客標注的規(guī)范性測評 81
第四節(jié) 網(wǎng)絡學術信息表示的規(guī)范控制方法 85
一、圖書標注規(guī)范性控制 86
二、學術論文標注規(guī)范性 87
三、學術博客標注規(guī)范性 89
第五節(jié) 本章小結 90
本章參考文獻 90
第四章 多語言網(wǎng)絡學術信息翻譯資源與測評體系構建 93
第一節(jié) 多語言網(wǎng)絡學術信息檢索的關鍵技術 93
一、跨語言信息檢索技術 93
二、機器翻譯技術 97
三、跨語言信息檢索評價體系 98
第二節(jié) 翻譯資源及其構建方法 100
一、雙語詞典 100
二、雙語語料庫 102
三、機器翻譯系統(tǒng) 103
四、多語敘詞表 104
五、多語本體 105
第三節(jié) 圖書情報領域多語言學術信息的翻譯資源構建 107
一、專業(yè)術語翻譯的特點 107
二、圖書情報領域中英文專業(yè)詞典構建 108
三、圖書情報領域中英文標注詞典構建 112
四、詞典構建的特點 113
第四節(jié) 圖書情報領域多語言學術信息的檢索測評體系構建 114
一、測試文檔集建立 114
二、檢索主題設計 117
三、標準答案集構建 122
四、該測評體系的特點 126
第五節(jié) 本章小結 126
本章參考文獻 127
第五章 多語言網(wǎng)絡學術信息檢索系統(tǒng)實現(xiàn) 130
第一節(jié) 系統(tǒng)實現(xiàn)的流程與環(huán)境 130
一、系統(tǒng)實現(xiàn)的流程 131
二、系統(tǒng)的 132
第二節(jié) 系統(tǒng)相關資源與算法 132
一、系統(tǒng)語料 132
二、翻譯資源 132
三、查詢翻譯 134
四、檢索模塊 134
五、檢索結果翻譯 136
第三節(jié) 系統(tǒng)主要功能及界面 137
一、用戶管理 137
二、圖書情報領域多語言學術信息檢索測評 140
三、圖書情報領域跨語言學術信息檢索 140
第四節(jié) 本章小結 145
本章參考文獻 145
第六章 多語言網(wǎng)絡學術信息檢索實驗 146
第一節(jié) 自動檢索實驗設計 146
一、實驗目的 146
二、評價指標 147
第二節(jié) 自動檢索實驗結果分析 148
一、短查詢實驗結果 148
二、長查詢實驗結果 151
第三節(jié) 用戶檢索實驗設計 153
一、實驗目的 153
二、檢索主題選擇 154
三、系統(tǒng)界面及參數(shù)設置 154
四、實驗用戶確定 155
五、實驗步驟 157
第四節(jié) 用戶檢索實驗結果分析——系統(tǒng)檢索性能 157
一、平均NDCG值 158
二、最佳NDCG值 160
三、用戶實驗的NDCG值與自動實驗的比較 163
第五節(jié) 用戶檢索實驗結果分析——用戶評價 166
一、用戶背景 167
二、用戶對每次檢索的評價 168
三、用戶對Milk-Tea的綜合評價 170
第六節(jié) 用戶檢索實驗結果分析——用戶行為 171
一、針對每個檢索主題的用戶行為分析 171
二、針對每個查詢式的用戶行為分析 174
第七節(jié) 實驗結論 177
一、自動檢索實驗結論 177
二、用戶檢索實驗結論 178
本章參考文獻 178
附錄 180
附錄1 數(shù)字圖書館用戶的多語言信息需求與期望調(diào)查問卷(中文版)180
附錄2 數(shù)字圖書館用戶的多語言信息需求與期望調(diào)查問卷(英文版)185
附錄3 用戶與新型網(wǎng)絡學術信息資源的交互行為調(diào)查問卷(中文版)191
附錄4 用戶與新網(wǎng)絡學術信息資源的交互行為調(diào)查問卷(英文版)194
附錄5用于“中英文學術資源網(wǎng)站的社會標簽規(guī)范性測評實驗”的圖書情報領域中英文檢索詞 198
附錄6 50個圖書情報領域檢索主題的部分字段(中文)199
附錄7 50個圖書情報領域檢索主題的部分字段(英文)207
附錄8 用于用戶檢索實驗的10個圖書情報領域檢索主題的全部字段(中文)218
附錄9 Milk-Tea用戶檢索實驗調(diào)查問卷 223
后記 229
第一節(jié) 網(wǎng)絡學術交流方式
網(wǎng)絡學術發(fā)軔于20世紀90年代興起的網(wǎng)絡文學,2l世紀以后發(fā)展迅猛。它不僅改變了傳統(tǒng)學術交流的方式,也改變了傳統(tǒng)學術交流的生態(tài)。其作用表現(xiàn)為知識創(chuàng)造方式、研究方式的變化,信息獲取方式的變化,研究成果的發(fā)布,評價、傳播方式的變化,以及出版物形態(tài)與出版模式的變化等。網(wǎng)絡學術突破了傳統(tǒng)學術的局限性,拓展了學術信息交流的空間,豐富了學術研究的內(nèi)容和形式,對學術思想和學術研究的重要性日益突出,越來越成為現(xiàn)代信息用戶學術信息交流的重要選擇。
網(wǎng)絡環(huán)境下,學術信息交流向立體化、多層面發(fā)展,學術交流的“正式”與“非正式”界限逐步淡化,呈現(xiàn)出多種交流方式并存的局面。一、正式的網(wǎng)絡學術信息交流方式
正式的學術信息交流是指借助于公開發(fā)表的文獻進行的學術信息交流過程。在紙質(zhì)載體時代,公開發(fā)表的文獻主要是指印刷型圖書、學術期刊、科技報告等。網(wǎng)絡環(huán)境下的正式交流過程可以被看做是紙質(zhì)載體時代的正式交流在互聯(lián)網(wǎng)上的延伸,主要分為網(wǎng)絡出版物、網(wǎng)絡上的數(shù)字化文獻及開放存取期刊
三種。
(一)網(wǎng)絡出版物
網(wǎng)絡出版又稱互聯(lián)網(wǎng)出版,是指具有合法出版資格的出版機構,以互聯(lián)網(wǎng)為載體和流通渠道,出版并銷售數(shù)字出版物的行為。與傳統(tǒng)出版相比,網(wǎng)絡出版具有快速、便捷、低定價、低成本、無需倉儲、無需運輸?shù)葍?yōu)勢。在資源利用上,它不需要紙張、不需要油墨等,是一種純粹的環(huán)保、綠色產(chǎn)品。這些優(yōu)點給網(wǎng)絡出版的發(fā)展開拓了更廣闊的空間。網(wǎng)絡出版物主要有互聯(lián)網(wǎng)圖書、互聯(lián)網(wǎng)報紙、互聯(lián)網(wǎng)雜志、互聯(lián)網(wǎng)音像出版物等。
(二)網(wǎng)絡上的數(shù)字化文獻
在印刷出版時代,出版商建立了以學術專著和學術期刊為基礎的科學信息交流系統(tǒng),網(wǎng)絡環(huán)境下,許多出版商將傳統(tǒng)的印刷版文獻數(shù)字化處理,主要表現(xiàn)為:電子期刊、電子圖書、電子版工具書、標準、專利等。相比印刷版文獻,這類經(jīng)過數(shù)字化處理并放到互聯(lián)網(wǎng)上的正式出版物更易于獲取和使用。
……