隨著格式化全文數(shù)據(jù)的出現(xiàn),基于全文數(shù)據(jù)的引文分析,或全文引文分析,變得更加方便。全文引文分析方法,通過識別和分析引文在施引文獻正文中的具體引用位置、引用次數(shù)和引用語境,從而在微觀上揭示引用的特征和規(guī)律,發(fā)現(xiàn)引用背后的動機和機理,識別引文在施引文獻中的功能和作用。在對基于全文的引用行為研究進行綜述的基礎(chǔ)上,本文提出一種由引用位置、引用強度和引用語境組成的全文引文分析的研究框架,可以系統(tǒng)而全面地對科學(xué)論文正文中的引用信息進行分析和研究。
更多科學(xué)出版社服務(wù),請掃碼獲取。
這可能是世界上第一部叫做“全文引文分析”的著作。當(dāng)然,從學(xué)術(shù)的角度來看,這未必是一件值得驕傲的事情。一個選題如果過于小眾,也可以以所謂的“新穎性”和“開拓性”自居。選一個別人還沒有涉足的研究領(lǐng)域并非難事,難的是押中的這個領(lǐng)域?qū)硎欠衲軌蛎撾x小眾、成為主流,是否能夠得到同行專家和學(xué)者的認(rèn)可和肯定。否則,一項“開拓性”的研究選題就會陷入自娛自樂的尷尬境地,在堅持和放棄之間進退兩難。這當(dāng)然不是我愿意看到的局面。
當(dāng)然,我也不相信這樣的局面會發(fā)生在全文引文分析領(lǐng)域。雖然這-領(lǐng)域還處在研究范式形成的初期階段,但我有著遠(yuǎn)超于此的信心和樂觀。正如我的博士導(dǎo)師劉則淵教授在為本書所寫的序言里所說,“全文科學(xué)文本蘊藏的豐富引文空間信息,是一片尚待開墾的處女地,為拓荒者提供了大展宏圖的機遇與場所”。對于文獻分析和科技評價領(lǐng)域有所涉足的同行專家來說,洞察基于全文數(shù)據(jù)的引文分析所能帶來的研究前景并非難事。因此,我并不想在這里浪費讀者的時間去論述全文引文分析這-領(lǐng)域的研究意義和學(xué)術(shù)價值,雖然在這方面我其實很有經(jīng)驗-在我博士論文的創(chuàng)新點和國家自然科學(xué)基金的申請書中,都有大量的論證全文引文分析是如何重要和前沿的段落。我更愿意借此機會回顧一下自己是如何進入全文引文分析這-領(lǐng)域的。
2011年,我最早進入全文引文分析領(lǐng)域的時候,并沒有“全文引文分析”這個術(shù)語。那年秋天,我正以大連理工大學(xué)聯(lián)合培養(yǎng)博士生的身份,在美國費城的德雷塞爾大學(xué)跟隨陳超美教授進行為期18個月的學(xué)習(xí)。時間已經(jīng)過半,但是我關(guān)于科學(xué)家新陳代謝規(guī)律的研究還是沒有大的突破,于是陳老師建議我換一個方向。那時候,他剛剛獲得了Elsevier Consyn數(shù)據(jù)庫的試用權(quán)限,可以批量下載Elsevier收錄的期刊論文的XML格式的全文數(shù)據(jù),他讓我試試能不能從這些全文數(shù)據(jù)中挖掘出一些有意義的東西。多番嘗試以后,我們都認(rèn)為最有價值的信息是正文中出現(xiàn)的引用信息,比如引用的位置和引用的語境等。于是,我試著編寫程序從中抽取并索引所有關(guān)于引用的信息,同時也對全文的章節(jié)結(jié)構(gòu)進行解析和切分,以便判斷引用所在的章節(jié)位置。
程序的編寫持續(xù)了數(shù)周,以Journal of Informetrics期刊所載論文為案例而做的引用信息抽取工作終于完成,這些引用信息被分別存放到MySQL數(shù)據(jù)庫的幾個表中,等待隨后進行的分析和解讀。這時候,設(shè)計一個全面而系統(tǒng)的分析和解讀框架,以確定我接下來的研究邊界,是首先需要完成的任務(wù)。在大量文獻研讀的基礎(chǔ)上,我最終選擇引用位置、引用強度和引用語境這樣三個“完備正交”的研究維度,作為我這一研究的總綱領(lǐng)。
胡志剛(1984-),男,山東濟寧人,大連理工大學(xué)科學(xué)學(xué)與科技管理研究所講師、博士后。2006年本科畢業(yè)于北京師范大學(xué)管理學(xué)院,2009年碩士畢業(yè)于中國科學(xué)院研究生院人文學(xué)院,2014年博士畢業(yè)于大連理工大學(xué)科學(xué)學(xué)與科技管理研究所并留校任教。2010~2012年間在美國德雷賽爾大學(xué)做聯(lián)合培養(yǎng)博士生。
主持國家自然科學(xué)基金青年項目1項,中國博士后基金資助項目1項,參與其他國家、省市級和其他委托項目10余項。參與編寫或翻譯出版學(xué)術(shù)專著3部,在Journal of Informetrics、Scientometrics、《情報學(xué)報》、《國書情報工作》、《科學(xué)學(xué)與科技管理》等期刊發(fā)表論文30余篇。
目錄
序邁向引文分析4.0時代
前言
01全文引文分析:引文分析的新階段 / 1
1.1 引文分析的誕生和發(fā)展 / 1
1.2 對引文功能和引用動機的探索 / 3
1.3 全文引文分析應(yīng)運而生 / 9
1.4 全文引文分析:新的開始 / 15
02位置、強度和語境:全文引文分析的三個維度 / 19
2.1 引用位置:where to cite / 19
2.2 引用強度:how to cite / 21
2.3 引用語境:why to cite / 23
03從引文到引用:全文引文分析的研究進路 / 28
3.1 引文和引用:兩個不同的概念 / 28
3.2 引用:全文引文分析的對象 / 31
3.3 引文特征與引用特征:全文引文分析的框架 / 33
04學(xué)術(shù)論文文本:全文引文分析的數(shù)據(jù)基礎(chǔ) / 36
4.1 學(xué)術(shù)論文的歷史演變 / 36
4.2 PDF文檔:學(xué)術(shù)論文的電子化 / 38
4.3 HTML/XML文檔:學(xué)術(shù)論文的結(jié)構(gòu)化 / 39
4.4 常見的全文數(shù)據(jù)庫 / 41
4.5 XML格式學(xué)術(shù)論文的典型架構(gòu) / 48
05引用信息抽。捍罱ㄒ粋全文引文分析的系統(tǒng) / 53
5.1 全文中學(xué)術(shù)信息的提取 / 53
5.2 構(gòu)建面向 XML格式全文的引文分析系統(tǒng) / 71
5.3 數(shù)據(jù)層:引用信息的提取 / 73
5.4 數(shù)據(jù)層:引用信息的存儲 / 76
5.5 用戶層:引用信息的檢索 / 77
5.6 用戶層:引用信息的可視化 / 79
5.7 全文引文分析的案例分析 / 80
06引用位置分析:可視化的展現(xiàn) / 83
6.1 學(xué)術(shù)論文的正文結(jié)構(gòu) / 83
6.2 引用在學(xué)術(shù)論文中的位置分布 / 89
6.3 引用位置與引文特征之間的關(guān)系 / 96
6.4 引用位置的基本特征 / 99
07引用強度分析:正文中的多引現(xiàn)象 / 101
7.1 引文的引用強度分布分析 / 101
7.2 引用強度與引用位置的關(guān)系 / 105
7.3 引用強度與引文特征的關(guān)系 / 109
7.4 引用強度的基本特征 / 112
08引用語境分析:內(nèi)容詞與線索詞 / 113
8.1 引用語境的基本特征 / 113
8.2 引用語境與引用特征的關(guān)系 / 127
8.3 引用語境與引文特征的關(guān)系 / 145
8.4 引用語境的基本特征 / 156
09斷章取義:引用位置在科學(xué)知識圖譜構(gòu)建中的應(yīng)用 / 159
9.1 科學(xué)知識圖譜方法及其功能 / 159
9.2 統(tǒng)計論文各節(jié)中被引次數(shù)最高的論文列表 / 160
9.3 利用 CiteSpace繪制共被引關(guān)系的科學(xué)知識圖譜 / 162
9.4 將引用位置的考量加入到科學(xué)知識圖譜的繪制中 / 163
10引新吐故:引用強度在論文評價中的應(yīng)用 / 167
10.1 傳統(tǒng)被引次數(shù)評價的局限 / 167
10.2 一種基于引用的統(tǒng)計引文被引次數(shù)的方法 / 168
10.3 新方法可以更早地對高被引論文做出評價和預(yù)見 / 171
11尋詞摘句:引用語境在文獻檢索中的應(yīng)用 / 174
11.1 科學(xué)文獻檢索與學(xué)術(shù)論文寫作 / 174
11.2 基于全文的引用語境檢索系統(tǒng)的設(shè)計 / 176
11.3 基于全文的引用語境檢索系統(tǒng)的使用 / 177
11.4 學(xué)術(shù)論文寫作中引用語境檢索系統(tǒng)的應(yīng)用 / 178
參考文獻 / 183
附錄A人稱代詞列表 / 192
附錄B行為動詞列表 / 193
附錄C連接詞列表 / 204
彩圖 /205