現(xiàn)代漢語未登錄詞詞類和語義類標(biāo)注研究
未登錄詞處理主要包括識別、詞類標(biāo)注和語義類標(biāo)注等內(nèi)容。目前自然語言處理學(xué)界對于未登錄詞識別研究較多,對于未登錄詞詞類標(biāo)注和語義類標(biāo)注則研究較少。因此,本文主要專注于現(xiàn)代漢語未登錄詞詞類標(biāo)注和語義類標(biāo)注的研究。在未登錄詞詞類標(biāo)注和語義類標(biāo)注過程中主要有兩類可以使用的特征,即內(nèi)部特征和外部特征。所謂內(nèi)部特征指未登錄詞的成分、成分的屬性以及成分、成分屬性的組合序列;所謂外部特征指未登錄詞在語料中的分布,通常用未登錄詞的上下文來表示。本文在前人研究工作的基礎(chǔ)上,構(gòu)建了大規(guī)模的生語料庫,分別使用基于內(nèi)部特征和外部特征的方法以及兩種特征相結(jié)合的方法來自動處理未登錄詞詞類和語義類標(biāo)注的問題。
更多科學(xué)出版社服務(wù),請掃碼獲取。
2000年我給北京大學(xué)中文系本科四年級學(xué)生開“理論語言學(xué)”課,邱立坤是班上最喜歡提問題和爭論問題的同學(xué)之一。他也是一位癡迷語言學(xué)的年輕人,每次和同學(xué)或老師談起語言學(xué),眼睛就開始發(fā)亮。那時候我們經(jīng)常討論句法結(jié)構(gòu)關(guān)系、語類問題和句法的初始概念問題。我一直指導(dǎo)他的本科學(xué)位論文、碩士學(xué)位論文和博士學(xué)位論文,句法理論的基本問題一直伴隨著我們。學(xué)習(xí)期間,立坤還選修了大量計(jì)算機(jī)課程,人和機(jī)器的關(guān)系,自然語言理解的概率模型和規(guī)則模型也是我們討論的重點(diǎn)。這本書是立坤在博士論文基礎(chǔ)上擴(kuò)展而成的,要解決的問題是未登錄詞的語類標(biāo)注,包括語法的和語義的。這項(xiàng)工作的意義先得從單位和規(guī)則說起。
按照結(jié)構(gòu)語言學(xué)的理論,先要確定詞,再確定詞類。詞是最小的自由形式,比如“該校、該系、該所”等分別都是詞。確定了詞以后,再根據(jù)分布確定詞類!霸撔!边@些詞都分布在通常稱為名詞的環(huán)境中:
該校有問題,需要對該校進(jìn)行調(diào)查
該系有問題,需要對該系進(jìn)行調(diào)查
該所有問題,需要對該所進(jìn)行調(diào)查
至于“該校、該系、該所”的構(gòu)詞語素“該、校、系、所”,盡管是最小的,但不自由,不是詞,因此無法根據(jù)自由分布的理論對這些語素進(jìn)行語法分類,也無法根據(jù)這些語素的分布信息來確定“該校、該系、該所”這些詞的語類。概括地說,結(jié)構(gòu)語言學(xué)確定“該校”的語類必須通過“該!钡姆植肌
目錄
第1章 緒論1
1.1研究對象、背景、問題及應(yīng)用價(jià)值1
1.2研究原則、方法與技術(shù)路線4
1.3本書的組織結(jié)構(gòu)6
第2章 方法論8
2.1語言本體方面的相關(guān)研究8
2.2計(jì)算方面的相關(guān)研究14
2.3本書工作的方法論基礎(chǔ)18
第3章 相關(guān)資源、方法和工具23
3.1相關(guān)語言資源23
3.2條件隨機(jī)場24
3.3評測方法與評測指標(biāo)24
3.4軟件工具25
第4章 現(xiàn)代漢語復(fù)合詞內(nèi)部結(jié)構(gòu)詞典的構(gòu)造26
4.1漢語復(fù)合詞的基本構(gòu)造類型26
4.2詞典構(gòu)建方案27
4.3自動標(biāo)注方法28
4.4結(jié)構(gòu)分析方案、原則和方法30
4.5結(jié)構(gòu)關(guān)系類型的判斷31
4.6成分語法類的判斷32
4.7成分語義類的判斷34
4.8計(jì)算機(jī)輔助人工標(biāo)注35
第5章 未登錄詞詞類自動標(biāo)注37
5.1基于內(nèi)部特征的模型38
5.2可信度計(jì)算40
5.3基于外部特征的詞類標(biāo)注模型41
5.4實(shí)驗(yàn)結(jié)果43
5.5實(shí)驗(yàn)結(jié)果分析46
第6章 基于內(nèi)部特征的未登錄詞語義類自動標(biāo)注47
6.1基線模型48
6.2基于內(nèi)部特征的模型(模型1)50
6.3雙向平行類推規(guī)則與成對替換類推規(guī)則的分析58
6.4實(shí)驗(yàn)59
第7章 結(jié)合內(nèi)部與外部特征的未登錄詞語義類自動標(biāo)注66
7.1結(jié)合內(nèi)部特征與外部特征的模型(模型2)67
7.2實(shí)驗(yàn)72
第8章 未登錄詞語義類自動標(biāo)注的應(yīng)用81
8.1語義詞典修正81
8.2語義詞典擴(kuò)充97
第9章基于分布式詞表示的類比識別與類比挖掘99
9.1關(guān)系相似度任務(wù)與詞嵌入模型100
9.2服務(wù)于類比識別的基于依存上下文的詞語embedding表示102
9.3改進(jìn)的類比識別方法:使用句法依存減少搜索空間103
9.4基于依存embedding的類比挖掘104
9.5實(shí)驗(yàn)106
結(jié)語114
參考文獻(xiàn)116
附錄123
附錄A雙向平行類推規(guī)則示例(后字為共同成分)123
附錄B雙向平行類推規(guī)則示例(前字為共同成分)133
附錄C成對替換類推規(guī)則示例(前字為替換成分)134
附錄D成對替換類推規(guī)則示例(后字為替換成分)150
后記163
表目錄
表4.1語義詞典義項(xiàng)分類列表26
表4.2自動分析方法標(biāo)注結(jié)果匯總30
表5.1四種特征分析方案39
表5.2低可信度序列示例41
表5.3句法模板列表(以“喜歡”為例)42
表5.4訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)中的詞長分布43
表5.5基于內(nèi)部特征的四種方案的實(shí)驗(yàn)結(jié)果44
表5.6使用基于全局上下文的模型及規(guī)則之后的結(jié)果45
表5.7與Wu和Jiang(2000)所提方法的比較46
表6.1未登錄詞“文化部門”的訓(xùn)練詞語51
表6.2序列化子模型使用的特征模板54
表6.3SSM方法字類關(guān)聯(lián)模型在《詞林》IV測試集上的結(jié)果61
表6.4SSM方法規(guī)則子模型在《詞林》IV測試集上的結(jié)果61
表6.5SSM方法混合模型在《詞林》IV測試集上的結(jié)果61
表6.6模型1類類關(guān)聯(lián)子模型在《詞林》IV集上的結(jié)果62
表6.7各種方法在《詞林》IV集上的結(jié)果比較63
表6.8SSM方法規(guī)則子模型在《HowNet》IV集上的結(jié)果63
表6.9模型1類類關(guān)聯(lián)子模型在《HowNet》IV集上的結(jié)果64
表6.10各模型在《HowNet》IV集上的結(jié)果比較64
表6.11各方法在《詞林》TSOOV集上的結(jié)果比較65
表7.1哈爾濱工業(yè)大學(xué)依存句法標(biāo)注體系及其含義69
表7.2上下文詞語頻次示例70
表7.3模型2與其他方法的比較74
表7.4權(quán)重計(jì)算方法的比較76
表7.5模型2中三個選項(xiàng)的比較77
表8.1基于成對替換類推規(guī)則的詞典修正算法1結(jié)果分析示例84
表8.2基于雙向平行類推規(guī)則的詞典修正算法1結(jié)果分析示例86
表8.3TS1義項(xiàng)缺失或不當(dāng)自動發(fā)現(xiàn)結(jié)果分析90
表8.4五個昀佳候選結(jié)果98
表9.《同義詞詞林》和CWS上的漢語embedding評價(jià)結(jié)果108
表9.CAQS上的漢語embedding評價(jià)結(jié)果109
表9.Google數(shù)據(jù)集上的英語embedding評價(jià)結(jié)果109
表9.NG2、NG5、DEP相似詞示例110
表9.類比挖掘?qū)嶒?yàn)結(jié)果112
圖目錄
圖5.1特征模板40
圖5.2投票標(biāo)準(zhǔn)42
圖6.1模型1步驟說明57
圖7.1依存句法分析示例70
圖7.2權(quán)重計(jì)算方法71
圖7.3模型2F值隨K值變化曲線(0<K<80)76
圖9.1依存句法樹示例103
圖9.2基于自舉的類比挖掘算法105