丁香五月桃花网,久久久久久精品国产亚洲AV麻豆,A∨无码小缝喷白浆在线观看

未登錄詞處理主要包括識別、詞類標(biāo)注和語義類標(biāo)注等內(nèi)容。目前自然語言處理學(xué)界對于未登錄詞識別研究較多，對于未登錄詞詞類標(biāo)注和語義類標(biāo)注則研究較少。因此，本文主要專注于現(xiàn)代漢語未登錄詞詞類標(biāo)注和語義類標(biāo)注的研究。在未登錄詞詞類標(biāo)注和語義類標(biāo)注過程中主要有兩類可以使用的特征，即內(nèi)部特征和外部特征。所謂內(nèi)部特征指未登錄詞的成分、成分的屬性以及成分、成分屬性的組合序列；所謂外部特征指未登錄詞在語料中的分布，通常用未登錄詞的上下文來表示。本文在前人研究工作的基礎(chǔ)上，構(gòu)建了大規(guī)模的生語料庫，分別使用基于內(nèi)部特征和外部特征的方法以及兩種特征相結(jié)合的方法來自動處理未登錄詞詞類和語義類標(biāo)注的問題。

更多科學(xué)出版社服務(wù)，請掃碼獲取。

　　2000年我給北京大學(xué)中文系本科四年級學(xué)生開“理論語言學(xué)”課，邱立坤是班上最喜歡提問題和爭論問題的同學(xué)之一。他也是一位癡迷語言學(xué)的年輕人，每次和同學(xué)或老師談起語言學(xué)，眼睛就開始發(fā)亮。那時候我們經(jīng)常討論句法結(jié)構(gòu)關(guān)系、語類問題和句法的初始概念問題。我一直指導(dǎo)他的本科學(xué)位論文、碩士學(xué)位論文和博士學(xué)位論文，句法理論的基本問題一直伴隨著我們。學(xué)習(xí)期間，立坤還選修了大量計(jì)算機(jī)課程，人和機(jī)器的關(guān)系，自然語言理解的概率模型和規(guī)則模型也是我們討論的重點(diǎn)。這本書是立坤在博士論文基礎(chǔ)上擴(kuò)展而成的，要解決的問題是未登錄詞的語類標(biāo)注，包括語法的和語義的。這項(xiàng)工作的意義先得從單位和規(guī)則說起。
　　按照結(jié)構(gòu)語言學(xué)的理論，先要確定詞，再確定詞類。詞是最小的自由形式，比如“該校、該系、該所”等分別都是詞。確定了詞以后，再根據(jù)分布確定詞類�！霸撔！边@些詞都分布在通常稱為名詞的環(huán)境中：
　　該校有問題，需要對該校進(jìn)行調(diào)查
　　該系有問題，需要對該系進(jìn)行調(diào)查
　　該所有問題，需要對該所進(jìn)行調(diào)查
　　至于“該校、該系、該所”的構(gòu)詞語素“該、校、系、所”，盡管是最小的，但不自由，不是詞，因此無法根據(jù)自由分布的理論對這些語素進(jìn)行語法分類，也無法根據(jù)這些語素的分布信息來確定“該校、該系、該所”這些詞的語類。概括地說，結(jié)構(gòu)語言學(xué)確定“該校”的語類必須通過“該�！钡姆植肌�

你還可能感興趣

我要評論