藏語分詞研究是藏語文本信息處理*基本的研究工作,國內(nèi)藏語分詞研究經(jīng)歷了十多年的歷史,研究方法也從*初的基于詞典匹配的規(guī)則方法到基于大規(guī)模文本的統(tǒng)計方法。但是到目前為止沒有一個實用的藏語分詞軟件和供分詞研究的評測語料庫。本書作者針對藏語分詞中的各種問題,進行細致的闡述,并在同一評測語料庫的基礎(chǔ)上,對各種分詞方法進行實驗、測試,比較。
龍從軍,男,1978年9月,中國社會科學(xué)院民族學(xué)與人類學(xué)研究所語音學(xué)與計算語言學(xué)研究室助理研究員,博士,中國科學(xué)院軟件研究所基礎(chǔ)軟件研究中心博士后(在站)。主要研究方向:藏語計算語言學(xué),尤其在藏語自動分詞、詞性自動標注、句法語義自動標注方面進行過大量的研究。撰寫多篇論文,出版合著2本。
第1章 現(xiàn)代藏文文本特點
1.1現(xiàn)代藏文字母、符號和編碼
1.2藏文字符編碼與分詞的關(guān)系
1.3藏文音節(jié)結(jié)構(gòu)
1.4藏文的數(shù)字
1.5藏文黏寫特點
1.6藏文標點符號特點
1.7 藏文命名實體的特點
1.7.1藏文人名特點
1.7.2藏文地名的特點
1.7.3藏文機構(gòu)名的特點
1.7.4藏文時間詞特點
1.7.5藏文的地址特點
1.8藏文文本的其他特點
第2章 藏語分詞研究的歷史與現(xiàn)狀
2.1引言
2.2藏語分詞的思路
2.3藏語分詞原則及分詞詞表研究
2.4藏語分詞技術(shù)研究
2.5藏語現(xiàn)有分詞系統(tǒng)比較
第3章 藏語文本分詞規(guī)范與原則
3.1藏語機器分詞原則的討論
3.1.1 漢語分詞原則的研究歷史
3.1.2 藏文分詞原則的研究歷史
3.2藏語分詞原則的操作
3.2.1藏語分詞總原則
3.2.2藏語分詞細則
3.3 本書分詞語料庫簡介
第4章 藏語黏寫形式切分方法比較研究
4.1 藏語黏寫形式特點
4.1.1黏寫形式的含義
4.1.2 黏寫形式切分困難
4.1.3黏寫形式的分布
4.2黏寫形式切分方法
4.2.1基于規(guī)則的還原法
4.2.2基于規(guī)則和統(tǒng)計結(jié)合的切分方法
4.2.3基于統(tǒng)計的字位標注法
4.3黏寫形式切分實驗及結(jié)果比較
4.3.1基于規(guī)則的一體化切分實驗
4.3.2基于統(tǒng)計的黏寫分詞一體化切分實驗
4.3.4基于統(tǒng)計的“單切分”實驗
4.3.5基于統(tǒng)計和規(guī)則相結(jié)合實驗
第5章 基于規(guī)則的藏語分詞研究
5.1 規(guī)則分詞
5.1.1*大匹配分詞法
5.1.2逐詞遍歷匹配法
5.2藏語規(guī)則匹配分詞存在的問題
5.2.1未登錄詞對分詞的影響
5.2.3歧義切分對分詞的影響
5.3基于規(guī)則分詞方法的改進
5.3.1基于組塊的分詞改進
5.3.2加入詞頻信息
5.3.3設(shè)立切詞標記
5.3.4詞典排序的改進
5.4規(guī)則分詞評測標準及實驗分析
5.4.1 分詞評測標準
5.4.2分詞評測語料
5.4.3 *大匹配分詞實驗
5.4.4 基于黏寫預(yù)處理的規(guī)則分詞實驗
5.4.5 基于格分塊的規(guī)則分詞實驗
5.5 基于規(guī)則的分詞軟件簡介
5.5.1軟件說明
5.5.2軟件安裝與卸載
5.5.3軟件平臺
5.5.4軟件操作
第6章 基于規(guī)則分詞的數(shù)詞處理
6.1藏文的數(shù)字及數(shù)詞結(jié)構(gòu)
6.2基于規(guī)則的藏文數(shù)字識別
6.2.1數(shù)字構(gòu)件的分類
6.2.2 數(shù)字識別
6.2.3 實驗結(jié)果
第7章 基于*大熵模型的藏文分詞研究
7.1引言
7.2*大熵模型
7.2.1信息熵
7.2.2互信息
7.2.3*大熵原理
7.2.4*大熵模型
7.3*大熵模型在藏語分詞中的應(yīng)用
7.3.1*大熵模型應(yīng)用于藏語分詞的基本思想
7.3.2*大熵模型的下載與安裝
7.3.3*大熵藏文分詞模型的訓(xùn)練
7.3.4*大熵藏文分詞模型的測試
7.4 基于字位的藏文*大熵分詞實驗
7.4.1 *大熵分詞實驗
7.4.2錯誤分析
第8章 基于條件隨機場模型的藏文分詞研究
8.1條件隨機場模型簡介
8.2條件隨機場的藏文分詞的原理和方法
8.3字位標注的藏文分詞原理
8.3.1基本思想
8.3.2標簽集的優(yōu)化
8.3.3特征模板集
8.4 實驗及結(jié)果分析
8.4.1 實驗設(shè)計
8.4.2 實驗結(jié)果與分析
8.4.3 錯誤分析
8.4.4 基于統(tǒng)計的數(shù)字處理
8.4.5 基于統(tǒng)計的數(shù)字處理實驗及結(jié)果
8.5基于統(tǒng)計的藏語分詞軟件簡介
8.5.1軟件說明
8.5.2軟件安裝與卸載
8.5.3軟件使用
8.5.4 打開文件
8.5.5 模型訓(xùn)練
8.5.6 利用模型分詞
第9章 基于融合方法的藏文分詞研究
9.1統(tǒng)計與規(guī)則相結(jié)合的藏語分詞
9.1.1 TBL方法原理
9.1.2 TBL模型
9.1.3 TBL融合實驗
9.2統(tǒng)計、詞典和語言規(guī)則相結(jié)合的分詞實驗
9.2.1黏寫音節(jié)切分錯誤校正
9.2.2由語法問題導(dǎo)致切分錯誤的校正
9.2.3歧義切分錯誤校正
9.3分詞實驗語料一致性檢測
第10章 藏語分詞、詞性標注一體化研究
10.1分詞和詞性標注一體的概述
10.2藏語詞性標注的現(xiàn)狀和問題
10.3 藏語分詞、詞性標注一體化研究
10.3.1基于詞級的分詞標注一體化研究
10.3.2基于字的分詞標注一體化研究
附錄1信息處理用現(xiàn)代藏語分詞規(guī)范(草案)
1.1范圍
1.2規(guī)范性引用文件
1.3術(shù)語和定義
1.4總則
1.5具體說明
1.6參考文獻
附錄2 信息處理用現(xiàn)代藏語詞類標記集規(guī)范(草案)
2.1前言
2.2范圍
2.3規(guī)范性引用文件
2.4術(shù)語和定義
2.5總則
2.6具體說明
2.2.7有關(guān)說明
2.2.8參考文獻
附錄3 多級標注語料庫簡介
3.1語料加工平臺
3.2語料選擇
附錄4 CRF工具包介紹
4.1 CRF工具下載與安裝
4.2制作相關(guān)的文件
4.3訓(xùn)練模型
4.4測試
附錄5分詞測試工具包使用說明
5.1工具包下載和安裝
5.2制作相關(guān)文件
5.3測試
附錄6 fnTBL工具包介紹
6.1工具包下載和安裝
6.2制作運行fnTBL工具包的相關(guān)運行文件。
6.3訓(xùn)練fnTBL模型
6.4測試
附錄7 藏文拉丁轉(zhuǎn)寫表
參考文獻