本書(shū)為專著,以藏文文本處理為核心任務(wù),從理論到實(shí)踐闡述了大數(shù)據(jù)環(huán)境下藏文文本類型數(shù)據(jù)的分析方法,探討了當(dāng)前主流的文本挖掘技術(shù)以及這些技術(shù)在藏文文本分析處理中的具體應(yīng)用。書(shū)中闡述了藏文字符處理、詞匯分析、句法分析、藏文文本表示、藏文文本分類、藏文文本聚類、藏文信息抽取等藏文文本分析與文本挖掘方面的理論與方法;書(shū)中提出的相關(guān)技術(shù)方法可以直接用于解決藏文文本分析與文本挖掘的問(wèn)題。本書(shū)可作為高校藏文信息處理相關(guān)方向研究生的教材或參考書(shū),也可以作為從事藏語(yǔ)自然語(yǔ)言處理應(yīng)用研究領(lǐng)域?qū)I(yè)研究人員的參考資料。
艾金勇,西藏民族大學(xué)副教授;研究方向?yàn)椴匚男畔⑻幚怼?shù)字圖書(shū)館技術(shù);近年來(lái)參與多項(xiàng)和西藏自治區(qū)級(jí)項(xiàng)目,主持西藏自治區(qū)級(jí)項(xiàng)目2項(xiàng);發(fā)表論文30余篇,其中核心期刊論文7篇;
陳小瑩,西藏民族大學(xué)講師;
第1章 緒 論
1.1 藏文概述
1.1.1 藏文文字的性質(zhì)
1.1.2 藏文文法的主要內(nèi)容
1.2 藏文文本特征
1.2.1 藏文文字特征
1.2.2 藏文詞語(yǔ)特征
1.2.3 藏文句子特征
1.3 藏文編碼標(biāo)準(zhǔn)情況
1.3.1 ASCII碼
1.3.2 中文字符的編碼
1.3.3 藏文字符編碼國(guó)家標(biāo)準(zhǔn)
1.3.4 國(guó)際字符編碼UNICODE及藏文字符編碼國(guó)際標(biāo)準(zhǔn)
1.4 藏文文本挖掘
1.4.1 文本挖掘基本概念
1.4.2 文本挖掘主要技術(shù)
1.4.3 文本挖掘的一般過(guò)程
1.4.4 文本挖掘面臨的困難
第2章 藏文字符處理
2.1 藏字的結(jié)構(gòu)
2.1.1 藏字的結(jié)構(gòu)分析
2.1.2 藏字的構(gòu)件
2.2 藏文字符輸入技術(shù)
2.2.1 藏文字符鍵盤(pán)編碼理論
2.2.2 藏文字符鍵盤(pán)設(shè)計(jì)分析
2.2.3 藏文字符鍵盤(pán)布局國(guó)家標(biāo)準(zhǔn)
2.2.4 Windows藏文字符鍵盤(pán)輸入技術(shù)
2.3 藏文文字的規(guī)范化處理
2.3.1 特殊符號(hào)的歸一化
2.3.2 外借詞的藏文化處理
2.3.3 黏著語(yǔ)的規(guī)范化處理
2.4 藏文文字的結(jié)構(gòu)識(shí)別
2.4.1 小字符集編碼的藏文音節(jié)結(jié)構(gòu)
2.4.2 現(xiàn)代藏文音節(jié)正字法知識(shí)
2.4.3 藏文文字結(jié)構(gòu)的辨識(shí)
2.4.4 藏文音節(jié)構(gòu)件的確定算法
第3章 藏文詞法分析
3.1 藏文詞法分析概述
3.1.1 藏文詞法分析研究的問(wèn)題
3.1.2 詞法分析研究面臨的困難
3.1.3 一體化藏文詞法分析框架
3.1.4 藏文詞法分析的意義與作用
3.1.5 藏文詞法分析的目標(biāo)
3.2 藏文自動(dòng)分詞
3.2.1 藏文自動(dòng)分詞概述
3.2.2 藏文分詞的方法
3.2.3 基于條件隨機(jī)場(chǎng)的藏文分詞方法值
3.2.4 藏文未登錄詞的處理方法
3.3 藏文詞性標(biāo)注
3.3.1 藏文詞類標(biāo)記集
3.3.2 基于熵模型的藏文詞性標(biāo)注
3.4 藏族人名識(shí)別
3.4.1 藏族人名的結(jié)構(gòu)
3.4.2 藏族人名的特點(diǎn)
3.4.3 藏族人名的識(shí)別策略
3.4.4 基于詞位的藏族人名識(shí)別方法
3.4.5 基于條件隨機(jī)場(chǎng)的藏族人名識(shí)別
3.5 藏文詞處理方法測(cè)評(píng)
3.5.1 黃金標(biāo)準(zhǔn)
3.5.2 評(píng)價(jià)指標(biāo)
第4章 藏文句法分析
4.1 句法分析概述
4.1.1 句法分析概念
4.1.2 句法分析基本策略
4.2 藏文句子概述
4.2.1 藏文句子概念
4.2.2 藏文句子特點(diǎn)
4.2.3 藏文句尾詞性特征分析
4.3 藏文句子類別
4.3.1 藏文句子分類
4.3.2 藏文句子基本結(jié)構(gòu)
4.3.3 藏文句型分類
4.3.4 藏文句型功能特征分析
4.4 藏文句法分析
4.4.1 句法分析概述
4.4.2 基于概率上下文無(wú)關(guān)文法的藏語(yǔ)句法分析
4.4.3 藏文依存句法分析
第5章 藏文文本表示模型研究
5.1 文本表示概述
5.2 文本特征項(xiàng)
5.3 文本特征表示方法
5.3.1 基于字的特征表示法
5.3.2 基于詞的特征表示法
5.3.3 基于短語(yǔ)的特征表示法
5.3.4 基于概念的特征表示法
5.4 藏文文本表示方法研究
第6章 藏文文本分類算法研究
6.1 文本分類概述
6.1.1 文本分類定義
6.1.2 自動(dòng)文本分類
6.1.3 文本分類的基本流程
6.1.4 文本分類的應(yīng)用領(lǐng)域
6.2 文本特征提取方法
6.2.1 率統(tǒng)計(jì)法
6.2.2 互信息法
6.2.3 信息增益法
6.2.4 卡方檢驗(yàn)法
6.2.5 其他方法
6.3 文本分類算法
6.3.1 樸素貝葉斯模型
6.3.2 支持向量機(jī)算法
6.3.3 KNN算法
6.4 算法性能評(píng)價(jià)
6.4.1 二元分類評(píng)價(jià)
6.4.2 多類問(wèn)題評(píng)價(jià)
6.5 藏文文本分類算法研究
6.5.1 基于樸素貝葉斯的藏文文本分類研究
6.5.2 基于KNN模型的藏文文本分類研究
6.5.3 基于SVM:的藏文文本分類研究
第7章 藏文文本聚類算法研究
7.1 文本聚類概述
7.1.1 文本聚類的概念
7.1.2 文本聚類的任務(wù)
7.1.3 文本分類的應(yīng)用領(lǐng)域
7.2 文本聚類分析的常用特征表示
7.3 文本相似性度量
7.3.1 樣本間的相似性
7.3.2 簇間的相似性
7.3.3 樣本與簇間的相似性
7.4 文本聚類方法
7.4.1 劃分聚類方法
7.4.2 層次聚類方法
7.4.3 密度聚類方法
7.4.4 基于模型的聚類
7.4.5 競(jìng)爭(zhēng)聚類類型
7.5 聚類算法性能評(píng)估
7.6 藏文文本聚類方法
第8章 藏文web文本挖掘方法研究
8.1 web文本挖掘概述
8.1.1 web文本數(shù)據(jù)應(yīng)用及特點(diǎn)
8.1.2 web文本挖掘及挖掘類型
8.1.3 web文本挖掘過(guò)程
8.2 網(wǎng)頁(yè)結(jié)構(gòu)特點(diǎn)
8.2.1 網(wǎng)頁(yè)特征
8.2.2 N頁(yè)結(jié)構(gòu)
8.2.3 網(wǎng)頁(yè)架構(gòu)
8.3 web文本信息獲取方式
8.3.1 網(wǎng)絡(luò)爬蟲(chóng)
8.3.2 其他web信息程序獲取方式
8.3.3 web文本信息抽取
8.3.4 自然語(yǔ)言文本結(jié)構(gòu)化信息抽取
8.4 web信息文本抽取相關(guān)知識(shí)
8.4.1 XPath技術(shù)
8.4.2 解析模板以及解析模板的生成技術(shù)
8.5 藏文網(wǎng)頁(yè)文本主題信息抽取算法實(shí)現(xiàn)
8.5.1 藏文網(wǎng)頁(yè)規(guī)范化處理
8.5.2 藏文網(wǎng)頁(yè)標(biāo)簽的線性重構(gòu)
8.5.3 藏文網(wǎng)頁(yè)正文抽取算法實(shí)現(xiàn)
8.5.4 藏文網(wǎng)頁(yè)主題抽取算法實(shí)現(xiàn)
參考文獻(xiàn)