關(guān)于我們
書(shū)單推薦
新書(shū)推薦
|
外國(guó)留學(xué)生學(xué)生手寫(xiě)漢字筆畫(huà)錯(cuò)誤提取的智能方法研究 讀者對(duì)象:對(duì)外漢語(yǔ)教學(xué)研究者
本書(shū)為一本運(yùn)用計(jì)算機(jī)圖形分析、人工智能等方法,對(duì)外國(guó)留學(xué)生的手寫(xiě)漢字進(jìn)行書(shū)寫(xiě)分析的研究文集。中國(guó)的漢字對(duì)于外國(guó)留學(xué)生來(lái)說(shuō),有一定的書(shū)寫(xiě)難度,筆畫(huà)的順序,書(shū)寫(xiě)的錯(cuò)誤等常見(jiàn)問(wèn)題,本書(shū)作者運(yùn)用現(xiàn)代化的技術(shù),對(duì)我國(guó)留學(xué)生的手寫(xiě)漢字進(jìn)行了分割、識(shí)別,筆畫(huà)匹配和書(shū)寫(xiě)錯(cuò)誤提取等操作,在分析研究的基礎(chǔ)上歸納總結(jié)了研究成果,為日后留學(xué)生手寫(xiě)漢字的書(shū)寫(xiě)質(zhì)量評(píng)價(jià)、改進(jìn)指導(dǎo)等工作給出了科學(xué)的結(jié)論和解決方法。該書(shū)的研究具有一定的創(chuàng)新性。
外國(guó)留學(xué)生的手寫(xiě)漢字因其母語(yǔ)及漢語(yǔ)水平的影響,會(huì)出現(xiàn)多種類(lèi)型的書(shū)寫(xiě)錯(cuò)誤,這是漢語(yǔ)國(guó)際教育中漢字教學(xué)的難點(diǎn)之一。采用數(shù)碼紙筆采集的外國(guó)留學(xué)生手寫(xiě)漢字含有筆畫(huà)及其采樣點(diǎn)的時(shí)間和空間等信息,從而可以有效地分析其書(shū)寫(xiě)過(guò)程,有利于提取各種書(shū)寫(xiě)錯(cuò)誤。筆畫(huà)錯(cuò)誤是提取部件和整字錯(cuò)誤的數(shù)據(jù)基礎(chǔ),它需要漢字識(shí)別和筆畫(huà)匹配等處理過(guò)程,這些內(nèi)容已有較多研究,但外國(guó)留學(xué)生手寫(xiě)漢字具有多樣和更復(fù)雜的筆畫(huà)錯(cuò)誤。本研究識(shí)別具有筆畫(huà)錯(cuò)誤的漢字,匹配書(shū)寫(xiě)筆畫(huà)與模板筆畫(huà),并提取多種筆畫(huà)錯(cuò)誤,將語(yǔ)言學(xué)與應(yīng)用語(yǔ)言學(xué)、漢字構(gòu)形學(xué)與信息科學(xué)中的模式識(shí)別、計(jì)算機(jī)圖形學(xué)、人工智能等多個(gè)領(lǐng)域相結(jié)合。在此基礎(chǔ)上可以進(jìn)行有針對(duì)性的書(shū)寫(xiě)質(zhì)量評(píng)價(jià)、改進(jìn)指導(dǎo)等方面的研究,具有良好的發(fā)展前景。
本書(shū)圍繞外國(guó)留學(xué)生手寫(xiě)漢字筆畫(huà)錯(cuò)誤提取的智能處理方法的重點(diǎn)和難點(diǎn)問(wèn)題開(kāi)展了研究工作,主要包括:
(1)作為識(shí)別、錯(cuò)誤分析等后續(xù)工作的前提和基礎(chǔ),在手寫(xiě)漢字的分割技術(shù)中,重點(diǎn)討論了單字提取方法。結(jié)合外國(guó)留學(xué)生的手寫(xiě)漢字特點(diǎn),書(shū)中提出了一種基于多層次信息的單字提取方法,其中包括了遞歸分割方法和面向錯(cuò)誤分類(lèi)的分割方法,并給出了相應(yīng)的自適應(yīng)可視化表示及交互校正方法。
(2)手寫(xiě)漢字筆畫(huà)匹配以參考的模板漢字為基準(zhǔn),通過(guò)漢字識(shí)別結(jié)果進(jìn)行檢索。留學(xué)生手寫(xiě)漢字存在多種錯(cuò)誤,在樣本有限的情況下,需要充分發(fā)掘漢字本身的書(shū)寫(xiě)信息和結(jié)構(gòu)特征。因此,書(shū)中提出了一種基于書(shū)寫(xiě)層次信息的漢字識(shí)別方法。從書(shū)寫(xiě)筆畫(huà)出發(fā),根據(jù)其識(shí)別結(jié)果和部件結(jié)構(gòu)分類(lèi),實(shí)現(xiàn)漢字識(shí)別。方法首先用中心線將漢字部件結(jié)構(gòu)分為左右、上下和其他三類(lèi)。然后根據(jù)部件結(jié)構(gòu)分類(lèi),從字庫(kù)中初步篩選出候選字;再使用隱馬爾可夫模型及隱條件隨機(jī)場(chǎng)識(shí)別漢字中每個(gè)筆畫(huà),根據(jù)書(shū)寫(xiě)時(shí)序信息組成筆畫(huà)名稱(chēng)序列;最后根據(jù)筆畫(huà)名稱(chēng)序列,對(duì)候選字進(jìn)行最終的篩選,給出識(shí)別結(jié)果。
(3)筆畫(huà)匹配是書(shū)寫(xiě)錯(cuò)誤提取和書(shū)寫(xiě)質(zhì)量評(píng)價(jià)的基礎(chǔ)。留學(xué)生手寫(xiě)漢字筆畫(huà)錯(cuò)誤不僅體現(xiàn)在整個(gè)筆畫(huà)上,例如拆筆、連筆、多筆、少筆、筆順和筆向錯(cuò)誤,還體現(xiàn)在筆畫(huà)局部上,例如殘筆和余筆。書(shū)中提出了基于遺傳算法的筆畫(huà)匹配方法。方法以模板筆畫(huà)個(gè)數(shù)為基因進(jìn)行整數(shù)編碼,根據(jù)書(shū)寫(xiě)筆畫(huà)個(gè)數(shù)確定染色體長(zhǎng)度;根據(jù)書(shū)寫(xiě)筆畫(huà)的結(jié)構(gòu)特征構(gòu)造適應(yīng)度函數(shù),采用精英算法的選擇策略執(zhí)行進(jìn)化過(guò)程;在適應(yīng)度函數(shù)均值平穩(wěn)時(shí),停止進(jìn)化得到最優(yōu)解。
(4)人機(jī)交互校正可以獲取正確的實(shí)驗(yàn)對(duì)比數(shù)據(jù),是驗(yàn)證所提方法有效性的必要步驟。而筆畫(huà)匹配結(jié)果的可視化是人機(jī)交互的前
提條件,有效的可視化方法可以減輕校正者的認(rèn)知負(fù)擔(dān),提高工作效率。針對(duì)筆畫(huà)匹配結(jié)果,提出了一種多感知層次的可視化方法。根據(jù)筆畫(huà)匹配結(jié)果的特點(diǎn)及其包含的信息量,采用顏色、圖形符號(hào)、數(shù)字序號(hào)等多感知層次相結(jié)合的方法進(jìn)行可視化。同時(shí),提出了一種針對(duì)筆畫(huà)匹配結(jié)果的人機(jī)交互校正方法,使用標(biāo)記列表的方法將數(shù)據(jù)進(jìn)行處理,簡(jiǎn)化了校正過(guò)程。
(5)筆畫(huà)錯(cuò)誤的提取是漢字書(shū)寫(xiě)研究的重要步驟。留學(xué)生書(shū)寫(xiě)習(xí)慣和特點(diǎn)差異性大,使用規(guī)則的預(yù)設(shè)方法難以適用。因此,本書(shū)基于精確的筆畫(huà)匹配結(jié)果提出了一種筆畫(huà)錯(cuò)誤的自適應(yīng)提取方法。根據(jù)手寫(xiě)漢字筆畫(huà)匹配后給出的標(biāo)記列表,分層次地自適應(yīng)提取書(shū)寫(xiě)筆畫(huà)錯(cuò)誤,包括全局錯(cuò)誤以及局部錯(cuò)誤。
為驗(yàn)證所提方法的有效性,本書(shū)采集了來(lái)自14個(gè)國(guó)家的外國(guó)留學(xué)生的手寫(xiě)漢字共計(jì)19000余份,涵蓋500余種字形。對(duì)所提方法開(kāi)發(fā)了原型系統(tǒng),對(duì)漢字識(shí)別、筆畫(huà)匹配、可視化與人機(jī)交互校正、筆畫(huà)錯(cuò)誤提取進(jìn)行了實(shí)驗(yàn),結(jié)果表明所提方法是有效的。根據(jù)學(xué)生的漢字學(xué)習(xí)過(guò)程,原型系統(tǒng)在真實(shí)教學(xué)場(chǎng)景中進(jìn)行了跟蹤實(shí)驗(yàn),結(jié)果表明所提方法性能穩(wěn)定。
白浩,男,1984年生,現(xiàn)就職于北京語(yǔ)言大學(xué)漢語(yǔ)國(guó)際教育學(xué)部。文學(xué)博士(語(yǔ)言學(xué)與應(yīng)用語(yǔ)言學(xué)專(zhuān)業(yè)),工學(xué)碩士(計(jì)算機(jī)應(yīng)用技術(shù)專(zhuān)業(yè)),研究方向?yàn)橹悄軙?shū)寫(xiě)技術(shù)、中文手寫(xiě)計(jì)算、模式識(shí)別、計(jì)算機(jī)圖形學(xué)等。講授多媒體應(yīng)用技術(shù)基礎(chǔ)、程序設(shè)計(jì)入門(mén)等課程。近年來(lái)發(fā)表論文10余篇,其中9篇被EI或Scopus檢索(其中7篇為第一作者),1篇為中文核心期刊論文,1篇被CPCI-S檢索,F(xiàn)為中國(guó)計(jì)算機(jī)學(xué)會(huì)專(zhuān)業(yè)會(huì)員。2018年6月入選“北京語(yǔ)言大學(xué)青年英才培養(yǎng)計(jì)劃”。
第一章 緒論 / 1
1.1 選題背景 / 1
1.2 研究問(wèn)題 / 4
1.3 本書(shū)工作 / 6
第二章 國(guó)內(nèi)外研究現(xiàn)狀及分析 / 10
2.1 單字提取 / 11
2.1.1 相鄰筆畫(huà)時(shí)間和空間距離的方法 / 11
2.1.2 語(yǔ)境方法 / 12
2.1.3 機(jī)器學(xué)習(xí)方法 / 13
2.2 漢字識(shí)別 / 14
2.2.1 結(jié)構(gòu)方法 / 15
2.2.2 特征提取方法 / 16
2.2.3 深度學(xué)習(xí)方法 / 17
2.3 筆畫(huà)匹配 / 19
2.3.1 筆畫(huà)模板方法 / 19
2.3.2 圖匹配方法 / 20
2.3.3 筆段匹配方法 / 21
2.4 書(shū)寫(xiě)錯(cuò)誤提取 / 22
2.4.1 評(píng)價(jià)對(duì)象 / 22
2.4.2 錯(cuò)誤提取方法 / 25
2.4.3 評(píng)價(jià)反饋方式 / 29
2.5 本章小結(jié) / 31
第三章 基于多層次信息的單字提取方法 32
3.1 遞歸分割方法 / 33
3.1.1 基于初始分割結(jié)果的數(shù)據(jù)分析 / 34
3.1.2 遞歸分割算法 / 36
3.2 面向錯(cuò)誤分類(lèi)的分割方法 / 38
3.2.1 錯(cuò)誤分類(lèi)歸納 / 39
3.2.2 面向欠分割的分割方法 / 41
3.2.3 面向過(guò)分割的分割方法 / 47
3.2.4 性能測(cè)試 / 51
3.3 基于單字提取結(jié)果的自適應(yīng)可視化方法 / 52
3.3.1 可視化方法進(jìn)展 / 52
3.3.2 基于重疊的自適應(yīng)可視化方法 / 55
3.3.3 基于可信度的可視化方法 / 61
3.4 針對(duì)單字提取結(jié)果的交互式校正方法 / 65
3.4.1 基于可視化結(jié)果的交互式校正 / 66
3.4.2 基于用戶(hù)意圖的交互式校正 / 69
3.4.3 性能測(cè)試 / 71
3.5 本章小結(jié) / 73
第四章 基于書(shū)寫(xiě)層次模型的手寫(xiě)漢字識(shí)別方法 / 74
4.1 基于筆畫(huà)名稱(chēng)和整字結(jié)構(gòu)的識(shí)別方法 / 75
4.2 部件結(jié)構(gòu)的分類(lèi) / 77
4.3 基于 HMM 的筆畫(huà)識(shí)別 / 78
4.3.1 HMM 分類(lèi)器的訓(xùn)練 / 79
4.3.2 漢字中筆畫(huà)的識(shí)別 / 81
4.3.3 基于筆畫(huà)名稱(chēng)序列的篩選 / 84
4.4 實(shí)驗(yàn)結(jié)果 / 85
4.4.1 根據(jù)漢字筆畫(huà)數(shù)分類(lèi) / 86
4.4.2 根據(jù)不同部件結(jié)構(gòu)分類(lèi) / 88
4.4.3 根據(jù)筆畫(huà)錯(cuò)誤類(lèi)型分類(lèi) / 89
4.5 基于 HCRF 的筆畫(huà)識(shí)別的改進(jìn)方法 / 91
4.5.1 HCRF 分類(lèi)器的訓(xùn)練 / 92
4.5.2 HCRF 分類(lèi)器的實(shí)驗(yàn)結(jié)果 / 92
4.6 本章小結(jié) / 94
第五章 基于遺傳算法的筆畫(huà)匹配方法 / 95
5.1 遺傳算法的基本設(shè)置 / 96
5.2 自適應(yīng)編碼方法 / 98
5.2.1 序列編碼 / 98
5.2.2 最大值編碼 / 99
5.2.3 子筆畫(huà)編碼 / 101
5.3 基于結(jié)構(gòu)和書(shū)寫(xiě)特征的適應(yīng)度函數(shù) / 105
5.3.1 全局特征 / 105
5.3.2 局部特征 / 106
5.3.3 適應(yīng)度函數(shù)的評(píng)價(jià) / 108
5.4 實(shí)驗(yàn)結(jié)果 / 109
5.4.1 根據(jù)筆畫(huà)數(shù)分類(lèi) / 109
5.4.2 根據(jù)部件結(jié)構(gòu)分類(lèi) / 111
5.4.3 根據(jù)筆畫(huà)錯(cuò)誤類(lèi)型分類(lèi) / 112
5.5 本章小結(jié) / 113
第六章 針對(duì)筆畫(huà)匹配結(jié)果的可視化及人機(jī)交互校正方法 / 115
6.1 多感知層次的可視化方法 / 116
6.1.1 基于顏色感知層次的表示 / 117
6.1.2 采用圖形符號(hào)的筆向表示 / 120
6.1.3 采用數(shù)字序號(hào)的筆順表示 / 121
6.2 標(biāo)記表示方法 / 122
6.2.1 標(biāo)記列表的定義 / 122
6.2.2 標(biāo)記類(lèi)型的表示 / 124
6.3 基于標(biāo)記列表的校正方法 / 125
6.4 實(shí)驗(yàn)結(jié)果 / 132
6.4.1 可視化 / 132
6.4.2 交互校正 / 134
6.5 本章小結(jié) / 135
第七章 基于標(biāo)記列表的筆畫(huà)錯(cuò)誤提取方法 / 137
7.1 標(biāo)記列表與筆畫(huà)錯(cuò)誤的對(duì)應(yīng)關(guān)系 / 137
7.2 自適應(yīng)錯(cuò)誤提取 / 146
7.3 實(shí)驗(yàn)結(jié)果 / 154
7.4 本章小結(jié) / 155
第八章 數(shù)據(jù)測(cè)試與結(jié)果分析 / 157
8.1 數(shù)據(jù)采集 / 157
8.2 數(shù)據(jù)測(cè)試 / 161
第九章 結(jié) 論 / 173
附錄 1:摹寫(xiě)、聽(tīng)寫(xiě)紙張樣圖 / 177
附錄 2:22名學(xué)生實(shí)驗(yàn)數(shù)據(jù)樣圖 / 179
參考文獻(xiàn) 201
第一章緒論
1.1選題背景
漢字是漢語(yǔ)書(shū)寫(xiě)用的文字,狹義指以正楷作為標(biāo)準(zhǔn)寫(xiě)法的漢字。因形狀方正,漢字有“方塊字”之稱(chēng)。從結(jié)構(gòu)上來(lái)看,漢字字體規(guī)整,每個(gè)字占據(jù)幾乎同樣的空間。由表意象形字根如金、木、水、火、土等,像積木一樣組合而成。漢字包括獨(dú)體字和合體字,獨(dú)體字不能分割,合體字由部件組合構(gòu)成,占漢字?jǐn)?shù)量的90%以上。漢字的部件包括獨(dú)體字、偏旁部首和其他不成字部件。漢字的合體結(jié)構(gòu)有12種,分為:左右、上下、左中右、上中下、左上包、右上包、左三包、左下包、上三包、下三包、全包圍和鑲嵌結(jié)構(gòu)。
筆畫(huà)是漢字的最小構(gòu)成單位,指一次連續(xù)寫(xiě)成的線條。筆畫(huà)分為橫、豎、撇、捺、點(diǎn)、提等31個(gè)基本種類(lèi)。書(shū)寫(xiě)漢字時(shí),筆畫(huà)出現(xiàn)的先后順序,即“筆順”,是比較固定的,其基本規(guī)則是,先橫后豎,先撇后捺,從上到下,從左到右,先外后內(nèi),先外后內(nèi)再封口,先中間后兩邊。筆畫(huà)的數(shù)目、形狀、空間組合關(guān)系等因素構(gòu)成了漢字形體區(qū)別特征,這是文字形體的一個(gè)基本屬性。
在漢語(yǔ)國(guó)際教育逐步推廣的背景下,漢語(yǔ)教學(xué)往往把培養(yǎng)留學(xué)生的交際能力放在首位,同時(shí)使其具備運(yùn)用漢語(yǔ)進(jìn)行聽(tīng)說(shuō)讀寫(xiě)的能力,其中的讀和寫(xiě)會(huì)涉及漢字。從書(shū)寫(xiě)元素看,在組成常用漢字的筆畫(huà)中,橫、豎、撇、點(diǎn)、捺、提的使用頻率為77.82%,而書(shū)寫(xiě)元素的重復(fù)率、結(jié)構(gòu)單位的相似度越高,結(jié)構(gòu)方式的一致性越大,漢字形體所提供的區(qū)分度就越小,書(shū)寫(xiě)的錯(cuò)誤率也就會(huì)越高。所以,筆畫(huà)的書(shū)寫(xiě)錯(cuò)誤將直接導(dǎo)致部件乃至整字的錯(cuò)誤。
對(duì)于留學(xué)生書(shū)寫(xiě)漢字最早采用紙筆的傳統(tǒng)模式進(jìn)行采集和記錄,授課教師通過(guò)課上實(shí)時(shí)觀察進(jìn)行指導(dǎo)或課后收取紙質(zhì)作業(yè)進(jìn)行評(píng)判教學(xué)。然而,在傳統(tǒng)的課堂教學(xué)中,教師即便積極觀察,也很難全面了解到學(xué)生在課堂上的學(xué)習(xí)情況,尤其是漢字書(shū)寫(xiě)的具體情況,更難以對(duì)每個(gè)學(xué)生的漢字書(shū)寫(xiě)過(guò)程進(jìn)行及時(shí)指導(dǎo)。不僅如此,在課后作業(yè)的評(píng)改中,傳統(tǒng)紙筆的記錄方式難以讓教師直觀了解學(xué)生漢字書(shū)寫(xiě)的動(dòng)態(tài)過(guò)程,因而無(wú)法全面知曉學(xué)生在課后的漢字掌握情況。同時(shí),通過(guò)教師在批改中批注給學(xué)生的反饋糾正,如漢字書(shū)寫(xiě)的示范,學(xué)生也無(wú)法去準(zhǔn)確地了解筆畫(huà)的書(shū)寫(xiě)順序和特點(diǎn),只能看到一個(gè)完成版的“畫(huà)像”。
在將學(xué)生書(shū)寫(xiě)的漢字記錄輸入計(jì)算機(jī)的時(shí)候,早期研究者將紙版記錄通過(guò)照相、掃描等方式轉(zhuǎn)為數(shù)字圖像文件,并保存在計(jì)算機(jī)中。后來(lái),有學(xué)者使用攝像機(jī)對(duì)學(xué)生的書(shū)寫(xiě)過(guò)程進(jìn)行實(shí)時(shí)拍攝,將形成的視頻文件保存于計(jì)算機(jī)中。該方法可以較完整地記錄學(xué)生的書(shū)寫(xiě)過(guò)程,但不足之處在于視頻文件往往容量較大,不利于保存和傳輸。
數(shù)字墨水的出現(xiàn),有效地解決了這些不足,它利用手寫(xiě)板、數(shù)碼筆等筆式輸入設(shè)備書(shū)寫(xiě)文字,書(shū)寫(xiě)軌跡通過(guò)定時(shí)采樣輸入計(jì)算機(jī)中。
近些年不少學(xué)者在漢字智能教學(xué)方面一直在不停探索[7-9],開(kāi)發(fā)出了一些可以應(yīng)用于實(shí)際的漢字教學(xué)軟件系統(tǒng)[10-14]。常見(jiàn)的練字系統(tǒng)通常采用的是漢字處理機(jī)制,即用戶(hù)輸入一個(gè)漢字,軟件系統(tǒng)對(duì)用戶(hù)輸入的每一筆或?qū)φ诌M(jìn)行處理反饋。
隨著數(shù)據(jù)采集設(shè)備的升級(jí)和大數(shù)據(jù)量處理的需要,數(shù)字墨水?dāng)?shù)據(jù)批量采集和處理分析的處理流程和練字系統(tǒng)有較大不同。因此,本書(shū)提出的漢字書(shū)寫(xiě)的分析系統(tǒng)總體來(lái)說(shuō),首先使用數(shù)據(jù)采集設(shè)備批量采集數(shù)字墨水?dāng)?shù)據(jù)后輸入計(jì)算機(jī)系統(tǒng),再對(duì)筆畫(huà)數(shù)據(jù)進(jìn)行單字分割和漢字識(shí)別提取出書(shū)寫(xiě)字,在模板庫(kù)中檢索出對(duì)應(yīng)的模板字,再將書(shū)寫(xiě)字與模板字進(jìn)行筆畫(huà)匹配,進(jìn)行人機(jī)交互校正后,根據(jù)匹配結(jié)果進(jìn)行分析、檢測(cè)書(shū)寫(xiě)錯(cuò)誤,如圖1所示。
對(duì)以西文為母語(yǔ)的留學(xué)生來(lái)說(shuō),尤其是初學(xué)者,對(duì)于漢字的結(jié)構(gòu)特征和書(shū)寫(xiě)習(xí)慣不熟悉不了解,把漢字當(dāng)作符號(hào)進(jìn)行勾畫(huà),畫(huà)出來(lái)的字千差萬(wàn)別,這屬于系統(tǒng)前階段的錯(cuò)誤。而漢字教學(xué)經(jīng)常是重理?yè)?jù)而輕字形,導(dǎo)致一些中高級(jí)階段的留學(xué)生仍有很多書(shū)寫(xiě)錯(cuò)誤,從而影響整體的漢語(yǔ)水平。因此,對(duì)于書(shū)寫(xiě)錯(cuò)誤的研究,尤其是筆畫(huà)錯(cuò)誤的研究很有必要。
1.2研究問(wèn)題
在對(duì)留學(xué)生數(shù)字墨水漢字書(shū)寫(xiě)錯(cuò)誤的研究中,雖然前人已經(jīng)做了大量的工作和嘗試,但仍存在一些需要優(yōu)化和急需解決的問(wèn)題,在單字分割、漢字識(shí)別、筆畫(huà)匹配、人機(jī)交互校正和錯(cuò)誤提取等方面都有一些需要優(yōu)化的地方。本書(shū)研究的問(wèn)題涵蓋以下內(nèi)容。
(1)針對(duì)數(shù)字墨水漢字的自動(dòng)分割技術(shù)。在數(shù)字墨水的計(jì)算技術(shù)中,墨水的分割技術(shù)非常重要,是數(shù)字墨水的結(jié)構(gòu)化編輯和識(shí)別的基礎(chǔ)。它包括自動(dòng)分割、分割結(jié)果的可視化和校正。自動(dòng)分割指從原始筆跡中快速準(zhǔn)確地提取單字、文本行和文本段。在中文數(shù)字墨水文本的分割技術(shù)中,由于文本行和文本段之間一般有天然的間隔,分割處理中對(duì)于行提取和段提取相對(duì)容易。本書(shū)將研究重點(diǎn)放在單字提取上,重點(diǎn)研究單字提取方法、單字提取結(jié)果的可視化方法及針對(duì)單字提取結(jié)果的交互式校正方法。
(2)存在書(shū)寫(xiě)錯(cuò)誤的留學(xué)生手寫(xiě)漢字的識(shí)別。漢字的識(shí)別是書(shū)寫(xiě)漢字智能分析的基礎(chǔ),雖然中文漢字識(shí)別技術(shù)已經(jīng)實(shí)現(xiàn)了較高的識(shí)別率,但現(xiàn)有的方法從特征提取到分類(lèi)器的訓(xùn)練,從訓(xùn)練樣本到測(cè)試數(shù)據(jù),大都以中文母語(yǔ)者為研究對(duì)象。而留學(xué)生所寫(xiě)的漢字和母語(yǔ)者在筆畫(huà)結(jié)構(gòu)特征和書(shū)寫(xiě)習(xí)慣上有很多不同[16],特別是當(dāng)出現(xiàn)書(shū)寫(xiě)的錯(cuò)誤的情況時(shí),漢字結(jié)構(gòu)特征的改變會(huì)增加識(shí)別的難度。因此,需要提出針對(duì)留學(xué)生書(shū)寫(xiě)特點(diǎn)和存在書(shū)寫(xiě)錯(cuò)誤的手寫(xiě)漢字的識(shí)別方法。
(3)面向書(shū)寫(xiě)錯(cuò)誤提取的筆畫(huà)匹配方法。筆畫(huà)匹配是書(shū)寫(xiě)錯(cuò)誤分析的主流方法和前提條件,基于模板字的筆畫(huà)匹配本身可看作一種組合優(yōu)化問(wèn)題。留學(xué)生書(shū)寫(xiě)質(zhì)量的千差萬(wàn)別使得問(wèn)題的規(guī)模和復(fù)雜程度增大,尤其是存在書(shū)寫(xiě)錯(cuò)誤的筆畫(huà),無(wú)論是整個(gè)筆畫(huà)錯(cuò)誤還是筆畫(huà)局部錯(cuò)誤,都使得筆畫(huà)匹配問(wèn)題不僅僅是一種組合優(yōu)化問(wèn)題,還需要考慮問(wèn)題所處理數(shù)據(jù)的級(jí)別。因此,需要提出自適應(yīng)的筆畫(huà)匹配方法,使得匹配結(jié)果對(duì)于不同類(lèi)型的書(shū)寫(xiě)錯(cuò)誤都有較好的針對(duì)性。
(4)針對(duì)筆畫(huà)匹配結(jié)果的可視化及人機(jī)交互校正方法。由于系統(tǒng)自動(dòng)方法難以得到完全正確的數(shù)據(jù)結(jié)果,所以作為評(píng)價(jià)所提方法性能的必要條件,需要進(jìn)行人機(jī)交互校正得到正確的數(shù)據(jù)進(jìn)行對(duì)比實(shí)驗(yàn)。有效的人機(jī)交互方法,可以減少時(shí)間成本,提高效率。人機(jī)交互之前,需要針對(duì)筆畫(huà)匹配結(jié)果進(jìn)行可視化表示,才能使校正者進(jìn)行視覺(jué)感知,完成校正。有效的可視化方法可以減輕認(rèn)知負(fù)擔(dān),同時(shí)準(zhǔn)確表示需要顯示的信息。因此,需要設(shè)計(jì)針對(duì)筆畫(huà)匹配結(jié)果的可視化方法并在此基礎(chǔ)上進(jìn)行人機(jī)交互校正。
(5)留學(xué)生書(shū)寫(xiě)筆畫(huà)錯(cuò)誤提取的方法。在漢語(yǔ)教學(xué)研究中,針對(duì)漢字書(shū)寫(xiě)錯(cuò)誤研究,前人做出了大量的工作。然而,研究對(duì)象多以中文母語(yǔ)者為主,與之相比留學(xué)生的書(shū)寫(xiě)習(xí)慣和特點(diǎn)差異較大;此外,研究對(duì)于書(shū)寫(xiě)錯(cuò)誤的分類(lèi)大都以專(zhuān)家系統(tǒng)為主的經(jīng)驗(yàn)規(guī)則展開(kāi),方法的主觀性及書(shū)寫(xiě)數(shù)據(jù)的隨意性的矛盾使提取結(jié)果難以穩(wěn)定。因此,需要從書(shū)寫(xiě)數(shù)據(jù)本身出發(fā),通過(guò)動(dòng)態(tài)生成的筆畫(huà)匹配結(jié)果提取筆畫(huà)錯(cuò)誤。
1.3本書(shū)工作
本書(shū)針對(duì)上述問(wèn)題,做了以下的工作。
(1)面向中文數(shù)字墨水文本的單字提取技術(shù)。從分割算法、可視化方法和交互校正三個(gè)方面對(duì)數(shù)字墨水的單字提取問(wèn)題進(jìn)行討論,針對(duì)中文數(shù)字墨水文本中單字特點(diǎn),提出了遞歸分割方法;針對(duì)單字提取結(jié)果中的錯(cuò)誤類(lèi)型,提出了面向錯(cuò)誤分類(lèi)的分割方法;針對(duì)單字提取結(jié)果的重疊問(wèn)題,提出了自適應(yīng)可視化方法;為提高校正提取結(jié)果的效率,提出了單字提取結(jié)果的可信度評(píng)價(jià)指標(biāo)和基于可信度的可視化方法;通過(guò)分析用戶(hù)的校正意圖并結(jié)合可視化的圖形,提出了以可視化圖形為參考對(duì)象和輔助工具,符合用戶(hù)意圖的交互式校正方法。
(2)采用書(shū)寫(xiě)層次模型的漢字識(shí)別方法及其改進(jìn)方法。本書(shū)針對(duì)留學(xué)生書(shū)寫(xiě)習(xí)慣及特點(diǎn),從筆畫(huà)、部件結(jié)構(gòu)及整字筆畫(huà)名稱(chēng)序列等書(shū)寫(xiě)元素出發(fā),根據(jù)不同層次結(jié)構(gòu)特點(diǎn)進(jìn)行優(yōu)化,進(jìn)而識(shí)別漢字。首先以整字中心線為依據(jù)將書(shū)寫(xiě)字的部件結(jié)構(gòu)按上下、左右及其他進(jìn)行分類(lèi);根據(jù)部件分類(lèi)結(jié)果對(duì)在候選字庫(kù)中進(jìn)行篩選;再通過(guò)7900余份手寫(xiě)數(shù)據(jù)訓(xùn)練了一個(gè)基于隱馬爾可夫模型的筆畫(huà)分類(lèi)器;接著使用這個(gè)分類(lèi)器將書(shū)寫(xiě)漢字中每個(gè)筆畫(huà)進(jìn)行識(shí)別,根據(jù)書(shū)寫(xiě)時(shí)序信息組成筆畫(huà)名稱(chēng)序列;最后在篩選庫(kù)中根據(jù)筆畫(huà)名稱(chēng)序列進(jìn)行二次篩選,給出識(shí)別備選字。此外,書(shū)中還進(jìn)一步改進(jìn)了筆畫(huà)分類(lèi)器,采用隱條件隨機(jī)場(chǎng)模型進(jìn)一步提升了識(shí)別率。
你還可能感興趣
我要評(píng)論
|