本書(shū)以Fillmore的框架語(yǔ)義學(xué)為核心,在吸收和借鑒已有成果的基礎(chǔ)上,提出“面向領(lǐng)域的多語(yǔ)框架語(yǔ)義表示”(DOMLFSR)模式作為研究的理論模型。越-英-漢時(shí)事新聞框架網(wǎng)絡(luò)構(gòu)建是該理論模型的具體實(shí)踐,探討了具有一定普適性的領(lǐng)域多語(yǔ)框架網(wǎng)絡(luò)構(gòu)建方法,構(gòu)建了較為豐富的越-英-漢框架語(yǔ)義資源。本書(shū)較為系統(tǒng)地將框架語(yǔ)義學(xué)思想運(yùn)用于越南語(yǔ)詞匯語(yǔ)義分析,提出了越南語(yǔ)框架語(yǔ)義核心依存圖模型,設(shè)計(jì)并開(kāi)發(fā)了多語(yǔ)種Web新聞?wù)Z料抓取軟件,探索了框架語(yǔ)義標(biāo)注在事件抽取中的應(yīng)用。
林麗,1979年6月生,四川成都人,外國(guó)語(yǔ)言學(xué)及應(yīng)用語(yǔ)言學(xué)博士,F(xiàn)為解放軍外國(guó)語(yǔ)學(xué)院講師,主要從事語(yǔ)義知識(shí)庫(kù)、越南語(yǔ)語(yǔ)言信息處理等方面的研究。公開(kāi)發(fā)表學(xué)術(shù)論文30篇,其中被EI檢索2篇,在《中文信息學(xué)報(bào)》《山東大學(xué)學(xué)報(bào)(理學(xué)版)》《解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào)》《山西大學(xué)學(xué)報(bào)(自然科學(xué)版)》《模式識(shí)別與人工智能》等核心期刊發(fā)表9篇。參與編寫(xiě)網(wǎng)絡(luò)信息檢索、越南語(yǔ)教學(xué)方面的教材3部。參與多項(xiàng)國(guó)家自然科學(xué)基金重大項(xiàng)目、教育部重大項(xiàng)目、河南省社科規(guī)劃項(xiàng)目研究。
第一章 緒論
第一節(jié) 研究背景
第二節(jié) 研究?jī)?nèi)容
第三節(jié) 研究思路
第四節(jié) 學(xué)術(shù)創(chuàng)新
第五節(jié) 研究意義
第六節(jié) 使用資源
第二章 框架語(yǔ)義研究綜述
一、相關(guān)語(yǔ)義理論模型
二、框架語(yǔ)義學(xué)的特點(diǎn)與優(yōu)勢(shì)
第三節(jié) FrameNet述評(píng)
第四節(jié) 小結(jié)
第三章 面向領(lǐng)域的多語(yǔ)框架語(yǔ)義表示(DOMLFSR)模式
第一節(jié) FrameNet語(yǔ)義表示模式
第二節(jié) DOMLFSR對(duì)FrameNet語(yǔ)義表示模式的改進(jìn)
第三節(jié) DOMLFSR模式整體架構(gòu)及核心內(nèi)容
第四節(jié) 小結(jié)
第四章 越-英-漢時(shí)事新聞框架網(wǎng)絡(luò)的體系構(gòu)建
第一節(jié) 越-英-漢時(shí)事新聞框架網(wǎng)絡(luò)語(yǔ)料制備——主題域?qū)用娴膶?duì)應(yīng)
第二節(jié) 領(lǐng)域詞元集的采集和分類——語(yǔ)義域?qū)用娴恼?br />
第三節(jié) 框架體系構(gòu)建及其關(guān)系描述——框架層面的復(fù)用、整合及新建
第四節(jié) 框架元素的定義和描述——框架元素層面的整合
第五節(jié) 小結(jié)
第五章 越-英-漢時(shí)事新聞框架網(wǎng)絡(luò)例句標(biāo)注與詞元庫(kù)構(gòu)建
第一節(jié) 待標(biāo)注例句庫(kù)構(gòu)建
第二節(jié) 例句框架語(yǔ)義標(biāo)注
第三節(jié) 詞元庫(kù)構(gòu)建
第四節(jié) 小結(jié)
第六章 越-英-漢時(shí)事新聞框架網(wǎng)絡(luò)應(yīng)用實(shí)驗(yàn)
第一節(jié) 框架語(yǔ)義標(biāo)注在事件抽取應(yīng)用中的可行性論證
第二節(jié) 基于核心依存圖(KDG)的事件信息抽取
第三節(jié) 基于框架元素格標(biāo)(FK)的事件信息抽取
第四節(jié) 小結(jié)
第七章 結(jié)語(yǔ)
第一節(jié) 本書(shū)已經(jīng)取得的研究進(jìn)展和成果
第二節(jié) 存在的問(wèn)題和下一步研究計(jì)
查看全部↓
第一章 緒 論
第一節(jié) 研究背景
據(jù)2014年3月12日統(tǒng)計(jì)數(shù)據(jù)①,Internet內(nèi)容語(yǔ)種(Content languages for websites)世界排名前十位中包括聯(lián)合國(guó)七種通用語(yǔ)種(英語(yǔ)、俄語(yǔ)、德語(yǔ)、西班牙語(yǔ)、法語(yǔ)、漢語(yǔ)、阿拉伯語(yǔ))中除阿拉伯語(yǔ)外的六種。非通用語(yǔ)種中的日語(yǔ)、葡萄牙語(yǔ)、意大利語(yǔ)、波蘭語(yǔ)也進(jìn)入排名前十。這表明,一方面Internet內(nèi)容語(yǔ)種呈多語(yǔ)化發(fā)展趨勢(shì),另一方面,除英語(yǔ)外,其余各通用語(yǔ)和非通用語(yǔ)之間發(fā)展差距并不顯著。
圖1—1 2014年3月12日Internet內(nèi)容語(yǔ)種統(tǒng)計(jì)
當(dāng)前,多語(yǔ)種大數(shù)據(jù)信息呈現(xiàn)出爆炸增長(zhǎng)態(tài)勢(shì),不論是否為通用語(yǔ)種,各語(yǔ)種網(wǎng)頁(yè)絕對(duì)數(shù)量都相當(dāng)龐大。如何利用現(xiàn)代語(yǔ)言學(xué)方法和信息處理技術(shù)對(duì)巨量的多語(yǔ)種新聞文本進(jìn)行知識(shí)表示、知識(shí)獲取,及時(shí)、準(zhǔn)確地追蹤和發(fā)現(xiàn)有效信息具有重要的理論價(jià)值和實(shí)踐意義。
根據(jù)圖靈機(jī)模型,現(xiàn)代計(jì)算機(jī)通常采用線性符號(hào)識(shí)別與轉(zhuǎn)換對(duì)語(yǔ)言信息進(jìn)行處理。當(dāng)前腦科學(xué)研究認(rèn)為,人腦處理語(yǔ)言信息時(shí)一般依賴存儲(chǔ)的語(yǔ)義和情景知識(shí)進(jìn)行并行擴(kuò)散多路搜索。因此,計(jì)算機(jī)對(duì)文本的語(yǔ)義理解和知識(shí)表示成為目前制約語(yǔ)言信息處理發(fā)展的重要瓶頸之一。
對(duì)紛繁復(fù)雜的語(yǔ)義和情景知識(shí)進(jìn)行形式化,將其表示為計(jì)算機(jī)可操作的符號(hào),采用詞匯語(yǔ)義知識(shí)庫(kù)(Lexical Semantic Knowledge Database,LSKD)②的形式進(jìn)行存儲(chǔ),是解決信息處理中語(yǔ)義問(wèn)題的主流方法。LSKD構(gòu)建已經(jīng)成為語(yǔ)言信息處理的核心工程,基于LSKD的語(yǔ)義分析方法對(duì)各種語(yǔ)言信息處理應(yīng)用(信息檢索、信息抽取、自動(dòng)文摘、自動(dòng)問(wèn)答、機(jī)器翻譯、詞義消歧)都不可或缺。
通過(guò)研究人們理解情景和故事時(shí)的思維過(guò)程,Minsky于1975年根據(jù)相應(yīng)的心理學(xué)模型提出框架理論(Frame Theory)③,引起了學(xué)術(shù)界的廣泛重視;“框架”隨后成為人工智能界常用的一種知識(shí)表示方法;格語(yǔ)法的創(chuàng)立者Fillmore④借鑒“框架”概念,提出了框架語(yǔ)義學(xué)(Frame Semantics),將研究重點(diǎn)確定為對(duì)概念結(jié)構(gòu)和句法-語(yǔ)義映射關(guān)系的描寫(xiě),以此對(duì)句法-語(yǔ)義接口問(wèn)題進(jìn)行探索(林麗,畢玉德,2012:42-46)?梢(jiàn),框架語(yǔ)義學(xué)研究方法符合語(yǔ)義知識(shí)表示的需求,其實(shí)質(zhì)是一種語(yǔ)義知識(shí)的形式化表示方法;诳蚣苷Z(yǔ)義學(xué)理論構(gòu)建的FrameNet⑤以事件框架的方式確定詞匯化編碼的語(yǔ)義信息(可轉(zhuǎn)化為DAML+OIL語(yǔ)言)并預(yù)測(cè)這些信息如何在句法上得到投射。(俞士汶,黃居仁,2005:1-20) FrameNet以語(yǔ)義框架⑥作為基本描述單元,并建立了框架與框架之間的網(wǎng)狀層級(jí)聯(lián)系,具備完善的語(yǔ)義表示與描述體系,是LSKD中設(shè)計(jì)合理、構(gòu)建完備、應(yīng)用廣泛的典型工程。
從具體應(yīng)用上看,由于框架語(yǔ)義學(xué)和FrameNet以人的認(rèn)知經(jīng)驗(yàn)作為基礎(chǔ),對(duì)“概念結(jié)構(gòu)”,即人類關(guān)于現(xiàn)實(shí)世界的語(yǔ)義知識(shí)進(jìn)行闡釋和描寫(xiě),因此在一定程度上具有普適性。截至目前統(tǒng)計(jì),各國(guó)研究學(xué)者基于框架語(yǔ)義學(xué),以FrameNet為藍(lán)本構(gòu)建了19個(gè)語(yǔ)種⑦的平行框架網(wǎng)絡(luò)資源。除我國(guó)民族語(yǔ)言維吾爾語(yǔ)和藏語(yǔ)外,其余17種外語(yǔ)均在有具體排名的Internet內(nèi)容語(yǔ)種前36位之列(各語(yǔ)種具體排名見(jiàn)腳注中括號(hào)內(nèi)數(shù)字)。也就是說(shuō),Internet內(nèi)容語(yǔ)種前36位中,已研究構(gòu)建FrameNet的語(yǔ)種比重為47.2%。由此可見(jiàn),F(xiàn)rameNet的多語(yǔ)種擴(kuò)展趨勢(shì)與Internet內(nèi)容語(yǔ)種的發(fā)展是一致的。可以據(jù)此推斷FrameNet對(duì)于巨量網(wǎng)絡(luò)信息處理是必要的。
基于以上背景,本書(shū)認(rèn)為,一方面對(duì)巨量的多語(yǔ)種網(wǎng)絡(luò)新聞文本知識(shí)表示、知識(shí)獲取進(jìn)行研究有迫切需求,而各語(yǔ)種,特別是非通用語(yǔ)在領(lǐng)域語(yǔ)料庫(kù)構(gòu)建、面向語(yǔ)言信息處理的語(yǔ)義研究方面尚顯滯后和薄弱;另一方面,框架語(yǔ)義學(xué)和FrameNet在理論和實(shí)踐兩方面都可作為語(yǔ)義知識(shí)形式化表示的典范,在研究深度和廣度上都有突出的貢獻(xiàn)。
因此,充分發(fā)揮框架語(yǔ)義學(xué)和FrameNet的已有優(yōu)勢(shì),以多語(yǔ)種網(wǎng)絡(luò)新聞文本知識(shí)表示、知識(shí)獲取為應(yīng)用導(dǎo)向,探索更加高效、通用的框架語(yǔ)義表示模式并進(jìn)行框架網(wǎng)絡(luò)構(gòu)建和應(yīng)用探索具有較為重要的理論和現(xiàn)實(shí)意義。
第二節(jié) 研究?jī)?nèi)容
本書(shū)的研究目標(biāo)是將框架語(yǔ)義學(xué)理論應(yīng)用到非通用語(yǔ)(特別是缺乏嚴(yán)格意義上形態(tài)變化的孤立語(yǔ))語(yǔ)義分析中,參照FrameNet工程構(gòu)建面向領(lǐng)域的多語(yǔ)框架網(wǎng)絡(luò)并基于此進(jìn)行事件抽取應(yīng)用探索,研究?jī)?nèi)容主要分為理論研究、工程實(shí)踐和應(yīng)用探索三個(gè)方面。
理論研究方面:通過(guò)系統(tǒng)研究框架語(yǔ)義學(xué)作為語(yǔ)義分析理論模型的的特點(diǎn)和優(yōu)勢(shì),深入探究FrameNet作為語(yǔ)義知識(shí)工程所具有的多語(yǔ)種可擴(kuò)展性和領(lǐng)域延伸性,分析其針對(duì)自然語(yǔ)言處理(NLP)⑧方面的不足之處,提出面向領(lǐng)域的多語(yǔ)框架語(yǔ)義表示(Domain-oriented Multilingual Frame Semantic Representation,DOMLFSR)⑨模式,確定該模式的整體架構(gòu)及核心內(nèi)容。
基于框架語(yǔ)義學(xué)的越南語(yǔ)詞匯語(yǔ)義研究也是本書(shū)的研究?jī)?nèi)容之一。由于越南語(yǔ)和漢語(yǔ)同為孤立語(yǔ)的典型代表,本書(shū)也將從語(yǔ)言類型特點(diǎn)角度著重分析其在框架語(yǔ)義構(gòu)造式系統(tǒng)方面的共性。
工程實(shí)踐方面:將“越南語(yǔ)-英語(yǔ)-漢語(yǔ)”作為“非通用語(yǔ)-中介語(yǔ)-通用語(yǔ)”多語(yǔ)模式的一個(gè)研究實(shí)例,以時(shí)事新聞?wù)Z料作為特定領(lǐng)域開(kāi)展研究。設(shè)計(jì)并開(kāi)發(fā)多語(yǔ)種Web新聞?wù)Z料抓取軟件,構(gòu)建了越-英-漢語(yǔ)領(lǐng)域語(yǔ)料庫(kù);對(duì)各語(yǔ)種語(yǔ)料進(jìn)行預(yù)處理并統(tǒng)計(jì)出高頻動(dòng)詞詞元;采集領(lǐng)域詞元并進(jìn)行語(yǔ)義分類,根據(jù)《同義詞詞林》(擴(kuò)展版)為每一詞元進(jìn)行語(yǔ)義分類賦碼,由此建成三語(yǔ)領(lǐng)域高頻動(dòng)詞詞元庫(kù);提出基于FrameNet 1.5數(shù)據(jù)的半自動(dòng)框架庫(kù)映射方法,通過(guò)三語(yǔ)領(lǐng)域高頻動(dòng)詞詞元庫(kù)中的英語(yǔ)動(dòng)詞詞元激活FrameNet相應(yīng)框架進(jìn)行復(fù)用和整合;設(shè)計(jì)并實(shí)現(xiàn)輔助建庫(kù)、標(biāo)注工具,構(gòu)建領(lǐng)域越-英-漢框架網(wǎng)絡(luò)(Domain-oriented Vietnamese-English-Chinese FrameNet,DOV-E-CFN)⑩,其主要工作包括搭建一定規(guī)模的時(shí)事新聞?lì)I(lǐng)域框架體系,確立框架關(guān)系,構(gòu)建標(biāo)注例句庫(kù)和詞匯庫(kù),統(tǒng)計(jì)詞元配價(jià)模式等。
另一方面,基于FrameNet的越南語(yǔ)句法-語(yǔ)義基礎(chǔ)資源構(gòu)建也是工程實(shí)踐的重要目標(biāo)之一。原因在于越南語(yǔ)在Internet內(nèi)容語(yǔ)種世界排名中列第19位11,目前使用人數(shù)超過(guò)9000萬(wàn)12,其重要性在亞洲,特別是東南亞地區(qū)更為明顯。越南語(yǔ)信息處理在2000年后才正式開(kāi)始起步,面向NLP的基礎(chǔ)資源的建設(shè)還較為滯后。
應(yīng)用探索方面:基于越-英-漢時(shí)事新聞框架網(wǎng)絡(luò)(DOV-E-CFN),將框架語(yǔ)義分析方法與傳統(tǒng)事件抽取方法進(jìn)行對(duì)比,論證了框架語(yǔ)義標(biāo)注方法在事件抽取中應(yīng)用的可行性及優(yōu)勢(shì),并分別基于核心依存圖(kernel dependency graph,KDG)13和框架語(yǔ)義格標(biāo)(frame element kasus,F(xiàn)K)探索其在新聞文本事件信息抽取中的應(yīng)用。
本書(shū)的具體章節(jié)安排如下:
第一章為緒論,主要對(duì)本書(shū)的研究背景、研究?jī)?nèi)容及方法、學(xué)術(shù)創(chuàng)新、研究意義、結(jié)構(gòu)和使用資源進(jìn)行介紹;
第二章為框架語(yǔ)義研究綜述;
……
查看全部↓