關(guān)于我們
書單推薦
新書推薦
|
漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)標(biāo)準(zhǔn)研究 本書針對(duì)漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)中存在的隨意性問(wèn)題,借鑒國(guó)內(nèi)外多種類型語(yǔ)料庫(kù)的建設(shè)經(jīng)驗(yàn),并結(jié)合作者的語(yǔ)料庫(kù)建設(shè)實(shí)踐與理論思考,研究、制定了漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)標(biāo)準(zhǔn)。本書旨在推動(dòng)語(yǔ)料庫(kù)建設(shè)的規(guī)范化、標(biāo)準(zhǔn)化與科學(xué)化,提高其建設(shè)水平,促進(jìn)其健康發(fā)展,使其更好地為全世界的漢語(yǔ)教學(xué)與研究服務(wù),并為其他類型的語(yǔ)料庫(kù)建設(shè)提供參考與借鑒。
通過(guò)本書,既可以了解、研究國(guó)內(nèi)外現(xiàn)有語(yǔ)料庫(kù)的建設(shè)情況,又可以探索、總結(jié)漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)的建設(shè)流程及標(biāo)準(zhǔn)。 前言 本書是北京市社會(huì)科學(xué)基金重點(diǎn)項(xiàng)目漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)標(biāo)準(zhǔn)研究 (項(xiàng)目編號(hào):15WYA017)的研究成果之一。 一、關(guān)于課題目標(biāo)與書稿來(lái)源 1995年第一個(gè)漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)系統(tǒng)建成以來(lái),基于語(yǔ)料庫(kù)的偏誤分析、習(xí)得研究、中介語(yǔ)研究逐漸成為漢語(yǔ)國(guó)際教育研究中的重要內(nèi)容。21世紀(jì)初以來(lái),漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)在漢語(yǔ)國(guó)際教育與研究中的作用日益凸顯,其建設(shè)漸入高潮,成為語(yǔ)料庫(kù)研究中的熱點(diǎn)(譚曉平,2014),這也推動(dòng)了國(guó)內(nèi)少數(shù)民族學(xué)生學(xué)習(xí)國(guó)家通用語(yǔ)言文字的中介語(yǔ)語(yǔ)料庫(kù)建設(shè)、漢族學(xué)生學(xué)習(xí)少數(shù)民族語(yǔ)言的中介語(yǔ)語(yǔ)料庫(kù)建設(shè)、聾生學(xué)習(xí)漢語(yǔ)書面語(yǔ)的中介語(yǔ)語(yǔ)料庫(kù)建設(shè),以及國(guó)外的漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)。同時(shí),語(yǔ)料庫(kù)建設(shè)中還有許多問(wèn)題,例如設(shè)計(jì)水平不高、規(guī)模不大、標(biāo)注不全、功能不強(qiáng)、建成后不開放,以及存在水平重復(fù)等。而問(wèn)題的癥結(jié)在于語(yǔ)料庫(kù)建設(shè)隨意,缺乏統(tǒng)一標(biāo)準(zhǔn)。 針對(duì)語(yǔ)料庫(kù)建設(shè)中存在的上述問(wèn)題,我們提出了本項(xiàng)目,在北京市社會(huì)科學(xué)基金項(xiàng)目立項(xiàng)支持下,研制了《漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)標(biāo)準(zhǔn)(草案)》(以下簡(jiǎn)稱《建設(shè)標(biāo)準(zhǔn)》)。目的是克服語(yǔ)料庫(kù)建設(shè)中的隨意性,推動(dòng)語(yǔ)料庫(kù)建設(shè)的規(guī)范化、標(biāo)準(zhǔn)化與科學(xué)化,提高語(yǔ)料庫(kù)建設(shè)水平,促進(jìn)語(yǔ)料庫(kù)建設(shè)健康發(fā)展,使語(yǔ)料庫(kù)更地為漢語(yǔ)國(guó)際教育與研究服務(wù),并為其他類型語(yǔ)料庫(kù)的建設(shè)提供參考與借鑒。 本項(xiàng)目在對(duì)國(guó)內(nèi)外多種類型的語(yǔ)料庫(kù)進(jìn)行深入調(diào)查研究的基礎(chǔ)上,對(duì)漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)(以下簡(jiǎn)稱語(yǔ)料庫(kù))的建設(shè)標(biāo)準(zhǔn)進(jìn)行了較為全面、細(xì)致、深入的研究,在成功研制《建設(shè)標(biāo)準(zhǔn)》的同時(shí),完成相關(guān)調(diào)查報(bào)告和研究論文百余篇,部分成果在國(guó)內(nèi)外多種學(xué)術(shù)刊物與論文集中發(fā)表,并在國(guó)內(nèi)外很多學(xué)術(shù)會(huì)議、學(xué)術(shù)講座上做了交流、報(bào)告和研討。我們認(rèn)為這些報(bào)告與論文是我們?cè)谘兄啤督ㄔO(shè)標(biāo)準(zhǔn)》過(guò)程中,針對(duì)遇到的各種問(wèn)題進(jìn)行思考與探討的結(jié)果,體現(xiàn)了我們對(duì)相關(guān)問(wèn)題的認(rèn)識(shí)、觀點(diǎn)與主張,對(duì)認(rèn)識(shí)語(yǔ)料庫(kù)建設(shè)標(biāo)準(zhǔn)問(wèn)題具有啟發(fā)和參考作用,因此將其擇要整理成書,以就教于專家學(xué)者和廣大讀者。 二、關(guān)于調(diào)查研究的成果與意義 對(duì)語(yǔ)料庫(kù)建設(shè)與使用情況進(jìn)行全面、具體、深入的調(diào)查研究是掌握語(yǔ)料庫(kù)相關(guān)情況的基本環(huán)節(jié),更是制定建設(shè)標(biāo)準(zhǔn)的重要前提。因此,本項(xiàng)目先后組織十余名成員,主要通過(guò)文獻(xiàn)研究、語(yǔ)料庫(kù)實(shí)地考察(上網(wǎng)查詢?yōu)g覽)、用戶反饋、座談、訪談、學(xué)術(shù)會(huì)議等方式進(jìn)行調(diào)研,比較全面地掌握了國(guó)內(nèi)外多種類型的語(yǔ)料庫(kù)的相關(guān)情況,為《建設(shè)標(biāo)準(zhǔn)》的研制奠定了堅(jiān)實(shí)基礎(chǔ)。 調(diào)研范圍包括國(guó)內(nèi)外的漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)、國(guó)內(nèi)外的英語(yǔ)學(xué)習(xí)者語(yǔ)料庫(kù)、國(guó)內(nèi)漢語(yǔ)母語(yǔ)語(yǔ)料庫(kù)、國(guó)外母語(yǔ)語(yǔ)料庫(kù)(含美國(guó)英語(yǔ)語(yǔ)料庫(kù)、英國(guó)英語(yǔ)語(yǔ)料庫(kù)、俄羅斯俄語(yǔ)語(yǔ)料庫(kù)以及其他國(guó)家的一些語(yǔ)料庫(kù)①)、國(guó)內(nèi)少數(shù)民族母語(yǔ)語(yǔ)料庫(kù)、國(guó)內(nèi)外口語(yǔ)語(yǔ)料庫(kù)、多模態(tài)語(yǔ)料庫(kù)等多種類型的語(yǔ)料庫(kù)。 調(diào)研從10個(gè)方面展開:(1)語(yǔ)料庫(kù)一般情況,包括名稱、建設(shè)單位、網(wǎng)址、開放與否及程度;(2)建庫(kù)目的與實(shí)現(xiàn)方法;(3)語(yǔ)料的內(nèi)容、分類與規(guī)模;(4)語(yǔ)料采集方法;(5)語(yǔ)料標(biāo)注的內(nèi)容與方法;(6)語(yǔ)料元信息(背景信息);(7)語(yǔ)料統(tǒng)計(jì)信息;(8)語(yǔ)料的檢索與下載;(9)語(yǔ)料庫(kù)的更新與維護(hù);(10)認(rèn)識(shí)與啟示?疾燧^為全面、細(xì)致、系統(tǒng)、深入,了解了相關(guān)情況,總結(jié)了建設(shè)成果,指出了存在的問(wèn)題,具有一定的認(rèn)識(shí)價(jià)值。 調(diào)研取得了如下重要成果: 1.了解了語(yǔ)料庫(kù)的基本組成部分、語(yǔ)料庫(kù)建設(shè)的主要環(huán)節(jié)和完整過(guò)程。這對(duì)語(yǔ)料庫(kù)建設(shè)的總體設(shè)計(jì)和流程標(biāo)準(zhǔn)的研制具有重要的參考價(jià)值。 2.理清了國(guó)內(nèi)外語(yǔ)料庫(kù)建設(shè)中的主要問(wèn)題以及學(xué)界的討論與不同觀點(diǎn),例如語(yǔ)料的平衡性,語(yǔ)料標(biāo)注的全面性,漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)缺乏自己的分詞、詞性標(biāo)注規(guī)范與專用詞表,語(yǔ)料庫(kù)檢索功能的現(xiàn)狀與不足,語(yǔ)料呈現(xiàn)、下載與保存的便捷性,口語(yǔ)語(yǔ)料的轉(zhuǎn)寫困境,口語(yǔ)語(yǔ)料庫(kù)建設(shè)的滯后性,語(yǔ)料庫(kù)的開放與資源共享,等等。學(xué)界對(duì)上述一些問(wèn)題的理解、認(rèn)識(shí)與觀點(diǎn)并不一致,有的甚至相反。這些情況引起我們對(duì)相關(guān)問(wèn)題的重視,并使得我們?cè)谥贫?biāo)準(zhǔn)的過(guò)程中抱著謹(jǐn)慎的態(tài)度進(jìn)行全面、細(xì)致、深入的思考與研究,盡最大努力使標(biāo)準(zhǔn)的制定做到科學(xué)、嚴(yán)謹(jǐn)、合理、可行。 3.一些語(yǔ)料庫(kù)的建設(shè)理念與認(rèn)識(shí)主張非常有借鑒價(jià)值。例如,俄語(yǔ)國(guó)家語(yǔ)料庫(kù)在語(yǔ)料標(biāo)注問(wèn)題上所主張的不替用戶做判斷的理念為我們?cè)诮◣?kù)實(shí)踐中已經(jīng)逐漸形成的淺層標(biāo)注的認(rèn)識(shí)與主張?zhí)峁┝伺宰C。 4.指出了國(guó)內(nèi)漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)語(yǔ)料呈現(xiàn)方式存在的問(wèn)題。例如:(1)檢索界面雖能滿足用戶的基本需求,但或是檢索結(jié)果不能批量下載與保存,或是用戶對(duì)標(biāo)注內(nèi)容的顯示與否和顯示數(shù)量沒(méi)有自主選擇權(quán),抑或是界面設(shè)計(jì)得不便于用戶閱讀;(2)原始語(yǔ)料不便于查看,甚至不能查看;(3)語(yǔ)料相關(guān)信息中只有學(xué)生的國(guó)籍信息,沒(méi)有母語(yǔ)信息;等等。這些發(fā)現(xiàn)及在此基礎(chǔ)上提出的改進(jìn)建議對(duì)語(yǔ)料呈現(xiàn)標(biāo)準(zhǔn)的確定具有重要的啟發(fā)意義。 5.用戶在使用語(yǔ)料庫(kù)基礎(chǔ)上提出的反饋意見與要求更是給了我們直接的啟示,在建庫(kù)實(shí)踐中必須予以滿足,在語(yǔ)料庫(kù)建設(shè)標(biāo)準(zhǔn)中也必須加以體現(xiàn)。例如:(1)語(yǔ)料的背景信息應(yīng)能檢索并與語(yǔ)料一起呈現(xiàn),且能和語(yǔ)料一起下載;(2)HSK動(dòng)態(tài)作文語(yǔ)料庫(kù)無(wú)語(yǔ)體、辭格等層面的標(biāo)注,不能查詢語(yǔ)體、辭格的使用情況;(3)檢索功能薄弱,不能按詞性查詢,不能查特定句式與重疊結(jié)構(gòu),不能做對(duì)比檢索;等等。用戶的這些意見與要求不僅推動(dòng)了語(yǔ)料庫(kù)建設(shè)的進(jìn)步,也豐富了建設(shè)標(biāo)準(zhǔn)的研究?jī)?nèi)容。 三、關(guān)于《建設(shè)標(biāo)準(zhǔn)》的內(nèi)容與特點(diǎn) (一)《建設(shè)標(biāo)準(zhǔn)》的內(nèi)容 課題組通過(guò)調(diào)查研究、問(wèn)題研討、理論研究、實(shí)踐檢驗(yàn)、論文撰寫等多方面的研究工作,最終成功研制了《建設(shè)標(biāo)準(zhǔn)》,包括語(yǔ)料庫(kù)建設(shè)流程標(biāo)準(zhǔn)、語(yǔ)料采集標(biāo)準(zhǔn)、語(yǔ)料背景信息采集標(biāo)準(zhǔn)、筆語(yǔ)語(yǔ)料錄入標(biāo)準(zhǔn)、口語(yǔ)和視頻語(yǔ)料轉(zhuǎn)寫標(biāo)準(zhǔn)、語(yǔ)料標(biāo)注標(biāo)準(zhǔn)、語(yǔ)料呈現(xiàn)標(biāo)準(zhǔn)、語(yǔ)料庫(kù)軟件系統(tǒng)研發(fā)標(biāo)準(zhǔn)、語(yǔ)料庫(kù)建設(shè)質(zhì)量標(biāo)準(zhǔn)、語(yǔ)料庫(kù)使用標(biāo)準(zhǔn)。其中吸取了語(yǔ)料庫(kù)建設(shè)實(shí)踐中的諸多成功經(jīng)驗(yàn),也包括一些新的研究成果。 (二)《建設(shè)標(biāo)準(zhǔn)》體現(xiàn)了語(yǔ)料庫(kù)建設(shè)的先進(jìn)理念 1.服務(wù)理念,即《建設(shè)標(biāo)準(zhǔn)》的研究要為漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)服務(wù),為漢語(yǔ)國(guó)際教育與研究服務(wù)。例如:語(yǔ)料庫(kù)建設(shè)流程標(biāo)準(zhǔn)規(guī)定了語(yǔ)料庫(kù)建設(shè)的必有環(huán)節(jié)與先后順序,建庫(kù)者可以按部就班地進(jìn)行語(yǔ)料庫(kù)建設(shè),而無(wú)須從頭摸索,甚至重復(fù)前人已經(jīng)走過(guò)的彎路,從而克服建庫(kù)中的隨意性與低水平重復(fù),推動(dòng)、促進(jìn)語(yǔ)料庫(kù)建設(shè)的科學(xué)化與規(guī)范化;為了使廣大用戶能夠方便快捷地檢索到教學(xué)與研究所需要的語(yǔ)料,語(yǔ)料庫(kù)軟件系統(tǒng)研發(fā)標(biāo)準(zhǔn)提供了9種檢索方式,便于用戶從多種角度進(jìn)行語(yǔ)料查詢。 2.前瞻性,即《建設(shè)標(biāo)準(zhǔn)》對(duì)建庫(kù)實(shí)踐具有引領(lǐng)作用。《建設(shè)標(biāo)準(zhǔn)》的研制既要總結(jié)并汲取以往語(yǔ)料庫(kù)建設(shè)的成功經(jīng)驗(yàn)與失敗教訓(xùn),更要發(fā)現(xiàn)規(guī)律,預(yù)測(cè)發(fā)展趨勢(shì),從而發(fā)揮引領(lǐng)作用,對(duì)建庫(kù)工作給予切實(shí)有效的指導(dǎo)。例如標(biāo)注內(nèi)容,從為教學(xué)與研究服務(wù)的理念出發(fā),教學(xué)與研究需要什么,就應(yīng)該標(biāo)什么,否則就無(wú)法為教學(xué)與研究服務(wù)。而有的學(xué)者根據(jù)國(guó)外的學(xué)術(shù)觀點(diǎn)認(rèn)為偏誤標(biāo)注所依賴的某些分析理論并不成熟,而沒(méi)有較為成熟的理論支持,就很難制定出針對(duì)某些現(xiàn)象的完善的標(biāo)注規(guī)范,進(jìn)而提出:對(duì)于剛起步不久的漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)來(lái)說(shuō),可以先做好漢字、詞匯和語(yǔ)法的基本的正確和偏誤信息的標(biāo)注,待相關(guān)的理論和實(shí)踐研究比較成熟之后,再進(jìn)行其他層面的標(biāo)注。我們認(rèn)為這種消極等待、無(wú)所作為的觀點(diǎn)完全不顧漢語(yǔ)國(guó)際教育與研究的實(shí)際需求,顛倒了理論與實(shí)踐的相互關(guān)系,放棄了我國(guó)學(xué)者應(yīng)負(fù)的責(zé)任,違背了實(shí)踐、創(chuàng)新的科學(xué)精神,這樣是不可能帶來(lái)我國(guó)語(yǔ)料庫(kù)建設(shè)理論與實(shí)踐的進(jìn)步的。因此,我們?cè)谡Z(yǔ)料庫(kù)建設(shè)實(shí)踐取得成功經(jīng)驗(yàn)的基礎(chǔ)上,在《建設(shè)標(biāo)準(zhǔn)》中加入了全面標(biāo)注的原則。我們還引入了語(yǔ)料庫(kù)建設(shè)2.0的理念,認(rèn)為語(yǔ)料庫(kù)建設(shè)已進(jìn)入2.0時(shí)代,語(yǔ)料庫(kù)應(yīng)具備精細(xì)而豐富的特征。精細(xì)是指語(yǔ)料庫(kù)整體設(shè)計(jì)周密,軟件系統(tǒng)制作精良,用戶使用方便;豐富則指語(yǔ)料庫(kù)的功能多樣,能夠滿足教學(xué)與相關(guān)研究的多方面需求。這些都體現(xiàn)了《建設(shè)標(biāo)準(zhǔn)》的前瞻性與先進(jìn)性。 3.廣泛性,即《建設(shè)標(biāo)準(zhǔn)》涉及面廣、適應(yīng)性強(qiáng)!督ㄔO(shè)標(biāo)準(zhǔn)》不僅適用于筆語(yǔ)語(yǔ)料庫(kù),也適用于口語(yǔ)語(yǔ)料庫(kù)、多模態(tài)語(yǔ)料庫(kù),說(shuō)明漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)不僅重視書面形式的語(yǔ)言運(yùn)用,也非常重視口語(yǔ)形式的語(yǔ)言表達(dá)和口語(yǔ)表達(dá)中的體態(tài)語(yǔ)。 4.實(shí)事求是的平衡性。語(yǔ)料的平衡性是語(yǔ)料庫(kù)建設(shè)中一個(gè)非常重要的問(wèn)題,也是一個(gè)尚未徹底解決的問(wèn)題。由于語(yǔ)料的真實(shí)性要求和必bei的背景信息的要求,獲取符合條件的語(yǔ)料本身就頗具難度。以學(xué)習(xí)者的國(guó)籍分布而言,想要達(dá)到絕對(duì)的、理想化的平衡既不現(xiàn)實(shí),也不符合漢語(yǔ)國(guó)際教育的實(shí)際情況。因此,應(yīng)采取實(shí)事求是的態(tài)度,根據(jù)不同國(guó)家和地區(qū)的學(xué)習(xí)者的實(shí)際分布情況,運(yùn)用分層抽樣的方法解決平衡性問(wèn)題。 5.標(biāo)注模式。如果說(shuō)語(yǔ)料采集是建庫(kù)的基礎(chǔ)或前提,標(biāo)注就是決定語(yǔ)料庫(kù)功能和使用價(jià)值的關(guān)鍵。為了能對(duì)學(xué)習(xí)者的語(yǔ)言表現(xiàn)進(jìn)行全面、準(zhǔn)確的了解和把握,《建設(shè)標(biāo)準(zhǔn)》采納了偏誤標(biāo)注 基礎(chǔ)標(biāo)注的模式,既標(biāo)注學(xué)習(xí)者的偏誤,又標(biāo)注其正確的語(yǔ)言表現(xiàn),以在滿足偏誤分析需要的基礎(chǔ)上,進(jìn)一步滿足表現(xiàn)分析(或稱語(yǔ)言運(yùn)用分析)的需要,進(jìn)而提高漢語(yǔ)習(xí)得研究和中介語(yǔ)分析的水平。 6.眾包維護(hù)。用戶在使用語(yǔ)料庫(kù)時(shí),如果發(fā)現(xiàn)錄入、轉(zhuǎn)寫、標(biāo)注等方面的錯(cuò)誤,不僅可以通過(guò)反饋留言的方式告知管理人員,還可以點(diǎn)擊有錯(cuò)誤的地方,在彈出的對(duì)話框中直接進(jìn)行修改并提交,經(jīng)管理員確認(rèn)通過(guò)后即可替代原來(lái)的語(yǔ)料與標(biāo)注。這樣,用戶不僅是語(yǔ)料庫(kù)的使用者,也是其檢驗(yàn)者和維護(hù)者。語(yǔ)料庫(kù)的檢查、修改、維護(hù)從少數(shù)建庫(kù)人員和管理人員有限的定期檢查變成了眾多用戶參與的長(zhǎng)期過(guò)程,這種靠眾人之力、集眾人之智的維護(hù)方式非常有利于語(yǔ)料庫(kù)質(zhì)量的不斷提升。 7.實(shí)踐檢驗(yàn),即準(zhǔn)備作為建設(shè)標(biāo)準(zhǔn)的認(rèn)識(shí)與做法要經(jīng)過(guò)建庫(kù)實(shí)踐的檢驗(yàn),證明其有效并可行之后,才納入《建設(shè)標(biāo)準(zhǔn)》。在《建設(shè)標(biāo)準(zhǔn)》的研制過(guò)程中,我們利用建設(shè)全球漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)和開發(fā)HSK動(dòng)態(tài)作文語(yǔ)料庫(kù)(2.0版)的機(jī)會(huì),把通過(guò)研究得出的一些認(rèn)識(shí)與做法在建庫(kù)實(shí)踐中進(jìn)行了檢驗(yàn),可行的予以保留,有問(wèn)題的加以改進(jìn),不可行的則堅(jiān)決舍棄。經(jīng)過(guò)從認(rèn)識(shí)到實(shí)踐,再?gòu)膶?shí)踐到認(rèn)識(shí)的反復(fù)探索,我們的認(rèn)識(shí)與研究結(jié)論具有了較高的科學(xué)性與可行性。例如:我們?cè)趯?shí)踐中驗(yàn)證了全面標(biāo)注的主張;舍棄了同版標(biāo)注,采用了分版標(biāo)注的做法;證明了對(duì)部分標(biāo)注內(nèi)容進(jìn)行自動(dòng)標(biāo)注的可行性。 8.資源共享的途徑。目前,除少數(shù)幾個(gè)漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)外,大部分中介語(yǔ)語(yǔ)料庫(kù)都不對(duì)外開放①。這既造成了人力、物力、財(cái)力的浪費(fèi),也是語(yǔ)料庫(kù)建設(shè)存在低水平重復(fù)問(wèn)題的重要原因之一。語(yǔ)料庫(kù)是工具,使用的人越多,其價(jià)值越高;基于某語(yǔ)料庫(kù)產(chǎn)出的研究成果越多,則該語(yǔ)料庫(kù)發(fā)揮的作用越大。語(yǔ)料庫(kù)是天下學(xué)術(shù)公器,本來(lái)就應(yīng)該開放給天下人使用,為漢語(yǔ)國(guó)際教育與研究服務(wù)。因此《建設(shè)標(biāo)準(zhǔn)》明確提出:凡使用政府各級(jí)各類科研經(jīng)費(fèi)建設(shè)的語(yǔ)料庫(kù)如不存在涉密問(wèn)題,建成上線后,必須向?qū)W界、社會(huì)乃至所有用戶免費(fèi)開放,供各界用戶使用,同時(shí)也應(yīng)保護(hù)好建庫(kù)者的知識(shí)產(chǎn)權(quán)與語(yǔ)料作者的個(gè)人信息。HSK動(dòng)態(tài)作文語(yǔ)料庫(kù)和全球漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建成后,我們立即向國(guó)內(nèi)外學(xué)界和全社會(huì)免費(fèi)開放,已落實(shí)我們所倡導(dǎo)的為漢語(yǔ)國(guó)際教育與研究服務(wù)的宗旨。我們也曾多次呼吁語(yǔ)料庫(kù)建設(shè)者們開放語(yǔ)料庫(kù),但響應(yīng)者寥寥。我們強(qiáng)烈建議各級(jí)科研管理部門把語(yǔ)料庫(kù)免費(fèi)開放作為項(xiàng)目中檢和結(jié)項(xiàng)的必bei條件。相較于學(xué)者們的宣傳呼吁,這樣一條管理措施具有很大的權(quán)威性,將會(huì)徹底改變語(yǔ)料庫(kù)不開放的現(xiàn)狀,真正實(shí)現(xiàn)語(yǔ)料資源的充分共享。 (三)《建設(shè)標(biāo)準(zhǔn)》吸取了語(yǔ)料庫(kù)建設(shè)中的新鮮經(jīng)驗(yàn),提出了一些新的觀點(diǎn)和做法 1.提出了漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)標(biāo)準(zhǔn)的基本框架,即與語(yǔ)料庫(kù)建設(shè)密切相關(guān)的10個(gè)方面的規(guī)范:語(yǔ)料庫(kù)建設(shè)流程標(biāo)準(zhǔn)、語(yǔ)料采集標(biāo)準(zhǔn)、語(yǔ)料背景信息采集標(biāo)準(zhǔn)、筆語(yǔ)語(yǔ)料錄入標(biāo)準(zhǔn)、口語(yǔ)和視頻語(yǔ)料轉(zhuǎn)寫標(biāo)準(zhǔn)、語(yǔ)料標(biāo)注標(biāo)準(zhǔn)、語(yǔ)料呈現(xiàn)標(biāo)準(zhǔn)、語(yǔ)料庫(kù)軟件系統(tǒng)研發(fā)標(biāo)準(zhǔn)、語(yǔ)料庫(kù)建設(shè)質(zhì)量標(biāo)準(zhǔn)、語(yǔ)料庫(kù)使用標(biāo)準(zhǔn)。 2.制定了漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)的標(biāo)準(zhǔn)流程:(1)提出建庫(kù)任務(wù),進(jìn)行總體設(shè)計(jì);(2)組建研究與開發(fā)團(tuán)隊(duì);(3)語(yǔ)料采集與整理;(4)語(yǔ)料相關(guān)背景信息采集與整理;(5)語(yǔ)料錄入、轉(zhuǎn)寫與校對(duì);(6)制定標(biāo)注規(guī)范與實(shí)施語(yǔ)料標(biāo)注;(7)開發(fā)人工輔助標(biāo)注工具;(8)數(shù)據(jù)統(tǒng)計(jì)與表格編制;(9)開發(fā)語(yǔ)料庫(kù)管理系統(tǒng)與檢索系統(tǒng);(10)語(yǔ)料庫(kù)集成、上網(wǎng)與調(diào)試;(11)語(yǔ)料庫(kù)發(fā)布與開放;(12)語(yǔ)料庫(kù)運(yùn)行與維護(hù)。 3.選擇、規(guī)定了適宜的口語(yǔ)語(yǔ)料轉(zhuǎn)寫方式,解決了口語(yǔ)語(yǔ)料的轉(zhuǎn)寫難題?谡Z(yǔ)語(yǔ)料庫(kù)建設(shè)很少,嚴(yán)重滯后于筆語(yǔ)語(yǔ)料庫(kù)建設(shè),制約著漢語(yǔ)口語(yǔ)中介語(yǔ)的研究和不同語(yǔ)體漢語(yǔ)中介語(yǔ)的對(duì)比研究,而重要原因之一就是口語(yǔ)語(yǔ)料轉(zhuǎn)寫困難。我們?cè)跇?biāo)準(zhǔn)研究和建庫(kù)實(shí)踐中發(fā)現(xiàn),在線轉(zhuǎn)寫平臺(tái)訊飛聽見提供了轉(zhuǎn)寫質(zhì)量好且經(jīng)濟(jì)實(shí)惠、完全具備實(shí)用價(jià)值的轉(zhuǎn)寫服務(wù),可以大大減輕人工轉(zhuǎn)寫的繁難程度。雖然機(jī)器的語(yǔ)音識(shí)別結(jié)果會(huì)有一些問(wèn)題,需要一定程度的人工審核與修改,但仍足以打破口語(yǔ)語(yǔ)料庫(kù)建設(shè)的瓶頸。 4.提出了漢語(yǔ)中介語(yǔ)語(yǔ)料標(biāo)注的總原則科學(xué)性,其含義是:(1)問(wèn)題導(dǎo)向,需求驅(qū)動(dòng);(2)實(shí)事求是,嚴(yán)守規(guī)范;(3)積極探索,勇于實(shí)踐。具體原則包括:(1)全面性;(2)準(zhǔn)確性;(3)系統(tǒng)性;(4)規(guī)范性;(5)有限性;(6)簡(jiǎn)潔性;(7)開放性;(8)通用性;(9)自動(dòng)化;(10)漸進(jìn)性。 5.規(guī)定了偏誤標(biāo)注 基礎(chǔ)標(biāo)注的標(biāo)注模式,闡釋并驗(yàn)證了全面標(biāo)注、分版標(biāo)注、自動(dòng)標(biāo)注的必要性與可行性。 6.實(shí)時(shí)統(tǒng)計(jì)。以往語(yǔ)料庫(kù)建設(shè)中采用的統(tǒng)計(jì)方法都是語(yǔ)料標(biāo)注完成后進(jìn)行靜態(tài)統(tǒng)計(jì),這對(duì)百萬(wàn)字級(jí)的較小的語(yǔ)料庫(kù)來(lái)說(shuō)并無(wú)不妥。但對(duì)需要邊建設(shè)、邊開放的大型語(yǔ)料庫(kù)來(lái)說(shuō),靜態(tài)統(tǒng)計(jì)是無(wú)法隨時(shí)更新數(shù)據(jù)的。而實(shí)時(shí)的動(dòng)態(tài)統(tǒng)計(jì)意味著隨著語(yǔ)料規(guī)模的不斷增長(zhǎng)與各項(xiàng)標(biāo)注內(nèi)容標(biāo)注量的不斷增加,總字?jǐn)?shù)與總詞數(shù)、已標(biāo)注字?jǐn)?shù)與詞數(shù)、未標(biāo)注字?jǐn)?shù)與詞數(shù)、語(yǔ)料的題目數(shù)、語(yǔ)料總篇數(shù)、不同國(guó)家學(xué)習(xí)者的語(yǔ)料篇數(shù)等統(tǒng)計(jì)數(shù)據(jù)都會(huì)發(fā)生變化,用戶可以隨時(shí)掌握這些數(shù)據(jù),作為教學(xué)與研究的參考。實(shí)時(shí)統(tǒng)計(jì)代表了2.0時(shí)代語(yǔ)料庫(kù)在數(shù)據(jù)統(tǒng)計(jì)方面的發(fā)展方向,因而《建設(shè)標(biāo)準(zhǔn)》收入了這一方法。 7.研發(fā)了9種檢索方式。目前絕大多數(shù)語(yǔ)料庫(kù)以字符串一般檢索和分類標(biāo)注檢索為基本檢索方式,前者可以按照具體的字、詞、短語(yǔ)、句子進(jìn)行檢索,后者可以查詢標(biāo)注過(guò)的內(nèi)容。其局限性在于檢索功能薄弱,語(yǔ)料庫(kù)中某些中介語(yǔ)現(xiàn)象實(shí)際存在卻無(wú)法檢索。為此,我們?cè)诮◣?kù)實(shí)踐中研發(fā)了特定條件檢索、詞語(yǔ)搭配檢索、按詞性檢索、詞語(yǔ)對(duì)比檢索、離合詞檢索、重疊結(jié)構(gòu)檢索、按句末標(biāo)點(diǎn)檢索等7種新的檢索方式,并將其加入《建設(shè)標(biāo)準(zhǔn)》,為用戶提供了多種角度的檢索方式,可以檢索出更多的中介語(yǔ)現(xiàn)象,從而增強(qiáng)了語(yǔ)料庫(kù)的功能與使用價(jià)值,可以更好地發(fā)揮語(yǔ)料的作用。 8.自動(dòng)化,指部分內(nèi)容標(biāo)注和建設(shè)流程的自動(dòng)化!督ㄔO(shè)標(biāo)準(zhǔn)》吸收了已達(dá)到實(shí)用水平的自動(dòng)分詞和詞性標(biāo)注,也收入了準(zhǔn)確無(wú)誤的繁體字、異體字的自動(dòng)標(biāo)注,以及具有一定使用價(jià)值的詞語(yǔ)層面和某些語(yǔ)體色彩分明的句式層面的語(yǔ)體自動(dòng)標(biāo)注。漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)與應(yīng)用綜合平臺(tái)集語(yǔ)料的上傳與審核、錄入轉(zhuǎn)寫與審核、標(biāo)注與審核、統(tǒng)計(jì)、入庫(kù)等環(huán)節(jié)于一體,不但在一定程度上實(shí)現(xiàn)了語(yǔ)料庫(kù)建設(shè)的自動(dòng)化,而且在很大程度上實(shí)現(xiàn)了語(yǔ)料庫(kù)建設(shè)的標(biāo)準(zhǔn)化,提升了語(yǔ)料庫(kù)建設(shè)的效率與水平。因此,《建設(shè)標(biāo)準(zhǔn)》也吸納了這些做法。 上述研究成果均在本書中進(jìn)行了闡釋與論證,體現(xiàn)了《建設(shè)標(biāo)準(zhǔn)》的研制過(guò)程。 四、關(guān)于本書的內(nèi)容安排與作者 本書由總論、調(diào)研報(bào)告、標(biāo)準(zhǔn)研究三部分組成,共計(jì)24章。總論2章,集中討論語(yǔ)料庫(kù)建設(shè)的各方面問(wèn)題,從整體上闡釋對(duì)建設(shè)標(biāo)準(zhǔn)的認(rèn)識(shí)和觀點(diǎn)。調(diào)研報(bào)告8章,從地域與國(guó)家(國(guó)內(nèi)外,美、英、俄等國(guó)家)和語(yǔ)料庫(kù)類型與語(yǔ)種(中介語(yǔ)語(yǔ)料庫(kù)、母語(yǔ)語(yǔ)料庫(kù),漢語(yǔ)語(yǔ)料庫(kù)、英語(yǔ)語(yǔ)料庫(kù)、俄語(yǔ)語(yǔ)料庫(kù)等)兩個(gè)維度調(diào)查、分析現(xiàn)有各類語(yǔ)料庫(kù)的建設(shè)與使用情況,為標(biāo)準(zhǔn)研究奠定基礎(chǔ)。標(biāo)準(zhǔn)研究14章,從語(yǔ)料庫(kù)建設(shè)流程、語(yǔ)料采集、語(yǔ)料錄寫、語(yǔ)料標(biāo)注、語(yǔ)料檢索、語(yǔ)料庫(kù)軟件研發(fā)、語(yǔ)料庫(kù)應(yīng)用等方面探討建設(shè)標(biāo)準(zhǔn)問(wèn)題,提出了語(yǔ)料庫(kù)建設(shè)各個(gè)方面的標(biāo)準(zhǔn)。本書附錄系《建設(shè)標(biāo)準(zhǔn)》草案稿,供專家學(xué)者和廣大讀者參考、批評(píng)、指正。 本書作者為北京語(yǔ)言大學(xué)語(yǔ)言科學(xué)院、漢語(yǔ)國(guó)際教育研究院的部分教師、碩 士研究生和博士研究生,以及部分外校教師。分工如下: 張寶林,第一章(合著)、第二章、第十一章(合著)、第十三章、第二十一章、第二十二章、第二十四章及前言、附錄、后記; 崔希亮,第一章(合著); 李紅梅,第三章、第二十章; 邢曉青,第四章; 靳繼君,第五章; 張敏,第六章; 許家金,第七章; 陳麗華,第八章(合著)、第九章(合著); 王美云,第八章(合著)、第九章(合著); 高璇,第八章(合著)、第九章(合著); 溫曉潔,第八章(合著); 段海于,第八章(合著)、第十四章; 文雁,第十章、第十一章(合著); 段清釩,第十一章(合著)、第十二章(合著)、第十五章(合著); 楊星星,第十二章(合著); 齊菲,第十五章(合著); 張馨丹,第十五章(合著); 劉運(yùn)同,第十六章; 張蕾,第十七章(合著); 楊帆,第十七章(合著); 梁丁一,第十八章; 閆慧慧,第十九章; 閆培,第二十三章。 五、我們的期待 為漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)研制標(biāo)準(zhǔn)尚屬首次,我們有幸提出并承擔(dān)這項(xiàng)十分重要的任務(wù),并最終完成了任務(wù)。同時(shí),我們深知:這項(xiàng)任務(wù)是十分艱難的,標(biāo)準(zhǔn)的研究并非一蹴而就,更非一勞永逸,我們研制的《建設(shè)標(biāo)準(zhǔn)》必定還有很多缺點(diǎn)和不足。我們會(huì)繼續(xù)關(guān)注國(guó)內(nèi)外語(yǔ)料庫(kù)語(yǔ)言學(xué)的發(fā)展,關(guān)注學(xué)界在建庫(kù)實(shí)踐中取得的新成果,并在今后的建庫(kù)實(shí)踐與應(yīng)用研究中不斷發(fā)現(xiàn)新問(wèn)題,克服新困難,積累新經(jīng)驗(yàn),進(jìn)行深入研究,在新的認(rèn)識(shí)的基礎(chǔ)上,修訂與改進(jìn)該標(biāo)準(zhǔn),使其不斷完善,更好地為語(yǔ)料庫(kù)建設(shè)提供指導(dǎo)與幫助,促進(jìn)語(yǔ)料庫(kù)的建設(shè)與應(yīng)用研究。 我們衷心期待各位專家學(xué)者、廣大用戶與讀者不吝賜教! 張寶林 2022年6月21日 張寶林,北京語(yǔ)言大學(xué)國(guó)際中文教育研究院研究員、博士生導(dǎo)師,西北師范大學(xué)兼職教授,福建師范大學(xué)客座教授,語(yǔ)言資源高精尖創(chuàng)新中心特聘研究員,中央民族大學(xué)語(yǔ)言教學(xué)、認(rèn)知與習(xí)得開放研究中心學(xué)術(shù)顧問(wèn)。研究方向包括漢語(yǔ)教學(xué)語(yǔ)法、漢語(yǔ)二語(yǔ)教學(xué)、語(yǔ)料庫(kù)語(yǔ)言學(xué)。曾獲第八屆高等學(xué)校科學(xué)研究?jī)?yōu)秀成果獎(jiǎng)(人文社會(huì)科學(xué))二等獎(jiǎng)。
你還可能感興趣
我要評(píng)論
|