理論篇
1 語料庫語言學概述 / 2
1.1 語料庫語言學的學科基礎(chǔ) / 2
1.1.1 語料庫語言學的產(chǎn)生原因 / 2
1.1.2 語料庫語言學的理論基礎(chǔ) / 2
1.2 語料庫的定義、特點與分類 / 3
1.2.1 語料庫的定義 / 3
1.2.2 語料庫的特點 / 4
1.2.3 語料庫的分類 / 5
1.3 語料庫語言學的定義 / 6
1.3.1 前人論述 / 6
1.3.2 語料庫語言學定義 / 7
1.4 語料庫語言學的研究內(nèi)容與方法 / 8
1.4.1 語料庫語言學的研究內(nèi)容 / 8
1.4.2 語料庫語言學的研究方法 / 8
2 語料庫的建設(shè) / 10
2.1 概述 / 10
2.1.1 語料庫建設(shè)的基本過程 / 10
2.1.2 語料庫建設(shè)面臨的問題 / 10
2.2 語料庫建設(shè)的原則和規(guī)范 / 11
2.2.1 語料庫總的建設(shè)原則 / 11
2.2.2 語料庫的不規(guī)范性 / 12
2.3 語料庫建設(shè)的平衡性與代表性 / 13
2.3.1 規(guī)模、語體、時間與空間 / 13
2.3.2 流通度 / 15
2.4 語料庫建設(shè)的元數(shù)據(jù)與信息字段 / 19
2.4.1 元數(shù)據(jù) / 19
2.4.2 信息字段 / 23
2.4.3 元數(shù)據(jù)、信息字段舉例 / 24
2.5 語料庫建設(shè)方法 / 27
2.5.1 總體設(shè)計 / 27
2.5.2 具體實施 / 27
3 語料庫的加工標注 / 31
3.1 中文自動分詞 / 32
3.1.1 詞與自動分詞 / 32
3.1.2 中文分詞的特點和難點 / 32
3.1.3 常見的中文分詞方法 / 34
3.2 中文詞性標注 / 35
3.2.1 詞性、詞類與詞性標注 / 35
3.2.2 詞性標注難點 / 35
3.2.3 常見詞性標注方法 / 36
3.3 自動句法分析 / 37
3.3.1 概述 / 37
3.3.2 句法分析分類 / 38
3.3.3 依存句法分析 / 39
3.4 語義分析 / 41
3.4.1 詞語級語義分析 / 41
3.4.2 句子級語義分析 / 43
3.4.3 篇章級語義分析 / 44
4 術(shù)語說明 / 46
4.1 頻次 頻率 文本數(shù) / 46
4.1.1 頻次 / 46
4.1.2 頻率 / 46
4.1.3 文本數(shù) / 46
4.2 累加頻率 覆蓋率 使用率 高頻詞語 / 47
4.2.1 累加頻率 / 47
4.2.2 覆蓋率 / 47
4.2.3 使用率 / 47
4.2.4 高頻詞語 / 48
4.3 頻序 頻序比 頻率差 / 48
4.3.1 頻序 / 48
4.3.2 頻序比 / 48
4.3.3 頻率差 / 49
4.4 字種 字種數(shù) 詞種 詞種數(shù) / 49
4.4.1 字種 / 49
4.4.2 字種數(shù) / 49
4.4.3 詞種 / 49
4.4.4 詞種數(shù) / 49
4.5 共用 獨用 / 50
4.5.1 共用 / 50
4.5.2 獨用 / 50
工具篇
5 網(wǎng)頁批量下載 / 52
5.1 具有數(shù)字序列規(guī)律的網(wǎng)頁下載 / 52
5.1.1 搜索網(wǎng)頁 / 52
5.1.2 批量生成網(wǎng)址 / 54
5.1.3 創(chuàng)建工程 / 55
5.1.4 運行工程 / 57
5.2 具有時間序列規(guī)律的網(wǎng)頁下載 / 58
5.3 無數(shù)字、無日期序列的規(guī)律網(wǎng)頁下載 / 59
5.4 無任何規(guī)律網(wǎng)頁的批量下載 / 60
6 網(wǎng)頁信息抽取建庫 / 65
6.1 網(wǎng)頁內(nèi)容解析原理 / 65
6.2 程序操作圖示 / 67
6.2.1 打開待處理html 文件夾 / 67
6.2.2 展示待處理html 文件的文本內(nèi)容 / 68
6.2.3 選擇抽取字段的起止標記 / 69
6.2.4 選擇抽取結(jié)果保存的文件夾和文件名 / 70
6.2.5 檢查所有網(wǎng)頁的抽取起止標記是否正確 / 71
6.3 語料庫結(jié)果展示 / 71
7 例句檢索 / 73
7.1 程序操作圖示 / 73
7.1.1 打開、保存文件夾 / 73
7.1.2 選擇檢索模式 / 73
7.1.3 單擊運行程序 / 74
7.2 檢索結(jié)果展示 / 74
8 例句分析 / 75
8.1 程序操作圖示 / 75
8.1.1 檢索語料例句 / 75
8.1.2 打開、保存文件夾 / 75
8.1.3 選擇例句集來源、輸入前后標記 / 76
8.1.4 單擊運行程序 / 76
8.2 統(tǒng)計結(jié)果展示 / 77
9 用字統(tǒng)計分析 / 78
9.1 程序操作圖示 / 78
9.1.1 打開語料庫文件夾 / 78
9.1.2 設(shè)置保存結(jié)果文件夾及名稱 / 79
9.1.3 運行統(tǒng)計功能 / 80
9.2 統(tǒng)計結(jié)果展示 / 81
9.2.1 總的漢字使用的摘要報告 / 81
9.2.2 漢字分類使用情況 / 81
9.2.3 標點符號和漢字部件的使用情況 / 82
9.2.4 漢字字表的覆蓋率情況 / 83
9.2.5 不同排序方式的字表 / 83
9.2.6 與其他字表對比的數(shù)據(jù) / 85
10 用詞用語統(tǒng)計分析 / 86
10.1 程序操作圖示 / 86
10.2 統(tǒng)計結(jié)果展示 / 86
10.2.1 基本詞語表 / 86
10.2.2 頻次與詞種數(shù) / 87
10.2.3 高頻詞語用字統(tǒng)計 / 87
10.2.4 高頻詞語詞長統(tǒng)計 / 88
10.2.5 覆蓋率與詞種數(shù)關(guān)系 / 88
10.2.6 詞性及其頻次的統(tǒng)計結(jié)果 / 89
10.2.7 詞性及其詞種數(shù)的統(tǒng)計結(jié)果 / 89
10.2.8 成語使用結(jié)果 / 89
10.2.9 與《漢語水平詞匯與漢字等級大綱》(詞匯大綱)對比 / 90
11 字詞表對比分析 / 91
11.1 程序操作圖示 / 91
11.1.1 選擇對比項目和參數(shù) / 91
11.1.2 打開、保存文件夾 / 91
11.1.3 單擊運行程序 / 92
11.2 統(tǒng)計結(jié)果展示 / 92
11.2.1 頻率差結(jié)果 / 92
11.2.2 頻序比結(jié)果 / 93
11.2.3 共獨用結(jié)果 / 94
12 字詞表分布分析 / 95
12.1 程序操作圖示 / 95
12.1.1 選擇分布計算的大綱和項目 / 95
12.1.2 打開、保存文件夾 / 96
12.1.3 單擊運行程序 / 96
12.2 統(tǒng)計結(jié)果展示 / 97
12.2.1 在《等級大綱》中的分布 / 97
12.2.2 在《新漢語水平考試大綱》中的分布 / 97
13 詞語搭配抽取及分析 / 98
13.1 搭配抽取 / 99
13.1.1 程序操作圖示 / 99
13.1.2 統(tǒng)計結(jié)果展示 / 99
13.2 搭配過濾 / 101
13.2.1 程序操作圖示 / 101
13.3 搭配分析 / 102
13.3.1 程序操作圖示 / 102
13.3.2 統(tǒng)計結(jié)果展示 / 102
14 詞語按主題聚類 / 104
14.1 程序操作圖示 / 104
14.1.1 打開、保存文件夾 / 104
14.1.2 選擇聚類的底表和詞語數(shù) / 105
14.1.3 單擊運行程序 / 105
14.2 統(tǒng)計結(jié)果展示 / 105
15 篇章風格統(tǒng)計分析 / 107
15.1 程序操作圖示 / 108
15.1.1 打開、保存文件夾 / 108
15.1.2 輸入特定字詞 / 108
15.1.3 單擊運行程序 / 108
15.2 統(tǒng)計結(jié)果展示 / 109
案例篇
16 國際漢語教學語料庫建設(shè) / 112
16.1 漢語口語教學語料庫 / 112
16.1.1 話題庫建設(shè) / 112
16.1.2 話題分類、難度分級的常用會話資源庫 / 113
16.2 商務(wù)漢語教材語料庫 / 114
16.2.1 商務(wù)漢語教材語料庫 / 114
16.2.2 商務(wù)漢語功能項目庫 / 114
16.2.3 商務(wù)漢語功能項目分類語料庫 / 115
16.3 中小學華文教材語料庫 / 116
16.4 少兒漢語教材語料庫 / 117
16.4.1 主題庫 / 117
16.4.2 教材語料庫 / 117
16.4.3 主題分類語料庫 / 118
16.5 旅游漢語教材語料庫 / 118
16.5.1 旅游漢語教材語料庫 / 118
16.5.2 旅游漢語話題分類語料庫 / 118
17 全球華語語料庫建設(shè)及功能研究 / 120
17.1 全球華語語料庫建設(shè)的必要性和意義 / 120
17.2 全球華語語料庫建設(shè) / 122
17.2.1 語料庫建設(shè)的基本原則 / 122
17.2.2 語料來源與獲取方法 / 124
17.2.3 語料庫構(gòu)成及比例 / 125
17.2.4 語料庫信息字段及存儲格式 / 126
17.3 全球華語語料庫深加工 / 127
17.3.1 選取核心庫 / 127
17.3.2 分詞標注詞性、人工校對 / 128
17.3.3 基本字詞信息統(tǒng)計 / 128
17.3.4 音視頻資源標注處理 / 128
17.3.5 華裔學習者作文和口語語料庫偏誤標注 / 129
17.4 全球華語語料庫網(wǎng)絡(luò)服務(wù)平臺介紹 / 129
17.4.1 子語料庫定制系統(tǒng) / 129
17.4.2 網(wǎng)絡(luò)版字詞檢索系統(tǒng) / 129
17.4.3 網(wǎng)絡(luò)版全文例句檢索系統(tǒng) / 129
17.4.4 音視頻資源點播系統(tǒng) / 130
17.5 結(jié)語 / 130
18 東南亞小學華文教材課文用字研究 / 132
18.1 語料和調(diào)查對象說明 / 132
18.2 各教材課文用字基本情況 / 133
18.2.1 字次與字種數(shù) / 134
18.2.2 各教材前100 字共用獨用情況 / 134
18.2.3 各教材課文用字在《等級大綱》(漢字大綱)中的分布情況 / 136
18.2.4 新加坡兩套教材課文用字對比 / 138
18.2.5 越南、泰國、印尼五套教材課文用字對比 / 139
18.3 各教材課文用字分年級情況 / 140
18.3.1 各教材分年級字次和字種數(shù)基本情況 / 140
18.3.2 分年級課文用字的《等級大綱》(漢字大綱)分布情況 / 142
18.3.3 課文用字字種數(shù)按年級增量情況 / 144
18.4 東南亞小學華文教材和中國小學語文教材課文用字對比 / 145
18.4.1 基本情況 / 146
18.4.2 分段的共用獨用調(diào)查 / 147
18.4.3 基于頻序比的漢字使用對比分析 / 149
19 東南亞小學華文教材課文用詞研究 / 151
19.1 馬來西亞《華文》教材課文用詞調(diào)查 / 151
19.1.1 基本情況 / 151
19.1.2 頻次與詞種數(shù)的關(guān)系 / 151
19.1.3 詞語的覆蓋率 / 152
19.1.4 高頻詞的詞長分布 / 154
19.1.5 成語調(diào)查 / 155
19.1.6 課文用詞與《等級劃分》(詞匯大綱)的比較 / 159
19.1.7 課文用詞按年級統(tǒng)計情況 / 160
19.2 馬來西亞《華文》教材課文用詞與新課標小學《語文》對比 / 161
19.2.1 基本情況 / 161
19.2.2 頻次與詞種數(shù)的關(guān)系對比 / 162
19.2.3 詞語的覆蓋率對比 / 163
19.2.4 高頻詞的詞長分布 / 166
19.2.5 成語的對比分析 / 167
19.2.6 按年級對比馬-《華文》與人教新課標《語文》課文用詞情況 / 168
19.2.7 高頻詞的頻序比 / 170
19.3 東南亞不同層次小學華文教材對比 / 171
19.3.1 各層級教材課文用詞基本情況對比 / 172
19.3.2 各層級教材課文用詞按年級統(tǒng)計情況 / 178
19.3.3 各層級教材課文用詞與《等級劃分》(詞匯大綱)的比較 / 187
19.4 結(jié)語 / 191
20 少兒漢語話題及話題詞表構(gòu)建 / 194
20.1 術(shù)語及語料庫介紹 / 195
20.1.1 話題詞表、話題種子詞 / 195
20.1.2 詞語聚類 / 195
20.1.3 話題詞語、話題通用詞、話題專類詞 / 196
20.1.4 相關(guān)語料 / 196
20.2 少兒漢語話題與話題庫的構(gòu)建 / 199
20.3 少兒漢語話題詞表的構(gòu)建標準與方法 / 203
20.3.1 少兒漢語話題詞表的構(gòu)建理論 / 203
20.3.2 少兒漢語話題詞表的選詞標準 / 205
20.3.3 少兒漢語話題詞表的分類 / 205
20.3.4 話題詞表的構(gòu)建方法 / 207