本書對自然語言處理中的兩種代表性的短文本信息挖掘進(jìn)行研究:關(guān)系抽取和彈幕評論挖掘。針對關(guān)系抽取任務(wù),從精度、效率、魯棒性及前沿探索四個方面進(jìn)行分析并提出對應(yīng)的解決方法。針對彈幕評論挖掘任務(wù),充分地利用彈幕的實(shí)時性、交互性、高噪聲等性質(zhì),提出適用于彈幕評論的語義分析模型。針對目標(biāo)任務(wù)的信息缺陷,本書從多角度研究和設(shè)計對應(yīng)的深度學(xué)習(xí)算法以提高信息挖掘的精度。
更多科學(xué)出版社服務(wù),請掃碼獲取。
目錄
前言
致謝
第1章深度學(xué)習(xí)1
1.1深度學(xué)習(xí)簡介1
1.2深度學(xué)習(xí)經(jīng)典模型3
1.2.1卷積神經(jīng)網(wǎng)絡(luò)3
1.2.2循環(huán)神經(jīng)網(wǎng)絡(luò)4
1.2.3注意力模型5
1.2.4膠囊網(wǎng)絡(luò)6
1.2.5遷移學(xué)習(xí)與多任務(wù)學(xué)習(xí)7
1.2.6對抗學(xué)習(xí)及生成對抗網(wǎng)絡(luò).8
1.2.7主動學(xué)習(xí)9
思考題.10
第2章短文本信息挖掘11
2.1短文本信息挖掘簡介11
2.2關(guān)系抽取簡介.12
2.2.1關(guān)系抽取定義13
2.2.2神經(jīng)關(guān)系抽取14
2.2.3遠(yuǎn)程監(jiān)督的關(guān)系抽取15
2.2.4關(guān)系抽取前沿16
2.2.5研究意義及挑戰(zhàn)17
2.3彈幕評論挖掘簡介19
2.3.1基于無監(jiān)督學(xué)習(xí)的文本分析方法.21
2.3.2基于神經(jīng)網(wǎng)絡(luò)監(jiān)督學(xué)習(xí)的文本分析方法25
2.4研究內(nèi)容及結(jié)構(gòu)27
2.4.1關(guān)系抽取27
2.4.2彈幕評論挖掘29
思考題.31
第3章相關(guān)工作32
3.1關(guān)系抽取研究.32
3.1.1監(jiān)督學(xué)習(xí)32
3.1.2遠(yuǎn)程監(jiān)督35
3.2彈幕評論挖掘研究37
3.2.1基于評論挖掘的關(guān)鍵詞抽取方法.37
3.2.2基于評論挖掘的推薦系統(tǒng)38
3.2.3基于評論挖掘的劇透檢測方法.38
思考題.39
第4章關(guān)系抽取模型的精度提升40
4.1概述40
4.2多標(biāo)簽關(guān)系抽取40
4.3基于注意力的膠囊網(wǎng)絡(luò)模型42
4.3.1特征提取層——Bi-LSTM網(wǎng)絡(luò)43
4.3.2特征聚集層——基于注意力的膠囊網(wǎng)絡(luò).44
4.3.3關(guān)系預(yù)測層——基于滑動窗口的損失函數(shù)46
4.4實(shí)驗(yàn)47
4.4.1數(shù)據(jù)集47
4.4.2實(shí)驗(yàn)設(shè)置47
4.4.3實(shí)驗(yàn)效果49
4.4.4案例分析52
4.5本章小結(jié)53
思考題.53
第5章關(guān)系抽取模型的效率優(yōu)化55
5.1概述55
5.2神經(jīng)關(guān)系抽取模型的效率陷阱55
5.3基于句內(nèi)問答的關(guān)系抽取模型57
5.3.1網(wǎng)絡(luò)結(jié)構(gòu)58
5.3.2復(fù)雜度分析61
5.4實(shí)驗(yàn)63
5.4.1數(shù)據(jù)集63
5.4.2實(shí)驗(yàn)設(shè)置64
5.4.3實(shí)驗(yàn)效果65
5.4.4案例分析67
5.5本章小結(jié)67
思考題.68
第6章關(guān)系抽取模型的魯棒性增強(qiáng)69
6.1概述69
6.2遠(yuǎn)程監(jiān)督的噪聲分布分析70
6.3詞匯級別噪聲解決方法.74
6.4句子級別噪聲解決方法.76
6.5先驗(yàn)知識級別噪聲解決方法78
6.6數(shù)據(jù)分布級別噪聲解決方法80
6.7多級別噪聲協(xié)同解決方法81
6.8實(shí)驗(yàn)82
6.8.1數(shù)據(jù)集及評價指標(biāo)83
6.8.2詞匯級別降噪相關(guān)實(shí)驗(yàn)83
6.8.3句子級別降噪相關(guān)實(shí)驗(yàn)85
6.8.4先驗(yàn)知識級別降噪相關(guān)實(shí)驗(yàn)88
6.8.5數(shù)據(jù)分布級別降噪相關(guān)實(shí)驗(yàn)89
6.8.6多級別抗噪聲相關(guān)實(shí)驗(yàn)91
6.9本章小結(jié)93
思考題.93
第7章關(guān)系抽取模型的前沿初探94
7.1概述94
7.2錯誤標(biāo)注負(fù)樣本問題95
7.3GAN驅(qū)動的半遠(yuǎn)程監(jiān)督學(xué)習(xí)框架96
7.3.1半遠(yuǎn)程監(jiān)督關(guān)系抽取原理96
7.3.2GAN驅(qū)動的半監(jiān)督關(guān)系抽取算法98
7.4基于主動學(xué)習(xí)的無偏測評方法.100
7.4.1無偏測評原理100
7.4.2無偏測評算法101
7.5實(shí)驗(yàn).104
7.5.1數(shù)據(jù)集及評價指標(biāo)104
7.5.2GAN驅(qū)動的半遠(yuǎn)程監(jiān)督關(guān)系抽取相關(guān)實(shí)驗(yàn)105
7.5.3基于主動學(xué)習(xí)的無偏測評方法相關(guān)實(shí)驗(yàn).109
7.6本章小結(jié)115
思考題115
第8章彈幕視頻標(biāo)簽提取116
8.1概述.116
8.2語義關(guān)系圖的構(gòu)建與圖聚類算法117
8.2.1語義關(guān)系圖的構(gòu)建117
8.2.2基于圖聚類算法的彈幕主題劃分119
8.2.3復(fù)雜度分析124
8.3語義權(quán)重分析與標(biāo)簽提取125
8.3.1基于圖迭代算法的評論影響力計算125
8.3.2視頻標(biāo)簽提取127
8.4實(shí)驗(yàn).128
8.4.1實(shí)驗(yàn)參數(shù)設(shè)定與數(shù)據(jù)集構(gòu)建128
8.4.2實(shí)驗(yàn)結(jié)果133
8.5本章小結(jié)138
思考題138
第9章彈幕推薦系統(tǒng)140
9.1概述.140
9.2基于模型的協(xié)同過濾算法141
9.2.1問題描述142
9.2.2基于文本的推薦模型142
9.2.3圖文融合模型144
9.2.4基于羊群效應(yīng)的注意力機(jī)制146
9.3實(shí)驗(yàn).148
9.3.1實(shí)驗(yàn)參數(shù)設(shè)定與數(shù)據(jù)集構(gòu)建148
9.3.2實(shí)驗(yàn)結(jié)果149
9.4本章小結(jié)151
思考題151
第10章彈幕劇透檢測153
10.1概述153
10.2問題定義與符號描述.155
10.2.1問題定義155
10.2.2符號描述156
10.3劇透檢測模型156
10.3.1單詞級注意力編碼器157
10.3.2相似度網(wǎng)絡(luò)158
10.3.3句子級語義方差注意力機(jī)制160
10.3.4數(shù)字嵌入方法162
10.4實(shí)驗(yàn)162
10.4.1數(shù)據(jù)集構(gòu)建162
10.4.2數(shù)據(jù)集處理與評價指標(biāo)163
10.4.3模型性能比較164
10.4.4注意力機(jī)制的可視化167
10.5本章小結(jié)168
思考題168
第11章總結(jié)與展望169
11.1短文關(guān)系抽取總結(jié)169
11.1.1貢獻(xiàn)和創(chuàng)新點(diǎn)170
11.1.2現(xiàn)有問題討論171
11.2彈幕評論挖掘研究總結(jié)172
11.3展望174
思考題176
參考文獻(xiàn)177
彩圖