《面向大數(shù)據(jù)的高效能垃圾文本分類》全面介紹了大數(shù)據(jù)時代垃圾信息的爆發(fā)態(tài)勢和文本特性,并根據(jù)信息文檔的多域結(jié)構(gòu)特性和文本Token頻率分布的冪律特性,提出了多域?qū)W習(xí)的思想。研究了一整套面向大數(shù)據(jù)的高效能垃圾文本分類方法。
本書共分7章,第1章分析大數(shù)據(jù)時代垃圾信息態(tài)勢,第2章概述垃圾信息過濾方法,第3章研究電子郵件文檔和手機短信文檔的文本特性,第4章研究多域?qū)W習(xí)總體框架,第5章提出基于Token頻率索引的文本分類算法,第6章研究有監(jiān)督反饋代價問題,第7章設(shè)計面向大數(shù)據(jù)的高效能垃圾文本過濾系統(tǒng)。
本書可以作為普通高等院校、科研機構(gòu)大數(shù)據(jù)計算技術(shù)相關(guān)專業(yè)高年級本科生或研究生的實驗教材,也可供網(wǎng)絡(luò)信息技術(shù)公司高級研究人員參考。
第1章 大數(shù)據(jù)與垃圾信息 1.1 大數(shù)據(jù)時代的垃圾信息 1.1.1 大數(shù)據(jù)和垃圾信息爆發(fā) 1.1.2 垃圾信息過濾研究項目 1.1.3 垃圾信息過濾研究意義 1.2 垃圾信 第1章 大數(shù)據(jù)與垃圾信息 1.1 大數(shù)據(jù)時代的垃圾信息 1.1.1 大數(shù)據(jù)和垃圾信息爆發(fā) 1.1.2 垃圾信息過濾研究項目 1.1.3 垃圾信息過濾研究意義 1.2 垃圾信息范疇 1.2.1 垃圾電子郵件 1.2.2 垃圾手機短信 1.2.3 廣義垃圾信息 1.2.4 文本垃圾信息 1.3 文本垃圾信息態(tài)勢 1.3.1 國際垃圾郵件態(tài)勢 1.3.2 我國垃圾郵件態(tài)勢 1.3.3 我國垃圾手機短信態(tài)勢 1.4 研究動機與內(nèi)容 1.4.1 科學(xué)問題與挑戰(zhàn) 1.4.2 研究內(nèi)容與結(jié)構(gòu) 1.4.3 研究成果 本章小結(jié)第2章 垃圾信息過濾方法概述 2.1 基于協(xié)議的垃圾信息過濾 2.1.1 基于SMTP的方法 2.1.2 基于IP的方法 2.2 基于內(nèi)容的垃圾信息過濾 2.2.1 基于規(guī)則的方法 2.2.2 基于統(tǒng)計的方法 2.2.3 神經(jīng)網(wǎng)絡(luò)方法 2.2.4 集成學(xué)習(xí)方法 2.3 垃圾信息過濾性能評價方法 2.3.1 當(dāng)前性能評價方法 2.3.2 ROC曲線評價方法 2.3.3 整體性能評價方法 本章小結(jié)第3章 信息文檔的文本統(tǒng)計特性 3.1 信息文檔的正文特性 3.1.1 電子郵件和手機短信語料 3.1.2 正文文本長度特性 3.1.3 正文和TokeN重復(fù)特性 3.2 信息文檔的結(jié)構(gòu)特性 3.2.1 信息文檔格式 3.2.2 域間文本特征 3.3 Token頻率分布的冪律特性 3.3.1 冪律 3.3.2 郵件文檔和郵件域文檔 3.3.3 短信文檔和短信域文檔 本章小結(jié)第4章 面向垃圾信息過濾的多域?qū)W習(xí)文本分類 4.1 問題描述與框架 4.1.1 形式化描述 4.1.2 多域?qū)W習(xí)框架 4.2 分割策略 4.2.1 自然域文檔分割策略 4.2.2 特定屬性域文檔分割策略 4.3 組合策略 4.3.1 均權(quán)組合策略 4.3.2 支持向量模型權(quán)組合策略 4.3.3 域分類器歷史性能權(quán)組合策略I. 4.3.4 域文檔信息量權(quán)組合策略 4.3.5 復(fù)合權(quán)組合策略 4.4 實驗結(jié)果 4.4.1 TREC07P上的bogo實驗 4.4.2 TREC07P上的tftS3F實驗 4.4.3 CSMS—P上的bogo實驗 4.4.4 CSMS—P上的tftS3F實驗 本章小結(jié)第5章 面向垃圾信息過濾的時空高效文本分類 5.1 基于Token頻率索引的文本分類算法 5.1.1 統(tǒng)計原理 5.1.2 Token頻率索引 5.1.3 算法描述 5.2 算法復(fù)雜度分析 5.2.1 時間復(fù)雜度 5.2.2 空間復(fù)雜度 5.3 基于多類別Token頻率索引的文本分類算法 5.3.1 Token頻率統(tǒng)計特性 5.3.2 多類別Token頻率索引 5.3.3 算法描述 5.4 實驗結(jié)果 5.4.1 TREC07P上的ffibtc實驗 5.4.2 CSMS—P上的ffibtc實驗 5.4.3 TanCorp—12上的mtfibtc實驗 本章小結(jié)第6章 面向垃圾信息過濾的主動學(xué)習(xí)文本分類 6.1 問題描述與框架 6.1.1 形式化描述 6.1.2 主動多域?qū)W習(xí)框架 6.2 主動學(xué)習(xí)策略 6.2.1 時序優(yōu)先主動學(xué)習(xí)策略 6.2.2 先驗區(qū)間主動學(xué)習(xí)策略 6.2.3 基于方差的非確定采樣主動學(xué)習(xí)策略 6.3 實驗結(jié)果 6.3.1 TREC07P上的10000反饋tfibtc.cs5實驗 6.3.2 TREC07P上的1000反饋ffibtc.cs5實驗 6.3.3 CSMS—P上的10000反饋tfibtc.cs5實驗 6.3.4 CSMS—P上的1000反饋tfibtc.cs5實驗 本章小結(jié)第7章 面向大數(shù)據(jù)的高效能垃圾文本過濾系統(tǒng) 7.1 研究結(jié)論 7.1.1 多域?qū)W習(xí)框架的有效性 7.1.2 NFD和ASFD分割策略的有效性 7.1.3 復(fù)合權(quán)組合策略的最優(yōu)性 7.1.4 基于TFI的文本分類算法的時空高效性 7.1.5 基于方差的非確定采樣主動學(xué)習(xí)策略的有效性 7.2 高效能垃圾文本過濾系統(tǒng)設(shè)計 7.2.1 多Cluster垃圾文本過濾系統(tǒng) 7.2.2 多語種大數(shù)據(jù)深度輿情系統(tǒng) 7.2.3 個性化垃圾郵件過濾系統(tǒng) 本章小結(jié)參考文獻