社會化媒體情感挖掘與信息傳播是人工智能、數(shù)據(jù)挖掘、自然語言處理、傳播學、情報學等多學科交叉研究領(lǐng)域之一,對網(wǎng)絡輿情的預警、分析、監(jiān)測和管理等具有重要意義。本書系統(tǒng)地介紹了社會化媒體情感挖掘與信息傳播的主要思想、理論及方法,特別是社會化媒體語料的獲取及預處理、中文新詞發(fā)現(xiàn)、情感傾向性分析、多級情感分類、社會化媒體信息網(wǎng)絡等。除緒論外,每章介紹一個主題,從實際需求或問題出發(fā),由淺入深,闡明思想,理論結(jié)合實踐,便于讀者掌握社會化媒體情感挖掘與信息傳播理論與方法的實質(zhì),學以致用。
本書可作為社會化媒體處理、情感分析、信息傳播等專業(yè)的科研人員、管理人員的參考書,也可作為高等院校相關(guān)課程的教學用書。
李慧,女,首都師范大學副教授,碩士生導師,主要研究方向為人工智能、自然語言處理、數(shù)據(jù)挖掘等。2005年7月于中國科學院自動化研究所獲得工學博士學位,2005.11-2008.10年在中國科學院聲學研究所博士后流動站做博士后研究工作。以獨立作者在國內(nèi)外學術(shù)期刊和國際主流學術(shù)會議上發(fā)表論文20余篇,主編/參編專著、教材6本,申請發(fā)明專利1項,獲得軟件著作權(quán)1項;作為課題負責人先后完成國家自然科學基金面上項目1項、國家社會科學基金項目2項、中國博士后科學基金1項、北京市人才培養(yǎng)資助項目1項、北京市屬高等學校人才強教深化計劃項目1項、北京市教育委員會科技計劃面上項目1項,作為學術(shù)骨干參加了多項國家自然科學基金項目、科技部973項目、863項目,獲得“2006年度中國科學院王寬誠博士后工作獎勵基金”。
第1章緒論1
1.1社會化媒體的客觀信息挖掘1
1.1.1社會網(wǎng)絡分析1
1.1.2社會化媒體信息傳播2
1.2社會化媒體的主觀信息挖掘3
1.2.1社會化媒體情感挖掘4
1.2.2情感分析評測會議7
1.2.3語料庫資源8
1.3社會化媒體的應用研究9
第2章社會化媒體語料的獲取及預處理12
2.1語料的自動獲取13
2.1.1基于網(wǎng)絡爬蟲的半結(jié)構(gòu)化語料自動獲取13
2.1.2基于Web API的半結(jié)構(gòu)化語料自動獲取方法20
2.1.3基于模擬瀏覽器的語料自動獲取方法22
2.2語料預處理24
2.3情感詞典25
2.3.1基礎(chǔ)詞典26
2.3.2修飾詞典28
2.3.3情感詞典的自動構(gòu)建29
2.4中文分詞34
2.4.1中文分詞方法35
2.4.2中文分詞工具39
2.4.3中文分詞研究的基本問題40
2.5句法分析42
2.5.1句法分析語法體系43
2.5.2句法分析方法46
2.5.3中文句法分析工具48
第3章中文新詞發(fā)現(xiàn)50
3.1中文新詞51
3.1.1新詞的定義與特點51
3.1.2新詞的構(gòu)詞特性51
3.2中文新詞發(fā)現(xiàn)技術(shù)52
3.2.1新詞發(fā)現(xiàn)的難點53
3.2.2候選新詞提取53
3.2.3垃圾字串過濾58
3.2.4評價指標60
3.3基于迭代的新詞發(fā)現(xiàn)算法61
3.3.1重復模式抽取61
3.3.2重復模式統(tǒng)計特征計算62
3.3.3基于迭代的新詞發(fā)現(xiàn)的實例64
3.4基于N-Gram的新詞發(fā)現(xiàn)算法68
3.4.1候選詞抽取68
3.4.2算法思路69
3.4.3基于N-Gram的新詞發(fā)現(xiàn)的實例70
第4章詞語級情感傾向性分析78
4.1候選情感詞提取78
4.1.1基準種子詞的選取78
4.1.2詞語相似度計算79
4.1.3候選詞的抽取及過濾81
4.2詞語情感強度計算82
4.2.1基于詞典的詞語情感強度計算82
4.2.2基于統(tǒng)計的詞語情感強度計算82
4.3評價指標85
4.4融合HowNet和PMI的情感傾向性計算87
4.4.1算法思想87
4.4.2融合HowNet和PMI的詞語情感傾向性分析的實例88
第5章句子/篇章級情感傾向性分析92
5.1情感傾向性分析算法92
5.1.1基于情感詞典和規(guī)則的情感傾向性分析92
5.1.2基于機器學習的情感傾向性分析93
5.2基于詞典和規(guī)則的情感傾向性分析100
5.2.1基于基礎(chǔ)情感詞典的情感傾向性分析100
5.2.2基于規(guī)則和多部情感詞典的情感傾向性分析101
5.3基于句法和規(guī)則集的情感傾向性分析104
5.3.1句型和句間關(guān)系規(guī)則105
5.3.2程度修飾和否定修飾規(guī)則111
5.3.3文本情感值計算117
5.4句子級/篇章級情感傾向性分析的實例118
5.4.1實驗設置118
5.4.2實驗結(jié)果分析118
第6章社會化媒體文本的多級情感分析126
6.1基于情感詞典和規(guī)則的多級情感分析126
6.2基于機器學習的多級情感分析128
6.2.1特征選擇128
6.2.2情感分類模型129
6.3融合類序列規(guī)則和機器學習的多級情感分析131
6.3.1關(guān)聯(lián)規(guī)則132
6.3.2社會化媒體語料中挖掘類序列規(guī)則144
6.3.3社會化媒體語料的情感分類145
6.4社會化媒體文本多級情感分析的實例147
6.4.1實驗設置147
6.4.2實驗結(jié)果分析148
第7章社會化媒體信息網(wǎng)絡160
7.1復雜網(wǎng)絡160
7.1.1復雜網(wǎng)絡的拓撲參數(shù)161
7.1.2復雜網(wǎng)絡的拓撲特性165
7.2情感詞共現(xiàn)網(wǎng)絡168
7.2.1情感詞共現(xiàn)網(wǎng)絡的構(gòu)建168
7.2.2情感詞共現(xiàn)網(wǎng)絡的拓撲結(jié)構(gòu)170
7.3媒體信息傳播網(wǎng)絡177
7.3.1媒體信息傳播網(wǎng)絡的構(gòu)建177
7.3.2媒體信息傳播網(wǎng)絡的拓撲結(jié)構(gòu)178
7.3.3媒體信息傳播網(wǎng)絡的用戶互動行為181
7.4基于拓撲勢的關(guān)鍵用戶識別188
7.4.1節(jié)點重要度評估189
7.4.2關(guān)鍵用戶識別194
7.4.3用戶角色劃分201