本書分六章,內(nèi)容包括:面向自然語言處理的情感模型、漢語情感詞表構(gòu)建、情感詞的搭配研究、產(chǎn)品評論分析、總結(jié)及未來的工作。
自萬維網(wǎng)誕生以來,各種信息不斷在網(wǎng)絡上涌現(xiàn),網(wǎng)絡用戶數(shù)量也與日俱增些年,網(wǎng)絡內(nèi)容組織方式也在逐漸地發(fā)生變化,從博客到Facebook,再到Twitter,互聯(lián)網(wǎng)上出現(xiàn)了越來越多的網(wǎng)民表達。這些網(wǎng)民表達含大量的評價、態(tài)度、情緒等主觀性觀點。概括地說,網(wǎng)絡上有很多的網(wǎng)民,網(wǎng)民有很多的觀點,而這些觀點擴散得很快。這種現(xiàn)象不得不引起個人、企業(yè)乃至政府的關(guān)注。我們需要找出這含觀點的信息,更需要含觀點的信行情感分析。
本書的研究有兩個,分別是漢語情感詞表構(gòu)建和產(chǎn)品評論分析。對于情感分析,情感詞表是重要的資源,而漢語情感詞表資源還相對匱乏。另外,產(chǎn)品評論分析作為一個重要的情感分析應用也越來越受到關(guān)注。產(chǎn)品評論分析的工作也可以看成本書情感詞表構(gòu)建工作的應用和延伸。
據(jù)美國調(diào)研機構(gòu)Royal Pingdom對201pan>年全球互聯(lián)網(wǎng)發(fā)展狀結(jié)顯示,全球網(wǎng)民數(shù)量為2pan>億,其中亞洲多,為9.22億,歐洲為4.76億,北美為2.7pan>億。根據(jù)《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》,截至201pan>年12月底,中國網(wǎng)民規(guī)模突破5億,達到5.13億;中國手機網(wǎng)民規(guī)模達到3.56億。
除了網(wǎng)絡用戶數(shù)量令人驚嘆地增長,網(wǎng)絡內(nèi)容組織方式也在逐漸發(fā)生變化。這種變化所帶來的震撼并不亞于網(wǎng)民數(shù)量的增長。自萬維網(wǎng)推出以來,網(wǎng)絡上的信息不斷涌現(xiàn),一些以前需要從傳統(tǒng)媒體中查找的信息可以方便地從網(wǎng)絡上獲得。隨著時間的推移,人們不再滿足于將網(wǎng)絡當作純粹的獲取信息的場所,而是希望將其作為表臺。
1997年出現(xiàn)了“博客”一詞。這是一種充分個性化的網(wǎng)絡表達工具,在其上“博主”可以發(fā)表自己的見聞和觀點,訪客可以留言。2004年,Facebook向大學生開放。信息的交流以人為節(jié)點,以好友關(guān)系為邊,迅速擴散到整個網(wǎng)絡。結(jié)合了博客和移臺的Twitter 出現(xiàn)在2006年,并且在短短的幾年時間內(nèi)全球。2009年8月,中國的門戶網(wǎng)站新浪網(wǎng)推出“新浪”內(nèi)測版,成為門戶網(wǎng)站服務的網(wǎng)站,正入中文上網(wǎng)主流人群視野。
當人們購買商品的時候,往往要通過網(wǎng)絡查找大家對該商品的評價,以便決定自己的購買行為。企業(yè)則對客戶和潛在客戶的意見尤為關(guān)注,從而指導產(chǎn)品的設計、服務等。政府部門對影響社會的輿論密切關(guān)注,從而選擇應對措施。
傳統(tǒng)的信息檢索并不能滿足以上各種需求。一個明顯的不足之處在于,傳統(tǒng)的檢索工具是針對主行檢索,并不能定制化地提供對某個實體的評價。
在自然語言處理(Natural Language Processing,NLP)中,情感分析這個概念應運而生。情感分析的工括對評論的極行分類,提取產(chǎn)品的產(chǎn)品特征并對其評行分析,識別觀點的發(fā)出者等。粗略地講,凡是和文本中觀點、情緒、評價等相關(guān)的自然語言處理工作都可以歸人情感分析領(lǐng)域。自然語言處理經(jīng)過多年的發(fā)展,積累了豐富的資源,可以獲得各種人工標注的語料、句法分析工具、語義詞典等。這些都為情感分析的開展奠定了研究基礎(chǔ)。
目前,學術(shù)界和工業(yè)界對文本情感分析的相關(guān)問行了廣泛和深入的研究。僅在美國就至少有20個公司提供情感分析服務。國際上的高校中基本都設立相應的研究機構(gòu)和小行情感分析的研究。在國內(nèi),、北京大學、哈爾濱工業(yè)大學、上海交大、復旦大學、廈門大學、大連理工大學、重慶大學、北京郵電大學等許多科研機構(gòu)和高校都開展了情感分析的研究工作。
文本情感分析的研究已經(jīng)成為當前自然語言處理研究的熱點。
1.2本書主要研究內(nèi)容
本書的研究有兩個:一是情感詞表的構(gòu)建;二是產(chǎn)品評論的分析。在詞表構(gòu)建完成后行情感詞搭配的研究工作。這部分工作可以看成連接情感詞表構(gòu)建和產(chǎn)品評論分析的環(huán)節(jié)。事實上,可以把情感詞作為一種評價,把產(chǎn)品特征看成評價的特殊搭配,并在此基礎(chǔ)上開展產(chǎn)品評論分析的有關(guān)工作。這樣,從情感詞表的構(gòu)造過渡到產(chǎn)品評論分析的工作就十分自然了。
選擇這兩個部分作為本書的主要工作是基于這樣的考慮。
(pan>)情感詞表是情感分析的重要資源;诟哔|(zhì)量的詞典,一些情感分析任務只需要采用簡單的方法即可以獲得很好的效果。對于中文而言,情感詞表資源還很匱乏。
(2)采用自動的方式構(gòu)建詞表,充分利用語言學的知識,盡可能降低構(gòu)建情感詞表的人工代價。
(3)以產(chǎn)品評論分析作為實際的應用背景,利用已有的資行深人的分析,得到具有實用性的成果。
自然語言處理需要重視語言學。Wintner(2009)建議在ACL里設置一個語言學專委會,并呼吁語言學回歸計算語言學。他認為,當代的自然語言工程里,語言學整體上是缺位的。從語言學的角度出發(fā),將語言學中的知識和計算機的方法結(jié)合起來是本書的一個基本原則。