自然語(yǔ)言處理是一門(mén)融語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的學(xué)科,比較復(fù)雜,學(xué)習(xí)門(mén)檻高,但本書(shū)巧妙地避開(kāi)了晦澀難懂的數(shù)學(xué)公式和證明,即便沒(méi)有數(shù)學(xué)基礎(chǔ),也能零基礎(chǔ)入門(mén)。
本書(shū)專(zhuān)注于中文的自然語(yǔ)言處理,以Python及其相關(guān)框架為工具,以實(shí)戰(zhàn)為導(dǎo)向,詳細(xì)講解了自然語(yǔ)言處理的各種核心技術(shù)、方法論和經(jīng)典算法。三位作者在人工智能、大數(shù)據(jù)和算法領(lǐng)域有豐富的積累和經(jīng)驗(yàn),是*、前明略數(shù)據(jù)和七牛云的資深專(zhuān)家。同時(shí),本書(shū)也得到了*達(dá)摩院高級(jí)算法專(zhuān)家、七牛云AI實(shí)驗(yàn)室Leader等專(zhuān)家的高度評(píng)價(jià)和鼎力推薦。
全書(shū)一共11章,在邏輯上分為2個(gè)部分:
*部分(第1、2、11章)
主要介紹了自然語(yǔ)言處理所需要了解的基礎(chǔ)知識(shí)、前置技術(shù)、Python科學(xué)包、正則表達(dá)式以及Solr檢索等。
第二部分(第5-10章)
第3~5章講解了詞法分析相關(guān)的技術(shù),包括中文分詞技術(shù)、詞性標(biāo)注與命名實(shí)體識(shí)別、關(guān)鍵詞提取算法等。
第6章講解了句法分析技術(shù),該部分目前理論研究較多,工程實(shí)踐中使用門(mén)檻相對(duì)較高,且效果多是依賴結(jié)合業(yè)務(wù)知識(shí)進(jìn)行規(guī)則擴(kuò)展,因此本書(shū)未做深入探討。
第7章講解了常用的向量化方法,這些方法常用于各種NLP任務(wù)的輸入。
第8章講解了情感分析相關(guān)的概念、場(chǎng)景以及一般做情感分析的流程,情感分析在很多行業(yè)都有應(yīng)用。
第9章介紹了機(jī)器學(xué)習(xí)的重要概念,同時(shí)重點(diǎn)突出NLP常用的分類(lèi)算法、聚類(lèi)算法,還介紹了幾個(gè)案例。
第10章節(jié)介紹了NLP中常用的一些深度學(xué)習(xí)算法,這些方法比較復(fù)雜,但是非常實(shí)用,需要讀者耐心學(xué)習(xí)。
(1)三位作者資歷深厚,分別是*的數(shù)據(jù)架構(gòu)師和NLP專(zhuān)家、百煉智能的NLP專(zhuān)家(前明略數(shù)據(jù)的技術(shù)合伙人和科學(xué)家)、七牛云AI實(shí)驗(yàn)室NLP&OCR方向負(fù)責(zé)人
*、前明略數(shù)據(jù)和七牛云的資深NLP專(zhuān)家撰寫(xiě)
(2)以實(shí)戰(zhàn)為導(dǎo)向,繞開(kāi)各種復(fù)雜數(shù)學(xué)公式與證明,確保讀者零基礎(chǔ)入門(mén),詳細(xì)講解自然語(yǔ)言處理
的各種核心技術(shù)、方法論和經(jīng)典算法
(3)*達(dá)摩院高級(jí)算法專(zhuān)家、百煉智能CEO、七牛云AI LAB負(fù)責(zé)人、天善智能創(chuàng)始人聯(lián)袂推薦
PREFACE前 言為什么要寫(xiě)這本書(shū)這是一本關(guān)于中文自然語(yǔ)言處理(簡(jiǎn)稱NLP)的書(shū),NLP是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。NLP是一門(mén)融語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)。本書(shū)偏重實(shí)戰(zhàn),不僅系統(tǒng)介紹了NLP涉及的知識(shí)點(diǎn),同時(shí)也教會(huì)讀者如何實(shí)際應(yīng)用與開(kāi)發(fā)。圍繞這個(gè)主題,本書(shū)從章節(jié)規(guī)劃到具體的講述方式,具有以下兩個(gè)特點(diǎn):
第一個(gè)特點(diǎn)是本書(shū)的主要目標(biāo)讀者定位為高校相關(guān)專(zhuān)業(yè)的大學(xué)生(統(tǒng)計(jì)學(xué)、計(jì)算機(jī)技術(shù))、NLP愛(ài)好者,以及不具備專(zhuān)業(yè)數(shù)學(xué)知識(shí)的人群。NLP是一系列學(xué)科的集合體,其中包含了語(yǔ)言學(xué)、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、大數(shù)據(jù)以及人工智能等方面,尤其依賴數(shù)學(xué)知識(shí)才能深入理解其原理。因此本書(shū)對(duì)專(zhuān)業(yè)知識(shí)的講述過(guò)程必須繞過(guò)復(fù)雜的數(shù)學(xué)證明,從問(wèn)題的前因后果、創(chuàng)造者思考的過(guò)程、概率或幾何解釋代替數(shù)學(xué)解釋等一系列迂回的路徑去深入模型的本源,這可能多少會(huì)犧牲一些嚴(yán)謹(jǐn)性,但是卻能換來(lái)對(duì)大多數(shù)人更為友好的閱讀體驗(yàn)。
第二個(gè)特點(diǎn)是本書(shū)是一本介紹中文自然語(yǔ)言處理的書(shū),中文分詞相對(duì)于英文分詞來(lái)說(shuō)更為復(fù)雜,讀者將通過(guò)例子來(lái)學(xué)習(xí),體會(huì)到能夠通過(guò)實(shí)踐驗(yàn)證自己想法的價(jià)值,我們提供了豐富的來(lái)自NLP領(lǐng)域的案例。在本書(shū)的內(nèi)容編制上,從知識(shí)點(diǎn)背景介紹到原理剖析,輔以實(shí)戰(zhàn)案例,所有的代碼會(huì)在書(shū)中詳細(xì)列出或者上傳Github方便讀者下載與調(diào)試,幫助讀者快速上手掌握知識(shí)點(diǎn),同時(shí)可以應(yīng)用到后續(xù)實(shí)際的開(kāi)發(fā)項(xiàng)目中。在實(shí)際項(xiàng)目章節(jié)中,選取目前在NLP領(lǐng)域中比較熱門(mén)的項(xiàng)目,將之前的知識(shí)點(diǎn)進(jìn)行匯總,幫助讀者鞏固與提升。本書(shū)難度適中屬于入門(mén)和擴(kuò)展級(jí)讀物。
讀者將學(xué)到什么如何用NLP 與語(yǔ)言學(xué)的關(guān)鍵概念來(lái)描述和分析語(yǔ)言NLP 中的數(shù)據(jù)結(jié)構(gòu)和算法是怎樣的自然語(yǔ)言處理目前主流的技術(shù)與方法論信息檢索技術(shù)與大數(shù)據(jù)應(yīng)用讀者對(duì)象1)統(tǒng)計(jì)學(xué)或相關(guān)IT專(zhuān)業(yè)學(xué)生本書(shū)的初衷是面向相關(guān)專(zhuān)業(yè)的學(xué)生大量基于理論知識(shí)的認(rèn)知卻缺乏實(shí)戰(zhàn)經(jīng)驗(yàn)的人員,讓其在理論的基礎(chǔ)上深入了解。通過(guò)本書(shū),學(xué)生可以跟隨本書(shū)的教程一起操作學(xué)習(xí),達(dá)到對(duì)自己使用的人工智能工具、算法和技術(shù)知其然亦知其所以然的目的。
2)信息科學(xué)和計(jì)算機(jī)科學(xué)愛(ài)好者本書(shū)是一部近代科技的歷史書(shū),也是一部科普書(shū),還可以作為一部人工智能思想和技術(shù)的教科書(shū)去閱讀。通過(guò)本書(shū)可以了解到行業(yè)先驅(qū)們?cè)谔剿魅斯ぶ悄艿缆飞纤龀龅呐退伎,理解他們不同的觀點(diǎn)和思路,有助于開(kāi)拓自己的思維和視野。
3)人工智能相關(guān)專(zhuān)業(yè)的研究人員本書(shū)具體介紹了NLP相關(guān)知識(shí)。通過(guò)本書(shū)可以了解理論知識(shí),了解哪些才是項(xiàng)目所需的內(nèi)容以及如何在項(xiàng)目中實(shí)現(xiàn),能夠快速上手。
如何閱讀本書(shū)本書(shū)內(nèi)容針對(duì)NLP從以下幾個(gè)方面進(jìn)行闡述:
第一部分的內(nèi)容包括第1、2、11章,主要介紹了NLP所需要了解的Python科學(xué)包、正則表達(dá)式以及Solr檢索。
第二部分的內(nèi)容包括第5~10章的內(nèi)容,主要是介紹NLP相關(guān)的各個(gè)知識(shí)點(diǎn)。分別是:
第3~5章主要介紹了詞法分析層面的一些技術(shù),這一部分是NLP技術(shù)的基礎(chǔ),需要讀者熟練掌握。
第6章介紹了句法分析技術(shù),該部分目前理論研究較多,工程實(shí)踐中使用門(mén)檻相對(duì)較高,且效果多是依賴結(jié)合業(yè)務(wù)知識(shí)進(jìn)行規(guī)則擴(kuò)展,因此本書(shū)未做深入探討,讀者了解即可。
第7章介紹了常用的向量化方法。這些方法常用于各種NLP任務(wù)的輸入,讀者需重點(diǎn)掌握。
第8章介紹了情感分析相關(guān)的概念、場(chǎng)景以及一般做情感分析的流程,情感分析在很多行業(yè)都有應(yīng)用,所以需要讀者熟練掌握。
第9章介紹了機(jī)器學(xué)習(xí)的一些基本概念,重點(diǎn)突出NLP常用的分類(lèi)算法、聚類(lèi)算法,同時(shí)還介紹了幾個(gè)案例,這章是NLP的基礎(chǔ)內(nèi)容,需要重點(diǎn)掌握。
第10章介紹了NLP中常用的深度學(xué)習(xí)算法,這些方法比較復(fù)雜,但是非常實(shí)用,需要讀者耐心學(xué)習(xí)。
除了以上內(nèi)容外,以下信息是在本書(shū)中涉及特定內(nèi)容的解釋和說(shuō)明:
內(nèi)容延伸。本書(shū)每個(gè)章節(jié)都有一定的內(nèi)容延伸章節(jié),其內(nèi)容是對(duì)于有興趣深入研究的讀者推薦的資料或進(jìn)一步了解的知識(shí)點(diǎn),由于每個(gè)主題都涵蓋很多內(nèi)容,因此本書(shū)僅在內(nèi)容延伸中拋磚引玉,有興趣的讀者可以加以了解和學(xué)習(xí)。
相關(guān)知識(shí)點(diǎn)。本書(shū)很多章節(jié)中都有相關(guān)知識(shí)點(diǎn)的內(nèi)容介紹,其對(duì)特定工具、知識(shí)、算法、庫(kù)等方面做了較為詳細(xì)的介紹,它們是本書(shū)的知識(shí)堡壘。
本章小結(jié)。每章的結(jié)尾都有本章小結(jié),在小結(jié)中包含4部分內(nèi)容。
內(nèi)容小結(jié)。內(nèi)容小結(jié)是有關(guān)本章內(nèi)容的總結(jié)。
重點(diǎn)知識(shí)。重點(diǎn)知識(shí)是本章重點(diǎn)需要讀者掌握的知識(shí)和內(nèi)容。
外部參考。外部參考是本章提到過(guò)但是無(wú)法詳細(xì)介紹的內(nèi)容,都在外部參考中列出,有興趣的讀者可以基于比構(gòu)建自己的知識(shí)圖譜。
應(yīng)用實(shí)踐;诒菊聝(nèi)容推薦讀者在實(shí)踐中落地的建議。
提示。對(duì)于知識(shí)點(diǎn)的重要提示和應(yīng)用技巧,相對(duì)相關(guān)知識(shí)點(diǎn)而言,每條提示信息的內(nèi)容量較少,一般都是經(jīng)驗(yàn)類(lèi)的總結(jié)。
注意。特定需要引起注意的知識(shí),這些注意點(diǎn)是應(yīng)用過(guò)程中需要避免的大坑。
關(guān)于附件的使用方法除了第1章外,本書(shū)的每一章都有對(duì)應(yīng)源數(shù)據(jù)和完整代碼,該內(nèi)容可在本書(shū)中直接找到,有些代碼需要從Github下載,地址是https://github.com/nlpinaction/learning-nlp。需要注意的是,為了讓讀者更好地了解每行代碼的含義,筆者在注釋信息中使用了中文標(biāo)注,且每個(gè)程序文件的編碼格式都是UTF-8。
勘誤和支持由于筆者水平有限,書(shū)中難免會(huì)出現(xiàn)一些錯(cuò)誤或者不準(zhǔn)確的地方,懇請(qǐng)讀者批評(píng)指正。讀者可通過(guò)以下途徑聯(lián)系并反饋建議或意見(jiàn):
即時(shí)通訊。添加個(gè)人微信(kennymingtu)反饋問(wèn)題。
電子郵件。發(fā)送E-mail到kenny_tm@hotmail.com。
致謝在本書(shū)的撰寫(xiě)過(guò)程中,得到了來(lái)自多方的指導(dǎo)、幫助和支持。
首先要感謝的是機(jī)械工業(yè)出版社華章公司的楊福川編輯,他在本書(shū)出版過(guò)程中給予我極大的支持和鼓勵(lì),并為此書(shū)的撰寫(xiě)提供了方向和思路指導(dǎo)。
其次要感謝黃英和周劍老師在自然語(yǔ)言處理項(xiàng)目和工作中提供的寶貴經(jīng)驗(yàn)和支持。
再次要感謝全程參與審核、校驗(yàn)等工作的張錫鵬、孫海亮編輯以及其他背后默默支持的出版工作者,是他們的辛勤付出才讓本書(shū)得以順利面世。
最后感謝我的父母、家人和朋友,使得我有精力完成本書(shū)的編寫(xiě)。
謹(jǐn)以此書(shū)獻(xiàn)給熱愛(ài)數(shù)據(jù)工作并為之奮斗的朋友們,愿大家身體健康、生活美滿、事業(yè)有成!
涂銘2018年1月于上海書(shū)籍初成,感慨良多。
在接受邀請(qǐng)撰寫(xiě)本書(shū)時(shí),從未想到過(guò)程如此艱辛。
感謝我的女友和家人的理解與支持,陪伴我度過(guò)寫(xiě)書(shū)的漫長(zhǎng)歲月。
感謝我的合著者涂銘和劉樹(shù)春,與他們合作輕松愉快,給予我很多的理解和包容。
感謝參與審閱、校驗(yàn)等工作的孫海亮老師等出版社工作人員,是他們?cè)谀缓蟮男燎诟冻霰WC了本書(shū)的出版成功。
再次感謝一路陪伴的所有人!
劉祥2018年1月于北京首先要感謝我的兩位合作者涂銘和劉祥,能夠相聚在一起寫(xiě)書(shū)是緣分。當(dāng)初聊到出版NLP入門(mén)書(shū)籍的想法時(shí)我們一拍即合,然而真正開(kāi)始執(zhí)筆才發(fā)現(xiàn)困難重重,業(yè)余時(shí)間常常被工作擠占,進(jìn)度一拖再拖,在伙伴們的支持下,克服了拖延癥,順利完成本書(shū)。
特別感謝我的愛(ài)人和家人的悉心照料和支持。
感謝孫海亮老師、張錫鵬老師等出版社工作人員,沒(méi)有他們的辛勞付出就沒(méi)有本書(shū)保質(zhì)保量的完成。
最后感謝幫我校稿的林博、謝雨飛、陳敏,謝謝他們?cè)谏詈凸ぷ魃辖o我的支持與幫助。
最后,祝大家學(xué)習(xí)快樂(lè)。
劉樹(shù)春2018年1月于上海
涂銘:
*數(shù)據(jù)架構(gòu)師,對(duì)大數(shù)據(jù)、自然語(yǔ)言處理、Python、Java相關(guān)技術(shù)有深入的研究,積累了豐富的實(shí)踐經(jīng)驗(yàn)。曾就職于北京明略數(shù)據(jù),是大數(shù)據(jù)方面的高級(jí)咨詢顧問(wèn)。
在工業(yè)領(lǐng)域參與了設(shè)備故障診斷項(xiàng)目,在零售行業(yè)參與了精準(zhǔn)營(yíng)銷(xiāo)項(xiàng)目。在自然語(yǔ)言處理方面,擔(dān)任導(dǎo)購(gòu)機(jī)器人項(xiàng)目的架構(gòu)師,主導(dǎo)開(kāi)發(fā)機(jī)器人的語(yǔ)義理解、短文本相似度匹配、上下文理解,以及通過(guò)自然語(yǔ)言檢索產(chǎn)品庫(kù),在項(xiàng)目中構(gòu)建了NoSQL 文本檢索等大數(shù)據(jù)架構(gòu),也同時(shí)負(fù)責(zé)問(wèn)答對(duì)的整理和商品屬性的提取,帶領(lǐng)NLP團(tuán)隊(duì)構(gòu)建語(yǔ)義解析層。
劉祥:
百煉智能自然語(yǔ)言處理專(zhuān)家,主要研究知識(shí)圖譜、NLG等前沿技術(shù),參與機(jī)器自動(dòng)寫(xiě)作產(chǎn)品的研發(fā)與設(shè)計(jì)。
曾在明略數(shù)據(jù)擔(dān)當(dāng)數(shù)據(jù)技術(shù)合伙人兼數(shù)據(jù)科學(xué)家,負(fù)責(zé)工業(yè)、金融等業(yè)務(wù)領(lǐng)域的數(shù)據(jù)挖掘工作,在這些領(lǐng)域構(gòu)建了諸如故障診斷、關(guān)聯(lián)賬戶分析、新聞推薦、商品推薦等模型。
酷愛(ài)新技術(shù),活躍于開(kāi)源社區(qū),是Spark
MLlib和Zeppelin的Contributor。
劉樹(shù)春:
七牛云高級(jí)算法專(zhuān)家,七牛AI實(shí)驗(yàn)室NLP&OCR方向負(fù)責(zé)人,主要負(fù)責(zé)七牛NLP以及OCR相關(guān)項(xiàng)目的研究與落地。在七牛人工智能實(shí)驗(yàn)室期間,參與大量NLP相關(guān)項(xiàng)目,例如知識(shí)圖譜、問(wèn)答系統(tǒng)、文本摘要、語(yǔ)音相關(guān)系統(tǒng)等;同時(shí)重點(diǎn)關(guān)注NLP與CV的交叉研究領(lǐng)域,主要有視覺(jué)問(wèn)答(VQA),圖像標(biāo)注(Image Caption)等前沿問(wèn)題。
曾在Intel
DCSG數(shù)據(jù)與云計(jì)算部門(mén)從事機(jī)器學(xué)習(xí)與云平臺(tái)的融合開(kāi)發(fā),項(xiàng)目獲得IDF大獎(jiǎng)。碩士就讀于華東師范大學(xué)機(jī)器學(xué)習(xí)實(shí)驗(yàn)室,在校期間主攻機(jī)器學(xué)習(xí),機(jī)器視覺(jué),圖像處理,并在相關(guān)國(guó)際會(huì)議發(fā)表多篇SCI/EI論文。
目 錄
序一
序二
前言
第1章 NLP基礎(chǔ) 1
1.1 什么是NLP 1
1.1.1 NLP的概念 1
1.1.2 NLP的研究任務(wù) 3
1.2 NLP的發(fā)展歷程 5
1.3 NLP相關(guān)知識(shí)的構(gòu)成 7
1.3.1 基本術(shù)語(yǔ) 7
1.3.2 知識(shí)結(jié)構(gòu) 9
1.4 語(yǔ)料庫(kù) 10
1.5 探討NLP的幾個(gè)層面 11
1.6 NLP與人工智能 13
1.7 本章小結(jié) 15
第2章 NLP前置技術(shù)解析 16
2.1 搭建Python開(kāi)發(fā)環(huán)境 16
2.1.1 Python的科學(xué)計(jì)算發(fā)行版Anaconda 17
2.1.2 Anaconda的下載與安裝 19
2.2 正則表達(dá)式在NLP的基本應(yīng)用 21
2.2.1 匹配字符串 22
2.2.2 使用轉(zhuǎn)義符 26
2.2.3 抽取文本中的數(shù)字 26
2.3 Numpy使用詳解 27
2.3.1 創(chuàng)建數(shù)組 28
2.3.2 獲取Numpy中數(shù)組的維度 30
2.3.3 獲取本地?cái)?shù)據(jù) 31
2.3.4 正確讀取數(shù)據(jù) 32
2.3.5 Numpy數(shù)組索引 32
2.3.6 切片 33
2.3.7 數(shù)組比較 33
2.3.8 替代值 34
2.3.9 數(shù)據(jù)類(lèi)型轉(zhuǎn)換 36
2.3.10 Numpy的統(tǒng)計(jì)計(jì)算方法 36
2.4 本章小結(jié) 37
第3章 中文分詞技術(shù) 38
3.1 中文分詞簡(jiǎn)介 38
3.2 規(guī)則分詞 39
3.2.1 正向最大匹配法 39
3.2.2 逆向最大匹配法 40
3.2.3 雙向最大匹配法 41
3.3 統(tǒng)計(jì)分詞 42
3.3.1 語(yǔ)言模型 43
3.3.2 HMM模型 44
3.3.3 其他統(tǒng)計(jì)分詞算法 52
3.4 混合分詞 52
3.5 中文分詞工具Jieba 53
3.5.1 Jieba的三種分詞模式 54
3.5.2 實(shí)戰(zhàn)之高頻詞提取 55
3.6 本章小結(jié) 58
第4章 詞性標(biāo)注與命名實(shí)體識(shí)別 59
4.1 詞性標(biāo)注 59
4.1.1 詞性標(biāo)注簡(jiǎn)介 59
4.1.2 詞性標(biāo)注規(guī)范 60
4.1.3 Jieba分詞中的詞性標(biāo)注 61
4.2 命名實(shí)體識(shí)別 63
4.2.1 命名實(shí)體識(shí)別簡(jiǎn)介 63
4.2.2 基于條件隨機(jī)場(chǎng)的命名實(shí)體識(shí)別 65
4.2.3 實(shí)戰(zhàn)一:日期識(shí)別 69
4.2.4 實(shí)戰(zhàn)二:地名識(shí)別 75
4.3 總結(jié) 84
第5章 關(guān)鍵詞提取算法 85
5.1 關(guān)鍵詞提取技術(shù)概述 85
5.2 關(guān)鍵詞提取算法TF/IDF算法 86
5.3 TextRank算法 88
5.4 LSA/LSI/LDA算法 91
5.4.1 LSA/LSI算法 93
5.4.2 LDA算法 94
5.5 實(shí)戰(zhàn)提取文本關(guān)鍵詞 95
5.6 本章小結(jié) 105
第6章 句法分析 106
6.1 句法分析概述 106
6.2 句法分析的數(shù)據(jù)集與評(píng)測(cè)方法 107
6.2.1 句法分析的數(shù)據(jù)集 108
6.2.2 句法分析的評(píng)測(cè)方法 109
6.3 句法分析的常用方法 109
6.3.1 基于PCFG的句法分析 110
6.3.2 基于最大間隔馬爾可夫網(wǎng)絡(luò)的句法分析 112
6.3.3 基于CRF的句法分析 113
6.3.4 基于移進(jìn)歸約的句法分析模型 113
6.4 使用Stanford Parser的PCFG算法進(jìn)行句法分析 115
6.4.1 Stanford Parser 115
6.4.2 基于PCFG的中文句法分析實(shí)戰(zhàn) 116
6.5 本章小結(jié) 119
第7章 文本向量化 120
7.1 文本向量化概述 120
7.2 向量化算法word2vec 121
7.2.1 神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型 122
7.2.2 C&W模型 124
7.2.3 CBOW模型和Skip-gram模型 125
7.3 向量化算法doc2vec/str2vec 127
7.4 案例:將網(wǎng)頁(yè)文本向量化 129
7.4.1 詞向量的訓(xùn)練 129
7.4.2 段落向量的訓(xùn)練 133
7.4.3 利用word2vec和doc2vec計(jì)算網(wǎng)頁(yè)相似度 134
7.5 本章小結(jié) 139
第8章 情感分析技術(shù) 140
8.1 情感分析的應(yīng)用 141
8.2 情感分析的基本方法 142
8.2.1 詞法分析 143
8.2.2 機(jī)器學(xué)習(xí)方法 144
8.2.3 混合分析 144
8.3 實(shí)戰(zhàn)電影評(píng)論情感分析 145
8.3.1 卷積神經(jīng)網(wǎng)絡(luò) 146
8.3.2 循環(huán)神經(jīng)網(wǎng)絡(luò) 147
8.3.3 長(zhǎng)短時(shí)記憶網(wǎng)絡(luò) 148
8.3.4 載入數(shù)據(jù) 150
8.3.5 輔助函數(shù) 154
8.3.6 模型設(shè)置 155
8.3.7 調(diào)參配置 158
8.3.8 訓(xùn)練過(guò)程 159
8.4 本章小結(jié) 159
第9章 NLP中用到的機(jī)器學(xué)習(xí)算法 160
9.1 簡(jiǎn)介 160
9.1.1 機(jī)器學(xué)習(xí)訓(xùn)練的要素 161
9.1.2 機(jī)器學(xué)習(xí)的組成部分 162
9.2 幾種常用的機(jī)器學(xué)習(xí)方法 166
9.2.1 文本分類(lèi) 166
9.2.2 特征提取 168
9.2.3 標(biāo)注 169
9.2.4 搜索與排序 170
9.2.5 推薦系統(tǒng) 170
9.2.6 序列學(xué)習(xí) 172
9.3 分類(lèi)器方法 173
9.3.1 樸素貝葉斯Naive Bayesian 173
9.3.2 邏輯回歸 174
9.3.3 支持向量機(jī) 175
9.4 無(wú)監(jiān)督學(xué)習(xí)的文本聚類(lèi) 177
9.5 文本分類(lèi)實(shí)戰(zhàn):中文垃圾郵件分類(lèi) 180
9.5.1 實(shí)現(xiàn)代碼 180
9.5.2 評(píng)價(jià)指標(biāo) 187
9.6 文本聚類(lèi)實(shí)戰(zhàn):用K-means對(duì)豆瓣讀書(shū)數(shù)據(jù)聚類(lèi) 190
9.7 本章小結(jié) 194
第10章 基于深度學(xué)習(xí)的NLP算法 195
10.1 深度學(xué)習(xí)概述 195
10.1.1 神經(jīng)元模型 196
10.1.2 激活函數(shù) 197
10.1.3 感知機(jī)與多層網(wǎng)絡(luò) 198
10.2 神經(jīng)網(wǎng)絡(luò)模型 201
10.3 多輸出層模型 203
10.4 反向傳播算法 204
10.5 最優(yōu)化算法 208
10.5.1 梯度下降 208
10.5.2 隨機(jī)梯度下降 209
10.5.3 批量梯度下降 210
10.6 丟棄法 211
10.7 激活函數(shù) 211
10.7.1 tanh函數(shù) 212
10.7.2 ReLU函數(shù) 212
10.8 實(shí)現(xiàn)BP算法 213
10.9 詞嵌入算法 216
10.9.1 詞向量 217
10.9.2 word2vec簡(jiǎn)介 217
10.9.3 詞向量模型 220
10.9.4 CBOW和Skip-gram模型 222
10.1