自然語言處理是人工智能領(lǐng)域中的一個重要方向。本書將用深入淺出的語言介紹自然語言處理技術(shù)的由來與發(fā)展歷程,自然語言處理的常用工具和實現(xiàn)平臺,講解了自然語言理解的技術(shù)基礎(chǔ),從詞法、句法、語義、語用等各個方面介紹原理和主流技術(shù),以及自然語言生成的挑戰(zhàn)和解決辦法。書中通過自然語言處理經(jīng)典的任務(wù)說明,展現(xiàn)其作為人工智能關(guān)鍵技術(shù)的應(yīng)用場景和應(yīng)用成效,同時,也將簡述自然語言處理的當(dāng)前研究熱點和各種現(xiàn)代技術(shù),并對自然語言處理未來發(fā)展趨勢進行展望。
譚明奎 :華南理工大學(xué)教授、博士生導(dǎo)師,現(xiàn)任華南理工大學(xué)大數(shù)據(jù)與智能機器人重點實驗室副主任。2017年入選中組部高層次人才計劃青年項目,2018年入選廣東省珠江人才團隊,2022年入選美國斯坦福大學(xué)全球前2%頂尖科學(xué)家榜單。主持國家自然科學(xué)基金、廣東省新一代人工智能重大專項等多個國家和省部級項目。近5年以第一作者或者通信作者發(fā)表學(xué)術(shù)論文60余篇,其中包括IEEE TPAMI等IEEE匯刊論文21篇,以及NeurIPS、ICML、ICLR、CVPR等CCF-A人工智能頂級會議論文30余篇。擔(dān)任NeurIPS、ICML、AAAI、CVPR等多個人工智能會議的領(lǐng)域主席。獲得2019年世界華人數(shù)學(xué)家聯(lián)盟最佳論文獎(ICCM Best Paper)等多項獎勵。
杜 卿 :華南理工大學(xué)副教授,碩士生導(dǎo)師。主要研究方向為數(shù)據(jù)挖掘、機器學(xué)習(xí)等,一直從事用戶建模、推薦系統(tǒng)、視覺-語言多模態(tài)融合等方面的研究工作。20182019年作為訪問學(xué)者在澳洲新南威爾士大學(xué)進行交流訪問。主持或參與了國家科技部重點項目、廣東省自然科學(xué)基金、廣東省科技計劃項目等多個國家及省部級科研項目,已發(fā)表譯著一本,在國際期刊和會議上發(fā)表論文20余篇,取得多項發(fā)明專利和軟件著作權(quán)。
第一章自然語言興起:一場機器與人類的對話 001
一、人機對話的選項自然語言和計算機語言003
二、智能考核指標(biāo)自然語言處理和人工智能005
三、前世今生自然語言處理的發(fā)展歷程007
(一)基礎(chǔ)研究時期008
(二)現(xiàn)代研究時期012
四、百寶箱自然語言處理工具017
(一)NLPIR自然語言處理與信息檢索共享平臺017
(二)Standford CoreNLP 018
(三)NLTK 018
(四)spaCy 019
(五)中文語料庫020
第二章自然語言理解基礎(chǔ):語言學(xué)習(xí)小課堂 023
一、機器的記憶文本表示025
二、機器知詞語詞法分析031
(一)分詞031
(二)詞性標(biāo)注034
(三)命名實體識別037
三、機器識句子句法分析039
(一)樹庫040
(二)句法分析技術(shù)041
四、機器明意思語義分析045
(一)語義消歧046
(二)語義提取048
五、機器曉語境語用分析049
六、機器有感情情感分析051
(一)情感分析分類051
(二)情感分析方法053
第三章自然語言生成技術(shù):語言課堂大考驗 055
一、下筆如有神自然語言生成056
(一)審題目內(nèi)容確定057
(二)列提綱文本結(jié)構(gòu)057
(三)寫句子句子生成058
(四)交作業(yè)語言實現(xiàn)062
二、增縮改寫都拿手文本到文本生成064
(一)文本縮寫067
(二)文本擴展068
(三)文本重寫069
三、對照數(shù)據(jù)做報告數(shù)據(jù)到文本生成070
四、看圖說話也在行圖像到文本生成073
第四章自然語言處理應(yīng)用:就業(yè)上崗樣樣精 077
一、語言溝通無國界機器翻譯078
(一)機器翻譯及其特點078
(二)機器翻譯技術(shù)沿革079
(三)機器翻譯質(zhì)量081
二、網(wǎng)絡(luò)沖浪小助手文本檢索082
三、答疑聊天不下線智能對話系統(tǒng)088
(一)問答系統(tǒng)088
(二)智能助手091
四、互聯(lián)動態(tài)全在握輿情分析092
五、聽說讀寫全能王語音識別和生成096
(一)語音識別098
(二)語音合成100
第五章自然語言處理研究熱點:追夢腳步不停歇 105
一、基于深度學(xué)習(xí)的自然語言處理技術(shù)106
(一)基于神經(jīng)網(wǎng)絡(luò)的分詞106
(二)端到端訓(xùn)練107
(三)預(yù)訓(xùn)練模型109
(四)神經(jīng)網(wǎng)絡(luò)模型的先進代表110
二、視覺-語言融合114
三、跨語言模型117
四、火遍全球的ChatGPT 119
(一)ChatGPT爭霸秘笈ChatGPT的工作原理120
(二)ChatGPT登頂之路GPT模型的發(fā)展歷史123
(三)ChatGPT橫掃世界ChatGPT的應(yīng)用126
(四)ChatGPT的偏見與傲慢大模型的問題與挑戰(zhàn)130
(五)ChatGPT進化升級大模型未來發(fā)展方向和展望132
第六章自然語言處理未來展望:無限風(fēng)光在險峰 135
一、從淺層分析到深度理解137
二、從具體任務(wù)到世界模型138
三、從文本學(xué)習(xí)到感知融合139
四、從被動學(xué)習(xí)到主觀能動140
五、從專業(yè)門檻到普羅大眾141
參考文獻 143