正能量入口,精品手机在线视频,欧美日韩亚洲另类专区

前言

從高中開始接觸數(shù)學和統(tǒng)計學以來，我就一直對數(shù)字著迷。分析學（analytics）、數(shù)據(jù)科學以及最近的文本分析技術(shù)均出現(xiàn)較晚，大概是在幾年前，當時關(guān)于大數(shù)據(jù)（big data）和數(shù)據(jù)分析的炒作越來越猛烈，甚至有些瘋狂。就個人而言，我認為其中很多都是過度炒作，但是也有一些令人興奮的東西，因為這些技術(shù)在新工作、新發(fā)現(xiàn)以及解決人們先前認為不可能解決的問題方面展現(xiàn)了巨大的可能性。

自然語言處理（Natural Language Processing，NLP）一直深深吸引著我，因為人腦科學和人類認知能力確實令人著迷。如果嘗試在機器中重塑這種傳遞信息、復雜思維和情緒的能力，那一定是令人驚喜的。當然，盡管我們在認知計算（cognitive computing）和人工智能（Artificial Intelligence，AI）方面的發(fā)展突飛猛進，但現(xiàn)在尚且無法實現(xiàn)這一點。僅通過圖靈測試可能是不夠的，機器真正能復制人的方方面面嗎？

當今，對于NLP和文本分析應用，迫切需求從非結(jié)構(gòu)化、原始文本數(shù)據(jù)中提取有用信息和可行見解的能力。到目前為止，我一直在努力解決各種問題，面臨諸多挑戰(zhàn)，并隨著時間的推移吸取了各種各樣的經(jīng)驗教訓。本書涵蓋了我在文本分析領(lǐng)域?qū)W到的大部分知識，僅僅從一堆文本文檔中建立一個花哨的詞云是不夠的。

在學習文本分析方面，最大的問題或許不是信息缺乏，而是信息過多，通常這稱為信息過載（information overload）。海量的資源、文檔、論文、書籍和期刊包含了大量的理論資料、概念、技術(shù)和算法，它們常常使該領(lǐng)域的新手不知所措。解決問題的正確技術(shù)是什么？文本摘要如何真正有效？哪些才是解決多類文本分類的框架？通過將數(shù)學和理論概念與現(xiàn)實用例的Python實現(xiàn)相結(jié)合，本書嘗試解決這個問題，并幫助讀者避免迄今為止我所遇到的一些急迫問題。

本書采用了全面的和結(jié)構(gòu)化的介紹方法。首先，它在前幾章中介紹了自然語言理解和Python結(jié)構(gòu)的基礎知識。熟悉了基礎知識之后，其余章節(jié)將解決文本分析中的一些有趣問題，包括文本分類、聚類、相似性分析、文本摘要和主題模型。本書還將分析文本的結(jié)構(gòu)、語義、情感和觀點。對于每個主題，將介紹基本概念，并使用一些現(xiàn)實世界中的場景和數(shù)據(jù)來實現(xiàn)涵蓋每個概念的技術(shù)。本書的構(gòu)想是呈現(xiàn)一幅文本分析和NLP的藍海，并提供必要的工具、技術(shù)和知識以處理和解決工作中遇到的問題。我希望你能覺得本書很有幫助，并祝你在文本分析的世界中旅途愉快！

你還可能感興趣

我要評論