社交網(wǎng)站的數(shù)據(jù)挖掘與分析(原書第3版),第21屆Jolt大獎圖書
定 價:119 元
- 作者:[美]馬修·A.羅素(Matthew A. Russell)米哈
- 出版時間:2021/2/1
- ISBN:9787111674047
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:348
- 紙張:
- 版次:
- 開本:16開
在本書的di一部分,每一章都聚焦社交網(wǎng)站生態(tài)的某個具體方面,囊括了各大主流社交網(wǎng)站,也包括了網(wǎng)頁、博客和訂閱、郵箱、GitHub以及新增加的Instagram的內(nèi)容。第二部分提供了實用指南,其中包含超過20個供挖掘Twitter數(shù)據(jù)之用的簡短代碼。
前言1
第一部分 社交網(wǎng)站導引
序幕15
第1章 挖掘Twitter:探索熱門話題、發(fā)現(xiàn)人們的談論內(nèi)容等17
1.1 概述17
1.2 Twitter風靡一時的原因18
1.3 探索Twitter API20
1.3.1 基本的Twitter術語20
1.3.2 創(chuàng)建一個Twitter API連接22
1.3.3 探索熱門話題26
1.3.4 搜索推文30
1.4 分析140字(或更多)的推文35
1.4.1 提取推文實體37
1.4.2 使用頻率分析技術分析推文和推文實體38
1.4.3 計算推文的詞匯豐富性41
1.4.4 檢視轉(zhuǎn)推模式42
1.4.5 使用直方圖將頻率數(shù)據(jù)可視化45
1.5 本章小結(jié)49
1.6 推薦練習49
1.7 在線資源50
第2章 挖掘Facebook:分析粉絲頁面、查看好友關系等52
2.1 概述53
2.2 探索Facebook的圖譜API53
2.2.1 理解圖譜API55
2.2.2 理解開放圖協(xié)議59
2.3 分析社交圖譜聯(lián)系65
2.3.1 分析Facebook頁面68
2.3.2 使用pandas操作數(shù)據(jù)78
2.4 本章小結(jié)85
2.5 推薦練習86
2.6 在線資源86
第3章 挖掘Instagram:計算機視覺、神經(jīng)網(wǎng)絡、對象識別和人臉檢測88
3.1 概述89
3.2 探索Instagram API89
3.2.1 建立Instagram API請求90
3.2.2 獲取你自己的Instagram訂閱源92
3.2.3 通過主題標簽檢索媒體94
3.3 Instagram帖子的剖析94
3.4 人工神經(jīng)網(wǎng)絡速成97
3.4.1 訓練神經(jīng)網(wǎng)絡“看”圖片98
3.4.2 手寫數(shù)字識別99
3.4.3 使用預訓練的神經(jīng)網(wǎng)絡在照片中識別物體104
3.5 神經(jīng)網(wǎng)絡在Instagram帖子中的應用107
3.5.1 標記圖像內(nèi)容107
3.5.2 在圖像中檢測人臉108
3.6 本章小結(jié)110
3.7 推薦練習111
3.8 在線資源112
第4章 挖掘LinkedIn:分組職位、聚類同行等114
4.1 概述115
4.2 探索LinkedIn API115
4.2.1 發(fā)起LinkedIn API請求115
4.2.2 下載LinkedIn的聯(lián)系人并保存為CSV文件119
4.3 數(shù)據(jù)聚類速成120
4.3.1 對數(shù)據(jù)進行規(guī)范化處理以便進行分析122
4.3.2 測量相似度132
4.3.3 聚類算法134
4.4 本章小結(jié)146
4.5 推薦練習147
4.6 在線資源148
第5章 挖掘文本文件:計算文檔相似度、提取搭配等149
5.1 概述150
5.2 文本文件150
5.3 TF-IDF簡介152
5.3.1 詞頻152
5.3.2 逆文檔頻率154
5.3.3 TF-IDF155
5.4 用TF-IDF查詢?nèi)祟愓Z言數(shù)據(jù)158
5.4.1 自然語言工具包概述158
5.4.2 對人類語言使用TF-IDF161
5.4.3 查找相似文檔163
5.4.4 分析人類語言中的二元文法169
5.4.5 分析人類語言數(shù)據(jù)的反思177
5.5 本章小結(jié)178
5.6 推薦練習179
5.7 在線資源179
第6章 挖掘網(wǎng)頁:使用自然語言處理理解人類語言、總結(jié)博客內(nèi)容等181
6.1 概述182
6.2 抓取、解析和爬取網(wǎng)頁182
6.3 通過解碼語法來探索語義188
6.3.1 一步步講解自然語言處理190
6.3.2 人類語言數(shù)據(jù)中的句子檢測193
6.3.3 文檔摘要197
6.4 以實體為中心的分析:范式轉(zhuǎn)換204
6.5 人類語言數(shù)據(jù)處理分析的質(zhì)量213
6.6 本章小結(jié)215
6.7 推薦練習215
6.8 在線資源216
第7章 挖掘郵箱:分析誰和誰說什么以及說的頻率等218
7.1 概述219
7.2 獲取和處理郵件語料庫219
7.2.1 Unix郵箱指南219
7.2.2 獲得Enron數(shù)據(jù)224
7.2.3 將郵件語料轉(zhuǎn)換為Unix郵箱226
7.2.4 將Unix郵箱轉(zhuǎn)換為pandas DataFrame227
7.3 分析Enron語料庫230
7.3.1 根據(jù)日期/時間范圍查詢230
7.3.2 發(fā)件人/收件人通信的分析模式234
7.3.3 根據(jù)關鍵詞查找郵件237
7.4 分析你自己的郵件數(shù)據(jù)238
7.4.1 通過OAuth訪問你的Gmail240
7.4.2 獲取和解析郵件242
7.4.3 Immersion對電子郵件的可視化模式244
7.5 本章小結(jié)245
7.6 推薦練習245
7.7 在線資源246
第8章 挖掘GitHub:檢查軟件協(xié)同習慣、構(gòu)建興趣圖譜等247
8.1 概述248
8.2 探索GitHub的API248
8.2.1 建立GitHub API連接249
8.2.2 建立GitHub API請求253
8.3 使用屬性圖為數(shù)據(jù)建模254
8.4 分析GitHub興趣圖譜257
8.4.1 初始化一個興趣圖譜258
8.4.2 計算圖的中心度度量261
8.4.3 為用戶添加“關注”邊來擴展興趣圖譜263
8.4.4 以節(jié)點為中心獲得更高效的查詢273
8.4.5 興趣圖譜的可視化278
8.5 本章小結(jié)279
8.6 推薦練習280
8.7 在線資源281
第二部分 Twitter數(shù)據(jù)挖掘與分析實用指南
第9章 Twitter數(shù)據(jù)挖掘與分析285
9.1 訪問Twitter的API(開發(fā)目的)286
9.2 使用OAuth訪問Twitter的API(產(chǎn)品目的)288
9.3 探索流行話題290
9.4 查找推文291
9.5 構(gòu)造方便的函數(shù)調(diào)用293
9.6 使用文本文件存儲JSON數(shù)據(jù)294
9.7 使用MongoDB存儲和訪問JSON數(shù)據(jù)295
9.8 使用信息流API對Twitter數(shù)據(jù)管道抽樣298
9.9 采集時序數(shù)據(jù)299
9.10 提取推文實體300
9.11 在特定的推文范圍內(nèi)查找最流行的推文302
9.12 在特定的推文范圍內(nèi)查找最流行的推文實體303
9.13 對頻率分析制表304
9.14 查找轉(zhuǎn)推了狀態(tài)的用戶305
9.15 提取轉(zhuǎn)推的屬性307
9.16 創(chuàng)建健壯的Twitter請求308
9.17 獲取用戶檔案信息310
9.18 從任意的文本中提取推文實體312
9.19 獲得用戶的所有好友和關注者312
9.20 分析用戶的好友和關注者314
9.21 獲取用戶的推文316
9.22 爬取好友關系圖318
9.23 分析推文內(nèi)容319
9.24 提取鏈接目標摘要320
9.25 分析用戶收藏的推文323
9.26 本章小結(jié)325
9.27 推薦練習325
9.28 在線資源326
第三部分 附錄
附錄A 關于本書虛擬機體驗的信息329
附錄B OAuth入門330
附錄C Python和Jupyter Notebook的使用技巧334