SAS編程與數(shù)據(jù)挖掘商業(yè)案例
定 價(jià):42 元
叢書(shū)名:信息科學(xué)與技術(shù)叢書(shū)
- 作者:姚志勇 著
- 出版時(shí)間:2010/5/1
- ISBN:9787111305354
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:F712.3
- 頁(yè)碼:345
- 紙張:膠版紙
- 版次:1
- 開(kāi)本:大16開(kāi)
《SAS編程與數(shù)據(jù)挖掘商業(yè)案例》是作者多年來(lái)在企業(yè)實(shí)踐工作中的經(jīng)驗(yàn)總結(jié),詳細(xì)講解了使用SAS進(jìn)行商業(yè)數(shù)據(jù)挖掘的方法。其中包含了目前公開(kāi)出版的諸多SAS教材沒(méi)有的大量實(shí)戰(zhàn)內(nèi)容。《SAS編程與數(shù)據(jù)挖掘商業(yè)案例》內(nèi)容全面、新穎獨(dú)創(chuàng)、綜合性強(qiáng),適合企業(yè)人員使用,也可作為數(shù)學(xué)、統(tǒng)計(jì)學(xué)、金融、電子商務(wù)、醫(yī)藥等專業(yè)的本科生、碩士生學(xué)習(xí)SAS編程和數(shù)據(jù)挖掘的參考資料。
從PDV角度詳盡剖析Base SAS常用語(yǔ)句代碼及應(yīng)用,數(shù)據(jù)挖掘理論和商業(yè)應(yīng)用緊密結(jié)合,原創(chuàng)相互貝葉斯文本分類和EM迭代算法代碼,三個(gè)典型的數(shù)據(jù)挖掘商業(yè)案例分析! 禨AS編程與數(shù)據(jù)挖掘商業(yè)案例》是作者多年來(lái)在企業(yè)實(shí)踐工作中的經(jīng)驗(yàn)總結(jié),詳細(xì)講解了使用SAS進(jìn)行商業(yè)數(shù)據(jù)挖掘的方法,其中包含了目前公開(kāi)出版的諸多SAS教材沒(méi)有的大量實(shí)戰(zhàn)內(nèi)容! 禨AS編程與數(shù)據(jù)挖掘商業(yè)案例》內(nèi)容全面、新穎獨(dú)創(chuàng)、綜合性強(qiáng),適合企業(yè)人員使用,也可作為數(shù)學(xué)、統(tǒng)計(jì)學(xué)、金融、電子商務(wù)、醫(yī)藥等專業(yè)的本科生、碩士生學(xué)習(xí)SAS編程和數(shù)據(jù)挖掘的參考資料。
當(dāng)前國(guó)內(nèi)的諸多數(shù)據(jù)挖掘書(shū)籍幾乎都是基于理論說(shuō)明,很少深入介紹數(shù)據(jù)挖掘?qū)嵺`,涉及SAS開(kāi)發(fā)的更是少見(jiàn)。因此,從商業(yè)應(yīng)用出發(fā),基于實(shí)踐而不是基于理論的數(shù)據(jù)挖掘書(shū)籍呼之欲出。本書(shū)作者從商業(yè)需求出發(fā),以商業(yè)人士的眼光來(lái)看待企業(yè)數(shù)據(jù)挖掘,并給出大量的商業(yè)實(shí)踐案例。把主流的數(shù)據(jù)挖掘技術(shù)用真實(shí)案例來(lái)實(shí)現(xiàn)是本書(shū)出版的初衷,同時(shí)為了滿足初學(xué)者需求,作者也給出了數(shù)據(jù)挖掘必備的基礎(chǔ)編程知識(shí)模塊。
全書(shū)共分兩部分。第一部分是SAS編程:第1章和第2章主要介紹SAS系統(tǒng)和編程基礎(chǔ),同時(shí)介紹SAS數(shù)據(jù)處理最核心的內(nèi)容——數(shù)據(jù)指針和PDV流程。該核心內(nèi)容貫穿第一部分,是已出版的其他SAS圖書(shū)沒(méi)有的。
第3~9章主要介紹SAS的數(shù)據(jù)處理技術(shù),也是第一部分的主要內(nèi)容,包括數(shù)據(jù)集處理、變量處理和觀測(cè)處理等多種數(shù)據(jù)處理技術(shù),同時(shí)也介紹了循環(huán)控制等稍難的內(nèi)容,重要的是給出了諸多實(shí)際案例及商業(yè)應(yīng)用。盡管第3~9章從表面上看和諸多已經(jīng)出版的SAS圖書(shū)沒(méi)有什么大的不同,但是這些章節(jié)最大的亮點(diǎn)是作者對(duì)每一個(gè)示例和案例從數(shù)據(jù)指針和PDV流程的角度給予了最詳細(xì)的程序解讀,讓讀者真正讀懂程序,而不是停留在程序的表面。
第10章是第一部分r的難點(diǎn)。作者還是站在商業(yè)實(shí)踐的角度逐一介紹宏最常用的部分,同時(shí)也給出了非常詳細(xì)的程序解讀。
第11章介紹SOL過(guò)程。有關(guān)內(nèi)容在國(guó)內(nèi)同類書(shū)中都出現(xiàn)過(guò),但是作者獨(dú)辟蹊徑,融合了項(xiàng)目實(shí)踐中諸多真正有用的語(yǔ)句,同時(shí)也給出了諸多開(kāi)發(fā)建議和應(yīng)注意的問(wèn)題。
第12章介紹數(shù)據(jù)處理實(shí)踐。該章共包括四個(gè)方面的內(nèi)容,幾乎都是目前國(guó)內(nèi)沒(méi)有出現(xiàn)過(guò)的,如HASH對(duì)象及商業(yè)應(yīng)用、正則表達(dá)式等。隨機(jī)抽樣也是數(shù)據(jù)處理經(jīng)常面臨的問(wèn)題,這里作者開(kāi)發(fā)了在SAS系統(tǒng)中如何處理分層不等比例抽樣的代碼,這也是目前國(guó)內(nèi)其他SAS圖書(shū)沒(méi)有介紹過(guò)的。
第二部分是數(shù)據(jù)挖掘商業(yè)案例:
第13章主要介紹數(shù)據(jù)挖掘概念和流程。數(shù)據(jù)挖掘流程尤其是商業(yè)流程是本章的重點(diǎn)。該流程告訴讀者一個(gè)真正的商業(yè)數(shù)據(jù)挖掘流程在商業(yè)環(huán)境中是如何實(shí)施的。
第14章重點(diǎn)介紹響應(yīng)模型。響應(yīng)模型是商業(yè)實(shí)踐中最常用的預(yù)測(cè)模型,基于第13章的流程規(guī)范給出了一個(gè)具體的商業(yè)案例研究。
第15章是客戶行為分析。該章有目前全球最流行的行為分析,包括“行為年齡”和“行為性別”(注意完全不同于具有自然屬性特征的“真實(shí)年齡”和“真實(shí)性別”),作者運(yùn)用NaiveBayesian技術(shù)開(kāi)發(fā)出一整套模型,并對(duì)該模型擁有完全自主知識(shí)產(chǎn)權(quán)。
第16章介紹文本挖掘。該章首先介紹了文本挖掘的流程,然后開(kāi)發(fā)出基于NaiveBayesian文本分類算法和EM迭代思想的大型代碼,并成功應(yīng)用于商業(yè)實(shí)踐。
出版說(shuō)明
前言
第1章 SAS系統(tǒng)簡(jiǎn)介
1.1 系統(tǒng)簡(jiǎn)介
1.1.1 SAS系統(tǒng)與商務(wù)智能系統(tǒng)
1.1.2 SAS系統(tǒng)與其他數(shù)據(jù)庫(kù)的數(shù)據(jù)交換
1.1.3 SAS語(yǔ)言與SAS系統(tǒng)
1.1.4 SAS9瀏覽窗口簡(jiǎn)介
1.2 一個(gè)簡(jiǎn)單的編程實(shí)例
1.2.1 編寫(xiě)一個(gè)SAS程序
1.2.2 提交一個(gè)SAS程序
1.2.3 保存和打開(kāi)一個(gè)SAS程序
1.3 DATA步的數(shù)據(jù)指針和PDV流程
1.3.1 數(shù)據(jù)指針和PDV流程
1.3.2 DATA步執(zhí)行次數(shù)
第2章 SAS編程基礎(chǔ)
2.1 SAS邏輯庫(kù)
2.1.1 創(chuàng)建SAS邏輯庫(kù)
2.1.2 刪除SAS邏輯庫(kù)
2.1.3 永久邏輯庫(kù)和臨時(shí)邏輯庫(kù)
2.2 SAS數(shù)據(jù)集
2.2.1 SAS數(shù)據(jù)集命名規(guī)則
2.2.2 永久SAS數(shù)據(jù)集和臨時(shí)SAS數(shù)據(jù)集
2.2.3 SAS數(shù)據(jù)集結(jié)構(gòu)
2.2.4 SAS數(shù)據(jù)集形式
2.3 SAS索引
2.3.1 創(chuàng)建索引
2.3.2 刪除索引
2.4 SAS目錄
2.5 數(shù)據(jù)字典
2.6 SAS變量
2.6.1 變量屬性
2.6.2 變量列表
2.6.3 自動(dòng)變量
第3章 數(shù)據(jù)獲取與數(shù)據(jù)集操作
3.1 數(shù)據(jù)獲取
3.1.1 LIBNAME方式
3.1.2 PASSTHROUGH方式
3.1.3 IMPORT方式
3.1.4 INPUT方式
3.2 SET語(yǔ)句
3.2.1 語(yǔ)法說(shuō)明
3.2.2 實(shí)例詳解
3.2.3 商業(yè)實(shí)踐
3.3 BY語(yǔ)句
3.3.1 語(yǔ)法說(shuō)明
3.3.2 實(shí)例詳解
3.4 MERGE語(yǔ)句
3.4.1 語(yǔ)法說(shuō)明
3.4.2 實(shí)例詳解
3.5 UPDATE語(yǔ)句
3.5.1 語(yǔ)法說(shuō)明
3.5.2 實(shí)例詳解
3.6 MODIFY語(yǔ)句
3.6.1 語(yǔ)法說(shuō)明
3.6.2 實(shí)例詳解
3.6.3 商業(yè)實(shí)踐
3.7 PUT語(yǔ)句
3.7.1 語(yǔ)法說(shuō)明
3.7.2 實(shí)例詳解
3.7.3 商業(yè)實(shí)踐
3.8 FILE語(yǔ)句
3.8.1 語(yǔ)法說(shuō)明
3.8.2 實(shí)例詳解
3.8.3 商業(yè)實(shí)踐
3.9 1INFLE語(yǔ)句
3.9.1 語(yǔ)法說(shuō)明
3.9.2 實(shí)例詳解
3.9.3 商業(yè)實(shí)踐
第4章 SAS變量操作
4.1 賦值語(yǔ)句和累加語(yǔ)句
4.1.1 賦值語(yǔ)句
4.1.2 累加語(yǔ)句
4.2 KEEP語(yǔ)句和DROP語(yǔ)句
4.2.1 KEEP語(yǔ)句
4.2.2 DROP語(yǔ)句
4.3 IRETAIN語(yǔ)句
4.3.1 語(yǔ)法說(shuō)明
4.3.2 實(shí)例詳解
4.3.3 商業(yè)實(shí)踐
4.4 ARRAY語(yǔ)句
4.4.1 語(yǔ)法說(shuō)明
4.4.2 實(shí)例詳解
4.4.3 商業(yè)實(shí)踐
4.5 其他語(yǔ)句
4.5.1 RENAME語(yǔ)句
4.5.2 LENGTH語(yǔ)句
4.5.3 LABEI。語(yǔ)句
第5章 SAS觀測(cè)值操作
5.1 OUTPUT語(yǔ)句
5.1.1 語(yǔ)法說(shuō)明
5.1.2 實(shí)例詳解
5.2 子集IF語(yǔ)句
5.2.1 語(yǔ)法說(shuō)明
5.2.2 實(shí)例詳解
5.2.3 子集IF與OUTPUT語(yǔ)句比較
5.3 WHERE語(yǔ)句
5.3.1 語(yǔ)法說(shuō)明
5.3.2 實(shí)例詳解
5.3.3 子集IF與WIIERE語(yǔ)句比較
5.4 REPLACE語(yǔ)句和REMOVE語(yǔ)句
5.4.1 REPLACE語(yǔ)句
5.4.2 REMOVE語(yǔ)句
5.4.3 REPLACE、REM0vE與OUTPUT應(yīng)用
5.5 DELETE語(yǔ)句與STOP語(yǔ)句
5.5.1 DELETE語(yǔ)句
5.5.2 STOP語(yǔ)句
第6章 SAS數(shù)據(jù)集管理
6.1 APPEND過(guò)程
6.1.1 語(yǔ)法說(shuō)明
6.1.2 實(shí)例詳解
6.2 SORT過(guò)程
6.2.1 語(yǔ)法說(shuō)明
6.2.2 實(shí)例詳解
6.2.3 商業(yè)實(shí)踐
6.3 TRANSPOSE過(guò)程
6.3.1 語(yǔ)法說(shuō)明
6.3.2 實(shí)例詳解
6.4 CONTENTS過(guò)程
6.4.1 語(yǔ)法說(shuō)明
6.4.2 實(shí)例詳解
6.5 DATASETS過(guò)程
6.5.1 語(yǔ)法說(shuō)明
6.5.2 實(shí)例詳解
第7章 DAIA步循環(huán)與控制
7.1 IF.THEN/ELSE語(yǔ)句與SELECT語(yǔ)句
7.1.1 lF.THEN/ELSE語(yǔ)句
7.1.2 SELECT語(yǔ)句
7.2 DO語(yǔ)句
7.2.1 D0組語(yǔ)句
7.2.2 D0循環(huán)語(yǔ)句
7.2.3 DOWHILE語(yǔ)句
7.2.4 DOUNTIL語(yǔ)句
7.2.5 DOOVER語(yǔ)句
7.2.6 商業(yè)實(shí)踐
7.3 各種控制語(yǔ)句
7.3.1 GOT0語(yǔ)句
7.3.2 CONTINUE語(yǔ)句與LEAVE語(yǔ)句
7.3.3 RETIJRN語(yǔ)句
第8章 常用全程語(yǔ)句
8.1 COMMENT語(yǔ)句
8.2 X語(yǔ)句
8.3 FILENAME語(yǔ)句
8.4 %INCLUDE語(yǔ)句
8.5 TITLE語(yǔ)句
8.6 FOOTNOTE語(yǔ)句
第9章 輸出控制
9.1 LOG窗口輸出控制
9.2 OUTPUT窗口輸出控制
9.3 常用ODS輸出控制
9.3.1 ODSLISTING
9.3.2 ODSRESUTS
9.3.3 ODSTRACE
9.3.4 ODS0UTPUT
9.3.5 ODSHTML
9.3.6 ODSCSVALL
9.3.7 ODSSELECT
9.3.8 ODSEXCLUDE
第10章 SAS宏變量
10.1 宏運(yùn)行的內(nèi)在機(jī)制
10.2 宏變量
10.2.1 定義宏變量
10.2.2 顯示宏變量
10.2.3 引用宏變量
10.3 宏程序
10.3.1 定義宏
10.3.2 調(diào)用宏
10.3.3 宏內(nèi)宏
10.3.4 宏存儲(chǔ)
10.4 宏參數(shù)
10.4.1 創(chuàng)建參數(shù)
10.4.2 參數(shù)賦值
10.5 宏函數(shù)
10.5.1 通配函數(shù)
10.5.2 計(jì)算函數(shù)
10.5.3 字符函數(shù)
10.5.4 引用函數(shù)
10.6 宏語(yǔ)句
10.6.1 %IF.%TIIEN/%ELSE語(yǔ)句
10.6.2 %DO組語(yǔ)句
10.6.3 %DO循環(huán)語(yǔ)句
10.6.4 %DO%WHILE循環(huán)語(yǔ)句
10.6.5 %D0%UNTIL循環(huán)語(yǔ)句
10.7 宏應(yīng)用
10.7.1 創(chuàng)建宏變量的八種方法
10.7.2 宏程序一般應(yīng)用
10.7.3 宏程序高級(jí)應(yīng)用
第11章 SQL過(guò)程
11.1 單表操作
11.2 多表操作
11.2.1 多表關(guān)聯(lián)
11.2.2 子查詢
11.2.3 合并查詢
11.2.4 MERGE與SQL比較
11.3 創(chuàng)建、更新與刪除表操作
11.3.1 創(chuàng)建表
11.3.2 行操作
11.3.3 列操作
11.3.4.刪除表
11.4 使用SQL注意的幾個(gè)問(wèn)題
第12章 數(shù)據(jù)處理實(shí)踐
12.1 隨機(jī)抽樣
12.1.1 簡(jiǎn)單無(wú)重復(fù)隨機(jī)抽樣
12.1.2 分層等比例隨機(jī)抽樣
12.1.3 分層不等比例隨機(jī)抽樣
12.1.4 隨機(jī)抽樣MACRO
12.2 HASH對(duì)象
12.2.1 HASH對(duì)象的引例
12.2.2 HASH對(duì)象的語(yǔ)法
12.2.3 HITER對(duì)象的引例
12.2.4 HITER對(duì)象的語(yǔ)法
12.2.5 商業(yè)實(shí)踐
12.3 FORMAT綜述
12.3.1 PROC步創(chuàng)建
12.3.2 DATA步創(chuàng)建
12.3.3 永久存儲(chǔ)及調(diào)用
12.4 正則表達(dá)式
12.4.1 語(yǔ)法說(shuō)明
12.4.2 常用函數(shù)
12.4.3 實(shí)例詳解
12.5 宏在SAS與Excel轉(zhuǎn)換中的應(yīng)用
12.5.1 SAS數(shù)據(jù)集轉(zhuǎn)換成Excel
12.5.2 Excel轉(zhuǎn)換成SAS數(shù)據(jù)集
第13章 數(shù)據(jù)挖掘概念、任務(wù)和流程
13.1 數(shù)據(jù)挖掘概念
13.2 數(shù)據(jù)挖掘任務(wù)
13.3 數(shù)據(jù)挖掘流程
13.3.1 定義商業(yè)目標(biāo)
13.3.2 編制需求文檔
13.3.3 選擇數(shù)據(jù)源
13.3.4 建模流程圖
13.4 LOGISTIC建模及結(jié)果詳解
13.4.1 數(shù)學(xué)模型
13.4.2 參數(shù)估計(jì)
13.4.3 模型評(píng)價(jià)指標(biāo)
13.4.4 回歸系數(shù)
13.4.5 變量篩選方法
13.4.6 應(yīng)用舉例及輸出結(jié)果詳解
13.4.7 多值LOGISTIC模型
第14章 響應(yīng)模型:定位新客戶
14.1 前期準(zhǔn)備
14.1.1 商業(yè)需求
14.1.2 定義目標(biāo)
14.1.3 選擇變量
14.2 數(shù)據(jù)獲取與數(shù)據(jù)處理
14.2.1 創(chuàng)建建模數(shù)據(jù)集
14.2.2 變量首次篩選
14.2.3 數(shù)據(jù)探索
14.2.4 數(shù)據(jù)清洗
14.2.5 變量二次篩選
14.2.6 變量三次篩選
14.2.7 字符變量壓縮
14.3 模型開(kāi)發(fā)
14.3.1 全模型法選擇所有候選模型
14.3.2 逐步回歸法篩選候選模型
14.3.3 創(chuàng)建兩個(gè)重要數(shù)據(jù)集
14.3.4 創(chuàng)建LIFT圖
14.3.5 創(chuàng)建評(píng)分卡文件
14.4 模型驗(yàn)證
14.4.1 評(píng)分卡文件導(dǎo)入
14.4.2 LIFT圖比較
14.4.3 模型確認(rèn)
14.5 模型實(shí)施與監(jiān)控
14.5.1 模型實(shí)施
14.5.2 模型監(jiān)控
14.6 小結(jié)
第15章 行為建模:客戶行為屬性分析
15.1 前期準(zhǔn)備
15.1.1 商業(yè)需求
15.1.2 定義目標(biāo)
15.1.3 選擇建模方法
15.2 數(shù)據(jù)獲取與處理
15.3 模型開(kāi)發(fā)
15.4 模型驗(yàn)證
15.5 模型打分
15.6 模型預(yù)測(cè)
15.7 模型實(shí)施
15.8 小結(jié)
第16章 文本挖掘:Web文本分析
16.1 文本挖掘概念與流程
16.1.1 文本挖掘概念
16.1.2 文本挖掘流程
16.2 商業(yè)案例
16.2.1 商業(yè)需求
16.2.2 建?蚣茉O(shè)計(jì)
16.2.3 結(jié)合樸素貝葉斯文本分類的EM迭代
16.2.4 數(shù)據(jù)獲取與數(shù)據(jù)預(yù)處理
……
參考文獻(xiàn)
6.流失
在商業(yè)領(lǐng)域,流失意味著利潤(rùn)的減少甚至賬戶關(guān)閉,主要發(fā)生在電信行業(yè)和銀行業(yè)。由于競(jìng)爭(zhēng)對(duì)手的存在,流失會(huì)經(jīng)常發(fā)生。如果能夠通過(guò)建立一個(gè)比較健壯的流失模型,能夠?qū)δ切┛赡茉谖磥?lái)的幾個(gè)月內(nèi)流失的客戶做出準(zhǔn)確的預(yù)測(cè),則從營(yíng)銷角度就可以提前做好一些準(zhǔn)備,如通過(guò)一些營(yíng)銷手段來(lái)挽留這些客戶。從技術(shù)上,流失模型本質(zhì)上和風(fēng)險(xiǎn)模型是一樣的,只是目標(biāo)定義可能會(huì)有所不同。一種常見(jiàn)的流失定義是:在過(guò)去的6個(gè)月內(nèi)賬戶余額皇現(xiàn)減少趨勢(shì),并在第6個(gè)月余額低于公司規(guī)定的閾值或比例。
注意:響應(yīng)模型是基于時(shí)間點(diǎn)的模型,而風(fēng)險(xiǎn)模型和流失模型是基于時(shí)間段的模型。
7.提升銷售和交叉銷售
提升銷售是指預(yù)測(cè)客戶購(gòu)買更多同樣產(chǎn)品的可能性。交叉銷售是指預(yù)測(cè)客戶購(gòu)買公司不同產(chǎn)品的可能性。提升銷售和交叉銷售對(duì)于縱向挖掘一個(gè)客戶的潛在利潤(rùn)是非常重要的。從技術(shù)上來(lái)說(shuō),關(guān)聯(lián)規(guī)則也許能夠幫助公司發(fā)現(xiàn)客戶的特征,著名的“啤酒和尿布”就是多數(shù)數(shù)據(jù)挖掘圖書(shū)“言必稱希臘”的經(jīng)典案例,但是在作者看來(lái),“啤酒和尿布”如同“尼斯湖怪獸”一樣并非值得絕對(duì)信賴。在提升和交叉銷售領(lǐng)域,更多的關(guān)注應(yīng)該是客戶消費(fèi)對(duì)象本身的關(guān)聯(lián)性以及客戶的消費(fèi)心理,這是更偏向于定性分析的技術(shù),而不是定量分析的方法。
事實(shí)上,以上列舉的商業(yè)需求只是千千萬(wàn)萬(wàn)個(gè)商業(yè)需求中的部分代表,讀者能夠從中得到這樣的啟發(fā):所有的數(shù)據(jù)挖掘技術(shù)都是商業(yè)目標(biāo)的一個(gè)實(shí)現(xiàn),或簡(jiǎn)單,或復(fù)雜。而商業(yè)應(yīng)用的最高原則就是“效率、效果”。
13.3.2.編制需求文檔
在明確了商業(yè)目標(biāo)之后,接下來(lái)就需要分析師編制需求文檔。需求文檔是商業(yè)目標(biāo)的細(xì)化。完整的需求文檔應(yīng)包括以下幾個(gè)部分:
項(xiàng)目計(jì)劃文檔(PPT)。
方法論設(shè)計(jì)文檔(Word)。
變量需求文檔(Excel)。
這三個(gè)項(xiàng)目涵蓋了商業(yè)客戶需求、團(tuán)隊(duì)頭腦風(fēng)暴成果、項(xiàng)目數(shù)據(jù)收集指標(biāo)三個(gè)重要內(nèi)容。
1.項(xiàng)目計(jì)劃文檔
項(xiàng)目計(jì)劃文檔是指實(shí)現(xiàn)客戶需求而制定的需求框架、計(jì)劃內(nèi)容、路線圖和資源。由于該部分內(nèi)容主要呈現(xiàn)給商業(yè)客戶,因此一般以PPT形式,幻燈片盡量控制在10張以下。