缺失數(shù)據(jù)的多重插補(bǔ):應(yīng)用案例與軟件操作
定 價:38 元
叢書名:萬卷方法/社會科學(xué)研究方法·前沿與應(yīng)用叢書
- 作者:嚴(yán)潔 著
- 出版時間:2017/2/1
- ISBN:9787562496359
- 出 版 社:重慶大學(xué)出版社
- 中圖法分類:H31
- 頁碼:300
- 紙張:膠版紙
- 版次:1
- 開本:32開
簡單地說,多重插補(bǔ)就是給每個缺失單元插補(bǔ)上多個值。主要包括插補(bǔ)、分析、綜合三大步驟。對于多重插補(bǔ),通常會有如下一系列疑問:
1.一個缺失的單元為什么可以給出多個插補(bǔ)值?
2.這些插補(bǔ)值是怎么計算來的?
3.既然要插補(bǔ)多個值,那么需要插補(bǔ)多少個比較合適?
4.插補(bǔ)后的數(shù)據(jù)集該怎么用?
5.什么情況下可以用多重插補(bǔ)?
6.怎樣借助統(tǒng)計軟件來做多重插補(bǔ)?
《缺失數(shù)據(jù)的多重插補(bǔ):應(yīng)用案例與軟件操作》這本書的主要目的就在于借助實(shí)例來解答這些問題。本書包括三個部分,在第一部分主要介紹多重插補(bǔ)的基本原理和方法、步驟;第二部分則借助4篇精心挑選出來的文章,通過對文章的評析來進(jìn)一步解答有關(guān)多重插補(bǔ)方法的細(xì)節(jié)問題和相應(yīng)的注意事項(xiàng);第三部分則講解和示例如何用SPSS、STATA這兩種統(tǒng)計軟件來實(shí)現(xiàn)多重插補(bǔ)。
近些年來,越來越多的社會科學(xué)領(lǐng)域?qū)W者應(yīng)用社會調(diào)查的方法來探討中國政治、經(jīng)濟(jì)、社會發(fā)展過程中的理論和實(shí)踐問題。但是在社會調(diào)查的數(shù)據(jù)采集過程中,由于各種原因而無法獲得某個樣本的任何一項(xiàng)回答或者無法獲得樣本對某個或某些個問題的回答的情況越來越多,前者稱為單元無回答/單元無應(yīng)答,后者稱為項(xiàng)目無回答/題目無應(yīng)答。由無回答引起的數(shù)據(jù)缺失對于后期的數(shù)據(jù)分析造成很大的影響,為此,在使用統(tǒng)計分析方法進(jìn)行描述和推斷之前,需要考慮缺失值的處理問題。
對于缺失值的處理有多種方法,其中多重插補(bǔ)(multiple imputation)是近些年來廣泛接受的一種方法。
嚴(yán)潔(女),北京大學(xué)政府管理學(xué)院副教授,政治學(xué)定量研究方向博士生導(dǎo)師。主要從事社會科學(xué)定量研究方法研究。兼任北京大學(xué)中國國情研究中心副主任、北京大學(xué)中國社會科學(xué)調(diào)查中心執(zhí)行團(tuán)隊負(fù)責(zé)人。自1995年以來設(shè)計并組織實(shí)施了近百項(xiàng)大規(guī)模抽樣調(diào)查。作為主要執(zhí)行者參與了4波《世界價值觀調(diào)查-中國》,4波《中國家庭追蹤調(diào)查》,2波《世界精神健康調(diào)查-中國》等世界知名大型抽樣調(diào)查。與沈明明教授、PierreF.Landry教授共同創(chuàng)立了“GPS輔助區(qū)域抽樣方法”。在《社會學(xué)研究》、《社會》等核心刊物上發(fā)表多篇文章。曾主持國家自然科學(xué)基金項(xiàng)目“并行數(shù)據(jù)與數(shù)據(jù)質(zhì)量管理”,并作為主要參與者參與了多項(xiàng)國家社科基金項(xiàng)目。
導(dǎo)言 社會調(diào)查、無回答與缺失數(shù)據(jù)
第1章 刪除法和單一插補(bǔ)法
1.1刪除法
1.1.1 列表刪除
1.1.2 成對刪除
1.2單一插補(bǔ)法
1.2.1 均值插補(bǔ)
1.2.2回歸插補(bǔ)
1.2.3 熱平臺插補(bǔ)
1.2.4 冷平臺插補(bǔ)
1.2.5 LOCF與BOCF法
第2章 多重插補(bǔ)法概述
2.1多重插補(bǔ)的基本原理
2.1.1 什么是多重插補(bǔ)?
2.1.2 為什么一個缺失單元可以有多個插補(bǔ)值?
2.1.3 缺失類型
2.1.4 多重插補(bǔ)的方法
2.1.5 進(jìn)行多少次插補(bǔ)才有效?
2.1.6 多個插補(bǔ)值怎樣使用?
2.1.7 什么情況下用多重插補(bǔ)?
2.2 多重插補(bǔ)的發(fā)展簡史
2.2.1 起始階段(1977-1987年)
2.2.2 第二階段(1988-1997年)
2.2.3 第三階段(1998年至今)
第3章 多重插補(bǔ)的方法、步驟
3.1準(zhǔn)備插補(bǔ)變量
3.1.1初步設(shè)定分析模型
3.1.2初選插補(bǔ)模型的變量
3.2檢驗(yàn)和確定插補(bǔ)模型
3.2.1選擇插補(bǔ)方法
3.2.2變量轉(zhuǎn)換
3.2.3多重共線性診斷
3.2.4確定插補(bǔ)次數(shù)
3.2.5執(zhí)行多重插補(bǔ),并診斷插補(bǔ)模型
3.3 多重插補(bǔ)后的統(tǒng)計分析
3.3.1 插補(bǔ)后進(jìn)行簡單隨機(jī)抽樣下的統(tǒng)計分析
3.3.2 插補(bǔ)后進(jìn)行復(fù)雜抽樣下的統(tǒng)計分析
3.4 小結(jié)
第4章 應(yīng)用案例分析
4.1政治學(xué)應(yīng)用案例
4.2教育學(xué)應(yīng)用案例
4.3經(jīng)濟(jì)學(xué)應(yīng)用案例
4.4管理學(xué)應(yīng)用案例
第5章 使用SPSS、STATA軟件做多重插補(bǔ)
5.1使用SPSS軟件做多重插補(bǔ)
5.2使用STATA軟件做多重插補(bǔ)
5.2.1 多重插補(bǔ)前的準(zhǔn)備工作
5.2.2 多重插補(bǔ)
5.2.3 多重插補(bǔ)后的統(tǒng)計分析
5.3 SPSS、STATA、SAS、R軟件做多重插補(bǔ)的異同
參考文獻(xiàn)
1.什么是無回答
無回答是指在數(shù)據(jù)采集過程中,由于各種原因而無法獲得某個樣本的任何一項(xiàng)回答或者無法獲得樣本對某個或某些個問題的回答的情況,前者稱為單元無回答(unit nonresponse),后者稱為項(xiàng)目無回答(item nonresponse)。
單元無回答包括“無法接觸到樣本單位(no contact)”,“拒訪(refusal)”,“無能力回答(incapacity)”等幾種情況。根據(jù)美國“民意調(diào)查研究協(xié)會(The American Association for Public Opinion Research)”確定的電話調(diào)查、入戶調(diào)查、郵寄問卷調(diào)查回答率的計算標(biāo)準(zhǔn)中的相關(guān)定義(APPOR,2011):“無法接觸到樣本”包括這樣一些情況:(a)不能進(jìn)入這個建筑物;(b)住戶內(nèi)沒有人;(c)受訪人不在或者找不到。判斷一個樣本是否屬于“無法接觸到樣本”,研究者必須確定樣本單位是一個非空的、有符合資格的受訪人居住的、并且沒有接觸到的住戶成員是可完成的這三個必要條件!熬茉L”包括住戶單位或者住戶內(nèi)的成員拒絕訪問的情況,有時也包括采訪中斷的情況!盁o能力回答”則包括受訪人盡管符合被采訪的資格,而且他/她也愿意接受訪問,但是由于語言或者身體、精神不適等原因沒有能力完成訪問的情況。
以上這幾種情況占單元無回答總數(shù)的比例因調(diào)查內(nèi)容和調(diào)查方式而不同。概率抽樣調(diào)查相對于非概率抽樣調(diào)查會遇到較多的單元無回答的情況。在多數(shù)概率抽樣調(diào)查中,“無能力回答”(例如:身體、語言障礙,不識字等)的情況相對較少,“無法接觸到樣本單位”的情況較多。近些年,在中國城市范圍內(nèi),如果進(jìn)行以個人為樣本單位的概率抽樣調(diào)查,并且以居民的戶籍資料為抽樣框的話,那么“無法接觸到樣本單位”的比例會比較高,主要原因在于中國社會中處于流動中的人群正在擴(kuò)大,人戶分離的情況越來越多。這些人多數(shù)人因無法聯(lián)系上而成為單元無回答的樣本。“拒訪”的比例受調(diào)查方式(例如:入戶調(diào)查和電話調(diào)查)、問卷內(nèi)容(例如:敏感性問題)、調(diào)查地點(diǎn)(例如:城市和農(nóng)村)、采訪員素質(zhì)以及被調(diào)查人群的特征等諸多方面的影響。在抽樣調(diào)查中,如何降低拒訪率一直是調(diào)查者所必須關(guān)注的問題。
項(xiàng)目無回答一般包括“不知道”(don’t know)、“拒絕回答”(refuse to answer)、“沒有觀點(diǎn)(no opinion)” 、“不適用”(no applicable)、“沒有答案”(no answer)等多種情況。其中,不知道、拒絕回答、沒有觀點(diǎn)比較容易理解,都是受訪人給出的直接的答案。“不適用”通常是因?yàn)閱柧碇械奶鴨柖詣淤x值的,例如,對于詢問受訪人“是否參加了工會”這道題,如果是從事農(nóng)業(yè)生產(chǎn)的受訪人,就應(yīng)該屬于不適用回答這道題目的情況,該題目會被跳過去,系統(tǒng)自動產(chǎn)生的數(shù)值就是代表“不適用”!皼]有答案”通常是指那些應(yīng)該回答而沒有回答的情況,例如,有可能是訪問員漏問了,也有可能詢問之后忘記記錄答案。
2.什么是缺失值
缺失值(missing value)簡單地概括就是缺失的觀測值。缺失值的型態(tài)有兩種(吳明隆,2010),一為系統(tǒng)自定義的缺失值,二為使用者自定義的缺失值。
所謂系統(tǒng)自定義的缺失值,是指本來就不適用,并且也沒有采集到觀測數(shù)據(jù)的情形,在社會調(diào)查中通常發(fā)生在一些應(yīng)該進(jìn)行跳問的題目中,例如,需要詢問職級的時候,對于從事農(nóng)業(yè)生產(chǎn)的人,就不再詢問職級了,那么在職級的變量中,凡是回答從事農(nóng)業(yè)生產(chǎn)的樣本,就會由系統(tǒng)自定義為缺失值。在本書中稱之為“不適用”,對于這種情形導(dǎo)致的缺失值,不用進(jìn)行插補(bǔ)或其他處理,因?yàn)樵诜治龆嘧兞恐g關(guān)系的時候,這些樣本在某種情況下不適于納入分析,例如,分析職級對人們工作滿意度的影響,那些從事農(nóng)業(yè)生產(chǎn)的樣本不應(yīng)該被納入分析。
第二類是研究者自定義的缺失值,是指本來已經(jīng)采集到了數(shù)據(jù),但是這個數(shù)據(jù)根據(jù)研究者的判斷被定義為缺失值。例如,在一次調(diào)查中,對于職業(yè)變量,受訪人回答“不知道”,研究者根據(jù)一些條件最終將其定義為缺失值;也有一種情況是合理的一些值,但是研究者認(rèn)為這些值屬于特異個案,不滿足其研究需求,也會將其定義為缺失值,例如,在詢問受訪人個人一個月的文化消費(fèi)時,如果有1個樣本回答“20萬元”,研究者可能就會將其定義為缺失值。
對于那些需要研究者來自定義的缺失值,研究者首先要進(jìn)行判斷工作。即,哪些值應(yīng)該或需要被定義為缺失值。這些值里面,最常見的就是項(xiàng)目無回答。在項(xiàng)目無回答中,“沒有答案”通常是由于訪員漏問、漏記或者造成的,一般情況下都屬于“缺失值”。
但是“不知道”、“拒絕回答”、“沒有觀點(diǎn)”則需要根據(jù)題目本身的含義、研究者的測量目標(biāo)和受訪人的實(shí)際情況而定,很難簡單地制定統(tǒng)一的判定標(biāo)準(zhǔn)。例如,當(dāng)詢問受訪人是否滿意現(xiàn)在的生活時,受訪人應(yīng)該有能力或者有信息幫助他能夠回答,如果選擇了“沒有觀點(diǎn)”,則可以視為“缺失值”。但是當(dāng)問到受訪人對于“政府應(yīng)該規(guī)定個人收入的最高限額”這種說法的態(tài)度時,如果選擇了“沒有觀點(diǎn)”,則可以視為有效回答,因?yàn)樗峁┝擞行У男畔,可能真的是沒有任何觀點(diǎn)。
對于知識、信息類的題目,“不知道”通常是有效的答案,會參與統(tǒng)計分析的過程,例如:詢問政治知識的題目“您知道美國現(xiàn)任總統(tǒng)是誰嗎?”,如果回答不知道,則可以視為有效回答,這部分人要作為一類人來進(jìn)行統(tǒng)計分析,而不能直接視作缺失值。
在項(xiàng)目無回答的幾種類型中,受訪人回答“不知道”的情況通常相對比較多一些,因此,如果把“不知道”視為缺失值的話,更有可能對樣本估計產(chǎn)生影響,但是缺失值的比例到多大時會成為問題,目前還沒有一個標(biāo)準(zhǔn),要依據(jù)研究目的、研究內(nèi)容,以及缺失值的分布特征而定。有些學(xué)者認(rèn)為,通常情況下,小于5%的缺失值應(yīng)該不會產(chǎn)生什么問題(Gilljam and Granberg,1993)。
如果缺失值存在,研究者必須首先對缺失值進(jìn)行處理,然后才能進(jìn)行統(tǒng)計分析。
……