sas中如何將數(shù)據(jù)表格和矩陣轉(zhuǎn)換 幾種常見(jiàn)的缺失數(shù)據(jù)插補(bǔ)方法?
幾種常見(jiàn)的缺失數(shù)據(jù)插補(bǔ)方法?(一)個(gè)案剔除法(Listwise Deletion)最常見(jiàn)、最簡(jiǎn)單的處理缺失數(shù)據(jù)的方法是用個(gè)案清除干凈法(listwisedeletion),確實(shí)是很多統(tǒng)計(jì)軟件(如SPS
幾種常見(jiàn)的缺失數(shù)據(jù)插補(bǔ)方法?
(一)個(gè)案剔除法(Listwise Deletion)
最常見(jiàn)、最簡(jiǎn)單的處理缺失數(shù)據(jù)的方法是用個(gè)案清除干凈法(listwise
deletion),確實(shí)是很多統(tǒng)計(jì)軟件(如SPSS和SAS)設(shè)置成的缺失值處理方法。在這種方法中要是任何一個(gè)變量所含的不完全數(shù)據(jù)的話(huà),就把相隨機(jī)的個(gè)案從分析中別除。假如缺失值所占比例比較小的話(huà),這一方法相當(dāng)管用。再說(shuō)詳細(xì)多大的缺失比例算是“小”比例,專(zhuān)家們意見(jiàn)也修真者的存在較高的差距。有學(xué)者以為應(yīng)在5%以下,也有學(xué)者以為20%以下表就行。但他,這種方法卻有很大的局限性。它是以減少樣本量來(lái)?yè)Q取信息的完備,會(huì)倒致資源的大量浪費(fèi),扔掉了大量隱藏地在這些對(duì)象中的信息。在樣本量較小的情況下,刪除掉少量對(duì)象就絕對(duì)無(wú)法十分嚴(yán)重影響大到數(shù)據(jù)的客觀性和結(jié)果的正確性。但,當(dāng)不完全數(shù)據(jù)所占比例較高,特別是當(dāng)缺數(shù)據(jù)非必掉分布特點(diǎn)時(shí),這種方法可能造成數(shù)據(jù)發(fā)生了什么明顯脫離,最大限度地結(jié)論錯(cuò)誤`的結(jié)論。
(二)均值替換法(Mean Imputation)
在變量更而所缺失的數(shù)據(jù)量又少見(jiàn)龐然的時(shí)候,個(gè)案拔干凈法就遇見(jiàn)困難,是因?yàn)樵S多有用的數(shù)據(jù)也另外被清除干凈。不斷著這一問(wèn)題,研究者數(shù)次了各種各樣的辦法。其中的一個(gè)方法是均值替換法(mean
imputation)。我們將變量的屬性統(tǒng)稱(chēng)數(shù)值型和非數(shù)值型來(lái)各參與處理。如果沒(méi)有不完全值是數(shù)值型的,就依據(jù)什么該變量在其他所有對(duì)象的取值的平均值來(lái)再填充該不完全的變量值;要是缺乏值是非數(shù)值型的,就據(jù)統(tǒng)計(jì)學(xué)中的眾數(shù)原理,用該變量在其他所有對(duì)象的取值次數(shù)最多的值來(lái)短板補(bǔ)齊該功能缺失的變量值。但這種方產(chǎn)生有偏大概,所以的確被推祟。均值替換法也種方便簡(jiǎn)潔、飛快的缺失數(shù)據(jù)處理方法??梢允褂镁堤鎿Q法插補(bǔ)缺失數(shù)據(jù),對(duì)該變量的均值肯定不會(huì)產(chǎn)生影響。但這種方法是確立在已經(jīng)副本失衡(MCAR)的假設(shè)之上的,不過(guò)會(huì)導(dǎo)致變量的方差和標(biāo)準(zhǔn)差變小。
(三)熱卡填充法(Hotdecking)
對(duì)此一個(gè)乾坤二卦缺乏值的變量,熱卡填充法在數(shù)據(jù)庫(kù)中找到一個(gè)與它最有幾分相似的對(duì)象,接著用這個(gè)幾乎完全一樣對(duì)象的值來(lái)通過(guò)再填充。有所不同的問(wèn)題可能會(huì)選用天然不同的標(biāo)準(zhǔn)來(lái)對(duì)相似參與直接判斷。最常見(jiàn)的是不使用相關(guān)系數(shù)矩陣來(lái)確認(rèn)哪個(gè)變量(如變量Y)與缺失值的地方變量(如變量X)最查找。然后把所有個(gè)案按Y的取值大小通過(guò)排序。這樣的話(huà)變量X的缺失值就這個(gè)可以用排在缺失值前的那個(gè)個(gè)案的數(shù)據(jù)來(lái)替代了。與均值替換法而言,依靠熱卡填充后法插補(bǔ)數(shù)據(jù)后,其變量的標(biāo)準(zhǔn)差與插補(bǔ)前比較比較將近。但在回歸方程中,可以使用熱卡再填充法不容易使得回歸方程的誤差大小改變,參數(shù)估計(jì)變的不穩(wěn)定啊,但這種方法可以使用不便,都很前后歷時(shí)。
(四)回歸替換法(Regression Imputation)
重臨修改成法是需要必須你選若干個(gè)分析預(yù)測(cè)不完全值的自變量,然后把確立回歸方程肯定缺失值,即用功能缺失數(shù)據(jù)的條件期望值對(duì)缺失值通過(guò)重命名。與上述全部幾種插補(bǔ)方法比較,該方法憑借了數(shù)據(jù)庫(kù)中最好不要多的信息,而且一些統(tǒng)計(jì)軟件(如Stata)也已經(jīng)還能夠就負(fù)責(zé)執(zhí)行該功能。但該方法也有諸多弊端,第一,這雖然是三個(gè)無(wú)偏肯定,只不過(guò)卻不容易輕視任務(wù)道具誤差,失算標(biāo)準(zhǔn)差和其他未知力量性質(zhì)的測(cè)量值,而且這一問(wèn)題會(huì)伴隨著功能缺失信息的增多而變得十分嚴(yán)重。第二,研究者要題中必然失衡值的地方的變量與其他變量修真者的存在線(xiàn)性關(guān)系,有些時(shí)候這種關(guān)系是不存在的。
(五)多重其它的東西法(Multiple Imputation)
重物估算是由Rubin等人于1987年建立起起來(lái)的一種數(shù)據(jù)擴(kuò)充和統(tǒng)計(jì)分析方法,充當(dāng)簡(jiǎn)單估算的改進(jìn)產(chǎn)物。簡(jiǎn)單,多厚估算技術(shù)用一系列肯定的值來(lái)修改成每一個(gè)缺失值,以思想活動(dòng)被重命名的缺失數(shù)據(jù)的不確定性。然后再,用標(biāo)準(zhǔn)的統(tǒng)計(jì)分析過(guò)程對(duì)三次替換后有一種的若干個(gè)數(shù)據(jù)集參與分析。之后,把不知從何而來(lái)于各個(gè)數(shù)據(jù)集的統(tǒng)計(jì)結(jié)果進(jìn)行綜合,得到總體參數(shù)的估計(jì)值。導(dǎo)致多貴估算技術(shù)并并非用單個(gè)體的值來(lái)全部替換缺失值,完全是趁機(jī)產(chǎn)生功能缺失值的一個(gè)隨機(jī)樣本,這種方法思想活動(dòng)出了的原因數(shù)據(jù)缺失而可能導(dǎo)致的不確定性,也能產(chǎn)生更加最有效的統(tǒng)計(jì)斷定。結(jié)合這種方法,研究者也可以都很不容易地,在不親手毀滅任何數(shù)據(jù)的情況下對(duì)缺乏數(shù)據(jù)的未知的東西性質(zhì)進(jìn)行猜想。NORM統(tǒng)計(jì)軟件可以相對(duì)于省事地你操作該方法
經(jīng)濟(jì)學(xué)需要什么方面的數(shù)學(xué)知識(shí)?
學(xué)經(jīng)濟(jì)學(xué),要有數(shù)學(xué)知識(shí)的準(zhǔn)備是:
1、微積分(從極限的定義就開(kāi)始,一直在到重物積分)。
2、概率論(非連續(xù)的、后的各種概率模型、各種密度函數(shù)、概率函數(shù)、貝葉斯先驗(yàn)后驗(yàn)等等)。
3、數(shù)理統(tǒng)計(jì)(大數(shù)定律、中心極限定理、各種統(tǒng)計(jì)指標(biāo),期望、方差等等的推到和應(yīng)用、做統(tǒng)計(jì)模型等等)
4、線(xiàn)性代數(shù)(行列式、矩陣、矩陣的應(yīng)用)
5、實(shí)變函數(shù)、泛函分析、隨機(jī)過(guò)程、博弈論,這些必要的例如C/Matlab或其他編程工具的學(xué)習(xí),再者,替進(jìn)行實(shí)證分析,R語(yǔ)言也可以SPSS、SAS等統(tǒng)計(jì)分析程序建議也要完全掌握一門(mén)。