數(shù)據(jù)庫查詢中怎么計(jì)算多個(gè)平均值 分類數(shù)據(jù)怎么補(bǔ)齊缺失值?
分類數(shù)據(jù)怎么補(bǔ)齊缺失值?(A)病例排除法(列表刪除)處理缺失數(shù)據(jù)最常見、最簡單的方法是使用案例排除法(列表法刪除)也是很多統(tǒng)計(jì)軟件(如SPSS、SAS)默認(rèn)的缺失值處理方法。在這種方法中,如果任何變量
分類數(shù)據(jù)怎么補(bǔ)齊缺失值?
(A)病例排除法(列表刪除)
處理缺失數(shù)據(jù)最常見、最簡單的方法是使用案例排除法(列表法
刪除)也是很多統(tǒng)計(jì)軟件(如SPSS、SAS)默認(rèn)的缺失值處理方法。在這種方法中,如果任何變量包含缺失數(shù)據(jù),相應(yīng)的案例將從分析中排除。如果缺失值的比例相對較小,這種方法非常有效。至于缺失的比例是多少 "小 ",專家之間的差距也很大。有學(xué)者認(rèn)為應(yīng)該在5%以下,也有學(xué)者認(rèn)為應(yīng)該在20%以下。但是,這種方法有很大的局限性。就是減少樣本量來換取信息的完備性,這樣會(huì)造成大量的資源浪費(fèi),丟棄大量隱藏在這些對象中的信息。在樣本量很小的情況下,刪除幾個(gè)對象就足以嚴(yán)重影響數(shù)據(jù)的客觀性和結(jié)果的正確性。因此,當(dāng)缺失數(shù)據(jù)比例較大時(shí),尤其是缺失數(shù)據(jù)是非隨機(jī)分布時(shí),這種方法可能會(huì)導(dǎo)致數(shù)據(jù)偏差,從而得出錯(cuò)誤的結(jié)論。
(二)平均替代法(Mean substitution)
當(dāng)變量非常重要且缺失數(shù)據(jù)量巨大時(shí),案例排除遇到困難,因?yàn)樵S多有用的數(shù)據(jù)也會(huì)被排除。圍繞這個(gè)問題,研究人員嘗試了各種方法。其中之一就是均值替換法(mean)
插補(bǔ)).我們將變量的屬性分為數(shù)值型和非數(shù)值型來分別處理。如果缺失值為數(shù)值,則根據(jù)該變量在所有其他對象中的平均值填充缺失變量值;如果缺失值為非數(shù)值型,根據(jù)統(tǒng)計(jì)學(xué)中的眾數(shù)原理,缺失變量值用該變量在所有其他對象中出現(xiàn)次數(shù)最多的值填充。但是這種方產(chǎn)生有偏的估計(jì),所以不被推崇。均值替換法也是一種簡單快速的處理缺失數(shù)據(jù)的方法。用均值替換法對缺失數(shù)據(jù)進(jìn)行插值,不會(huì)影響這個(gè)變量的均值估計(jì)。然而,這種方法是基于完全隨機(jī)缺失(MCAR)的假設(shè),它會(huì)降低變量的方差和標(biāo)準(zhǔn)差。
(3)熱板
對于有缺失值的變量,熱卡填充法在數(shù)據(jù)庫中找到一個(gè)與它最相似的對象,然后用這個(gè)相似對象的值填充。不同的問題可能會(huì)選擇不同的標(biāo)準(zhǔn)來判斷相似性。最常見的方法是利用相關(guān)系數(shù)矩陣來確定哪個(gè)變量(如變量Y)與缺失值所在的變量(如變量X)最相關(guān)。然后按照y的值對所有案例進(jìn)行排序,那么變量x的缺失值就可以用缺失值之前的案例的數(shù)據(jù)來代替。與均值替換法相比,采用熱卡填充法對數(shù)據(jù)進(jìn)行插值后,其變量的標(biāo)準(zhǔn)差。它接近于插值之前的值。但在回歸方程中,采用熱卡填充法容易增加回歸方程的誤差,使參數(shù)估計(jì)不穩(wěn)定,而且這種方法不方便,費(fèi)時(shí)。
回歸替代法(回歸插補(bǔ))
回歸替換法首先需要選取幾個(gè)自變量來預(yù)測缺失值,然后建立回歸方程來估計(jì)缺失值,即用缺失數(shù)據(jù)的條件期望值替換缺失值。與上述插值方法相比,這種方法使用了數(shù)據(jù)庫中盡可能多的信息,一些統(tǒng)計(jì)軟件(如Stata)已經(jīng)能夠直接執(zhí)行這一功能。然而,這種方法也有許多缺點(diǎn)。第一,雖然是無偏估計(jì),但是容易忽略隨機(jī)誤差,低估標(biāo)準(zhǔn)差等未知測量值,而且這個(gè)問題會(huì)隨著缺失信息的增加而變得更加嚴(yán)重。其次,研究者必須假設(shè)缺失值的變量與其他變量之間存在線性關(guān)系,而很多時(shí)候這種關(guān)系并不存在。
(5)多重替代法(multipl
數(shù)據(jù)庫中統(tǒng)計(jì)每個(gè)學(xué)生的平均成績怎么做?
使用avg()函數(shù)計(jì)算平均值select name,avg (grade)作為groupby name表中的平均等級。