數(shù)據(jù)挖掘 異常值剔除方法有哪些?
異常值剔除方法有哪些?統(tǒng)計(jì)學(xué)中剔除異常數(shù)據(jù)的方法很多,但在檢測(cè)和測(cè)試中經(jīng)常用的方法有2種: 1- 拉依達(dá)準(zhǔn)則(也稱之為3σ準(zhǔn)則): 很簡(jiǎn)單,就是首先求得n次獨(dú)立檢測(cè)結(jié)果的實(shí)驗(yàn)標(biāo)準(zhǔn)差s和殘差,│殘差│大
異常值剔除方法有哪些?
統(tǒng)計(jì)學(xué)中剔除異常數(shù)據(jù)的方法很多,但在檢測(cè)和測(cè)試中經(jīng)常用的方法有2種:
1- 拉依達(dá)準(zhǔn)則(也稱之為3σ準(zhǔn)則): 很簡(jiǎn)單,就是首先求得n次獨(dú)立檢測(cè)結(jié)果的實(shí)驗(yàn)標(biāo)準(zhǔn)差s和殘差,│殘差│大于3s的測(cè)量值即為異常值刪去,然后重新反復(fù)計(jì)算,將所有異常值剔除。 但這個(gè)方法有局限,數(shù)據(jù)樣本必須大于10,一般要求大于50。所以,這個(gè)方法現(xiàn)在不常用了,國(guó)標(biāo)里面已經(jīng)剔除該方法!
2- 格拉布斯準(zhǔn)則(Grubbs): 這個(gè)方法比較常用,尤其是我們檢測(cè)領(lǐng)域。 方法也很簡(jiǎn)單,還是首先求得n次獨(dú)立檢測(cè)結(jié)果的實(shí)驗(yàn)標(biāo)準(zhǔn)差s和殘差,│殘差│/s的值大于 g(n)的測(cè)量值即為異常值,可刪去;同樣重新反復(fù)計(jì)算之,將所有異常值剔除。 g(n)指 臨界系數(shù),可直接查表獲得. 95%的系數(shù)可參見(jiàn)下表:
如何剔除異常值?
可以在數(shù)據(jù)菜單中把異常個(gè)案標(biāo)先出來(lái),步驟是:數(shù)據(jù)——》標(biāo)志異常個(gè)案,個(gè)案識(shí)別變量可以取數(shù)據(jù)集中取值不同的變量。之后SPSS會(huì)自動(dòng)把所有異常個(gè)案的值以及為什么是異常值標(biāo)出來(lái),如果你要剔除再手動(dòng)即可
spss異常值剔除,用什么方法?
常用的方法有:
1、可以通過(guò)“分析”下“描述統(tǒng)計(jì)“下“頻率”的”繪制“直方圖”,看圖發(fā)現(xiàn)頻數(shù)出現(xiàn)最少的值,就可能是異常值,但還要看距離其它情況的程度。
2、可通過(guò)“分析”下的“描述統(tǒng)計(jì)”下的“探索”下的“繪制”選項(xiàng)的“葉莖圖”,看個(gè)案偏離箱體邊緣(上端、下端)的距離是箱體的幾倍,“○”代表在1.5-3倍之間(離群點(diǎn)),“*”代表超過(guò)3倍(極端離群點(diǎn))。
3、可以通過(guò)“分析”下“描述統(tǒng)計(jì)“下“描述”下的選項(xiàng)“將標(biāo)準(zhǔn)化存為變量Z”,選擇相應(yīng)的變量,“確定”。將生成新變量,如果值超過(guò)2,肯定是異常值。
如何用統(tǒng)計(jì)方法去除一組數(shù)中的異常值?
可以選擇以下方法。用線性回歸的辦法求得某一點(diǎn)到直線最遠(yuǎn),去除這一點(diǎn)即可。異常值也稱離群值,具體地說(shuō),判斷標(biāo)準(zhǔn)依據(jù)實(shí)際情況,根據(jù)業(yè)務(wù)知識(shí)及實(shí)際需要而定。要是一般地說(shuō),可以用公式計(jì)算:upper adjacent value = 75th percentile (75th percentile – 25th percentile) * 1.5。lower adjacent value = 25th percentile – (75th percentile – 25th percentile) * 1.5。擴(kuò)展資料:計(jì)算統(tǒng)計(jì)量:μ=(X1 X2 … Xn)/n。s=(∑(Xi-μ)/(n-1))?(i=1,2…n)。Gn=(X(n)-μ)/s。式中μ——樣本平均值;s——樣本標(biāo)準(zhǔn)差;Gn——格拉布斯檢驗(yàn)統(tǒng)計(jì)量。確定檢出水平α,查表(見(jiàn)GB4883)得出對(duì)應(yīng)n,α的格拉布斯檢驗(yàn)臨界值G1-α(n)。當(dāng)Gn>G1-α(n),則判斷Xn為異常值,否則無(wú)異常值。給出剔除水平α’的G1-α’(n),當(dāng)當(dāng)Gn>G1-α’(n)時(shí),Xn為高度異常值,應(yīng)剔除。