Articles

Nestranný odhad směrodatné odchylky

výše uvedený materiál, aby se znovu zdůraznil bod, se vztahuje pouze na nezávislá data. Data z reálného světa však tento požadavek často nesplňují; jsou autokorelovaná (známá také jako sériová korelace). Jako jeden příklad, po sobě jdoucí hodnoty z měření, nástroj, který zahrnuje nějakou formu „vyhlazení“ (více správně, low-pass filtrování) proces bude autocorrelated, protože každá konkrétní hodnota je vypočtena z kombinace starší a novější údaje.

odhady rozptylu a směrodatné odchylky autokorelovaných dat budou zkreslené. Očekávaná hodnota výběrový rozptyl,

E = σ 2 {\displaystyle {\rm {E}}\left=\sigma ^{2}\left}

{\displaystyle {\rm {E}}\left=\sigma ^{2}\left}

, kde n je velikost vzorku (počet měření) a ρ k {\displaystyle \rho _{k}}

\rho _{k}

je autokorelační funkce (ACF) údajů. (Všimněte si, že výraz v závorkách je jednoduše jeden mínus průměrná očekávaná autokorelace pro odečty.) Pokud ACF sestává z kladných hodnot, pak odhad rozptylu (a jeho druhá odmocnina, směrodatná odchylka) bude zkreslený nízký. To znamená, že skutečná variabilita dat bude větší než variabilita indikovaná nekorigovaným rozptylem nebo výpočtem směrodatné odchylky. Je nezbytné uznat, že pokud tento výraz se používá ke korekci zkreslení, dělením odhad s 2 {\displaystyle y^{2}}

s^{2}

podle množství v závorkách výše, pak ACF musí být známo, analyticky, nikoli na základě odhadu z dat. Je to proto, že odhadovaný ACF bude sám o sobě zaujatý.

Příklad zaujatosti ve standardní deviationEdit

Pro ilustraci rozsahu zkreslení ve standardní odchylka, zvažte dataset, který se skládá ze sekvenční čtení z nástroj, který používá konkrétní digitální filtr, jehož ACF je známo, že být dána tím,

ρ k = ( 1 − α ) k {\displaystyle \rho _{k}=(1-\alpha )^{k}}

{\displaystyle \rho _{k}=(1-\alpha )^{k}}

kde α je parametr filtru, a to trvá hodnoty od nuly do jednoty. ACF je tedy pozitivní a geometricky klesá.

zkreslení směrodatné odchylky pro autokorelovaná data.

obrázek ukazuje poměr odhad směrodatné odchylky na své známé hodnoty (které lze vypočítat analyticky za tento digitální filtr), pro několik nastavení α jako funkce velikosti vzorku n. Měnící se α mění rozptyl snížení poměru filtr, který je známý

V. R R = α 2 − α {\displaystyle {\rm {VRR}}={\frac {\alpha }{2-\alpha }}}

{\displaystyle {\rm {VRR}}={\frac {\alpha }{2-\alpha }}}

tak, že menší hodnoty α vyústit v další snížení rozptylu, nebo „vyhlazení.“Předpojatost je indikován hodnoty na svislé ose odlišná od jednoty, která je, pokud tam byly žádné zkreslení, poměr odhaduje známo, že směrodatná odchylka by byla jednota. Je zřejmé, že u skromných velikostí vzorku může dojít k významnému zkreslení (faktor dva nebo více).

rozptyl průměruedit

často je zajímavé odhadnout rozptyl nebo směrodatnou odchylku odhadovaného průměru spíše než rozptyl populace. Když jsou data autokorelována, má to přímý vliv na teoretický rozptyl průměru vzorku, který je

V A r = σ 2 n. {\displaystyle {\rm {Var}}\left={\frac {\sigma ^{2}}{n}}\left.}

{\displaystyle {\rm {Var}}\left={\frac {\sigma ^{2}}{n}}\left.}

rozptyl průměru vzorku lze potom odhadnout nahrazením odhadu σ2. Jeden takový odhad lze získat z rovnice pro E uvedené výše. Nejprve definujte následující konstanty, opět za předpokladu známého ACF:

γ 1 ≡ 1 − 2 n − 1 ∑ k = 1 n − 1 ( 1 − k n ) ρ k {\displaystyle \gamma _{1}\equiv 1-{\frac {2}{n-1}}\sum _{k=1}^{n-1}{\left(1-{\frac {k}{n}}\right)}\rho _{k}}

{\displaystyle \gamma _{1}\equiv 1-{\frac {2}{n-1}}\sum _{k=1}^{n-1}{\left(1-{\frac {k}{n}}\right)}\rho _{k}}

γ 2 ≡ 1 + 2 ∑ k = 1 n − 1 ( 1 − k n ) ρ k {\displaystyle \gamma _{2}\equiv 1+2\sum _{k=1}^{n-1}{\left(1-{\frac {k}{n}}\right)}\rho _{k}}

{\displaystyle \gamma _{2}\equiv 1+2\sum _{k=1}^{n-1}{\left(1-{\frac {k}{n}}\right)}\rho _{k}}

E = σ 2 γ 1 ⇒ E = σ 2 {\displaystyle {\rm {E}}\left=\sigma ^{2}\gamma _{1}\Rightarrow {\rm {E}}\left=\sigma ^{2}}

{\displaystyle {\rm {E}}\left=\sigma ^{2}\gamma _{1}\Rightarrow {\rm {E}}\left=\sigma ^{2}}

Tento říká, že očekávaná hodnota množství získaného dělením pozorovány výběrový rozptyl, tím, že korekční faktor γ 1 {\displaystyle \gamma _{1}}

\gamma _{1}

dává nestranný odhad rozptylu. Podobně, re-psaní výše uvedených výrazech pro rozptyl střední, V a r = σ 2 n γ 2 {\displaystyle {\rm {Var}}\left={\frac {\sigma ^{2}}{n}}\gamma _{2}}

{\displaystyle {\rm {Var}}\left={\frac {\sigma ^{2}}{n}}\gamma _{2}}

a nahrazující odhad pro σ 2 {\displaystyle \sigma ^{2}}

\sigma ^{2}

dává V a r = E = E {\displaystyle {\rm {Var}}\left={\rm {E}}\left={\rm {E}}\left}

{\displaystyle {\rm {Var}}\left={\rm {E}}\left={\rm {E}}\left}

, který je nezaujatý odhad rozptylu průměru z hlediska pozorovaného rozptylu vzorku a známých veličin. Pokud autocorrelations ρ k {\displaystyle \rho _{k}}

\rho _{k}

jsou identicky nulové, tento výraz redukuje na známý výsledek pro rozptyl střední hodnoty pro nezávislá data. Účinek operátoru očekávání v těchto výrazech spočívá v tom, že rovnost platí v průměru (tj.

Odhad směrodatné odchylky populationEdit

S výrazy nad zahrnující rozptyl v populaci a odhad střední hodnoty populace, by se zdálo logické, prostě odmocníme tyto výrazy získat nestranný odhad příslušné směrodatné odchylky. Nicméně je pravda, že, protože očekávání jsou integrály,

E ≠ E ≠ σ γ 1 {\displaystyle {\rm {E}}\neq {\sqrt {{\rm {E}}\left}}\neq \sigma {\sqrt {\gamma _{1}}}}

{\displaystyle {\rm {E}}\neq {\sqrt {{\rm {E}}\left}}\neq \sigma {\sqrt {\gamma _{1}}}}

Místo toho, předpokládejme, že funkce θ existuje takové, že nestranný odhad směrodatné odchylky lze zapsat

E = σ θ γ 1 ⇒ σ ^ = y θ γ 1 {\displaystyle {\rm {E}}=\sigma \theta {\sqrt {\gamma _{1}}}\Rightarrow {\hat {\sigma }}={\frac {s}{\theta {\sqrt {\gamma _{1}}}}}}

{\displaystyle {\rm {E}}=\sigma \theta {\sqrt {\gamma _{1}}}\Rightarrow {\hat {\sigma }}={\frac {s}{\theta {\sqrt {\gamma _{1}}}}}}

a θ závisí na velikosti vzorku n a ACF. V případě NID (normálně a nezávisle distribuovaných) dat je radicand unity a θ je pouze funkce c4 uvedená v první části výše. Stejně jako u c4 se θ blíží jednotě, jak se velikost vzorku zvětšuje (stejně jako γ1).

To může být prokázáno prostřednictvím simulační modelování že ignorování θ (to znamená, že je třeba jednoty) a pomocí

E ≈ σ γ 1 ⇒ σ ^ ≈ y γ 1 {\displaystyle {\rm {E}}\approx \sigma {\sqrt {\gamma _{1}}}\Rightarrow {\hat {\sigma }}\ca {\frac {s}{\sqrt {\gamma _{1}}}}}

{\displaystyle {\rm {E}}\approx \sigma {\sqrt {\gamma _{1}}}\Rightarrow {\hat {\sigma }}\ca {\frac {s}{\sqrt {\gamma _{1}}}}}

odstraňuje všechny, ale pár procent zkreslení způsobené autokorelace, takže to snížené zkreslení odhad, spíše než nestranný odhad. V praktických situacích měření, toto snížení zkreslení může být významné, a užitečné, i když zůstane nějaké relativně malé zkreslení. Obrázek výše ukazuje příklad zaujatosti ve standardní odchylka vs. velikost vzorku, je na základě této aproximace; skutečná zaujatost by být o něco větší, než je uvedeno v těchto grafů, protože transformace bias θ není v ceně.

Odhad směrodatné odchylky ze vzorku meanEdit

nezaujatý rozptyl znamená z hlediska populačního rozptylu a ACF je dána tím,

V. r = σ 2 n γ 2 {\displaystyle {\rm {Var}}\left={\frac {\sigma ^{2}}{n}}\gamma _{2}}

{\displaystyle {\rm {Var}}\left={\frac {\sigma ^{2}}{n}}\gamma _{2}}

a protože nejsou tam žádné očekávané hodnoty zde, v tomto případě odmocnina mohou být přijata, tak, že

σ x = σ n γ 2 {\displaystyle \sigma _{\overline {x}}={\frac {\sigma }{\sqrt {n}}}{\sqrt {\gamma _{2}}}}

{\displaystyle \sigma _{\overline {x}}={\frac {\sigma }{\sqrt {n}}}{\sqrt {\gamma _{2}}}}

Pomocí nestranný odhad výše pro výraz σ, odhad směrodatné odchylky v průměru pak bude

σ ^ x = y θ n γ 2 γ 1 {\displaystyle {\hat {\sigma }}_{\overline {x}}={\frac {s}{\theta {\sqrt {n}}}}{\frac {\sqrt {\gamma _{2}}}{\sqrt {\gamma _{1}}}}}

{\displaystyle {\hat {\sigma }}_{\overline {x}}={\frac {s}{\theta {\sqrt {n}}}}{\frac {\sqrt {\gamma _{2}}}{\sqrt {\gamma _{1}}}}}

Pokud jsou data NID, takže že ACF zmizí, tím se snižuje

σ ^ x = s c 4 n {\displaystyle {\hat {\sigma }}_{\overline {x}}={\frac {s}{c_{4}{\sqrt {n}}}}}

{\displaystyle {\hat {\sigma }}_{\overline {x}}={\frac {s}{c_{4}{\sqrt {n}}}}}