Articles

Onbevooroordeelde schatting van de standaardafwijking

het bovenstaande materiaal, om het punt opnieuw te benadrukken, is alleen van toepassing op onafhankelijke gegevens. Echter, real-world data vaak niet voldoen aan deze eis; het is autocorrelated (ook bekend als seriële correlatie). Als voorbeeld, de opeenvolgende metingen van een meetinstrument dat een bepaalde vorm van “smoothing” (juister, low-pass filtering) proces bevat zal autocorrelated, omdat een bepaalde waarde wordt berekend uit een combinatie van de eerdere en latere metingen.

schattingen van de variantie, en standaardafwijking, van autocorelateerde gegevens zullen vertekend zijn. De verwachte waarde van de steekproefvariantie is

E = σ 2 {\displaystyle {\rm {E}}\left=\sigma ^{2}\left}

{\displaystyle {\rm {E}}\left=\sigma ^{2}\left}

waarbij n de grootte van de steekproef (aantal metingen) en ρ k {\displaystyle \rho _{k}}

\rho _{k}

is de autocorrelatie functie (ACF) van de gegevens. (Merk op dat de uitdrukking tussen de haakjes is gewoon een minus de gemiddelde verwachte autocorrelatie voor de lezingen.) Als de ACF uit positieve waarden bestaat dan zal de schatting van de variantie (en zijn vierkantswortel, de standaardafwijking) laag zijn. Dat wil zeggen, de werkelijke variabiliteit van de gegevens zal groter zijn dan die welke wordt aangegeven door een niet-gecorrigeerde variantie of standaardafwijking berekening. Het is essentieel om te erkennen dat, als deze uitdrukking gebruikt moet worden om de bias te corrigeren, door de schatting s 2 {\displaystyle S^{2}}

s^{2}

te delen door de hoeveelheid tussen haakjes hierboven, dan moet de ACF analytisch bekend zijn, niet via schatting uit de gegevens. Dit komt omdat de geschatte ACF zelf bevooroordeeld zal zijn.

Voorbeeld van een vooroordeel in de standaard deviationEdit

ter illustratie van de omvang van de vertekening in de standaarddeviatie, overweeg dan een dataset die bestaat uit opeenvolgende metingen van een instrument dat gebruik maakt van een specifieke digitale filter waarvan de ACF is een bekend gegeven worden door

ρ k = ( 1 − α ) k {\displaystyle \rho _{k}=(1-\alpha )^{k}}

{\displaystyle \rho _{k}=(1-\alpha )^{k -}}

waar α is de parameter van het filter, en het duurt waarden van nul tot eenheid. De ACF is dus positief en Meetkundig afnemend.

Bias in standaardafwijking voor autocorrelateerde gegevens.

de figuur toont de verhouding tussen de geschatte standaardafwijking en de bekende waarde (die analytisch kan worden berekend voor dit digitale filter) voor verschillende instellingen van α als functie van monstergrootte n. Het veranderen van α verandert de variantie − Reductieverhouding van het filter, waarvan bekend is dat het

V R R = α 2-α {\displaystyle {\rm {VRR}}={\frac {\alpha }{2-\alpha }}}

{\displaystyle {\RM {VRR}}={\frac {\alpha }{2 - \alpha}}}}

so dat kleinere waarden van α resulteren in meer variantievermindering, of “gladmaken.”De bias wordt aangegeven door waarden op de verticale as verschillend van eenheid; dat wil zeggen, als er geen bias, de verhouding van de geschatte tot bekende standaardafwijking eenheid zou zijn. Voor bescheiden steekproefomvang kan er duidelijk sprake zijn van een significante bias (een factor twee of meer).

variantie van het gemiddelde

Het is vaak van belang om de variantie of standaardafwijking van een geschat gemiddelde te schatten in plaats van de variantie van een populatie. Wanneer de gegevens autocorrelatief zijn, heeft dit een direct effect op de theoretische variantie van het steekproefgemiddelde, dat

V a r = σ 2 n is . {\displaystyle {\RM {Var}} \ left = {\frac {\sigma ^{2}}{n}} \ left.}

{\displaystyle {\rm {Var}} \ left = {\frac {\sigma ^{2}}{n}} \ left.}

de variantie van het steekproefgemiddelde kan dan worden geschat door een schatting van σ2 te vervangen. Een dergelijke schatting kan worden verkregen uit de vergelijking voor E hierboven gegeven. Definieer eerst de volgende constanten, wederom uitgaande van een bekende ACF:

γ-1 ≡ 1 − 2 n − 1 ∑ k = 1 n − 1 ( 1 − k n ) ρ k {\displaystyle \gamma _{1}\equiv = 1-{\frac {2}{n-1}}\som _{k=1}^{n-1}{\left(1-{\frac {k}{n}}\right)}\rho _{k}}

{\displaystyle \gamma _{1}\equiv = 1-{\frac {2}{n-1}}\som _{k=1}^{n-1}{\left(1-{\frac {k}{n}}\right)}\rho _{k}}

γ 2 ≡ 1 + 2 ∑ k = 1 n − 1 ( 1 − k n ) ρ k {\displaystyle \gamma _{2}\equiv = 1+2\som _{k=1}^{n-1}{\left(1-{\frac {k}{n}}\right)}\rho _{k}}

{\displaystyle \gamma _{2}\equiv = 1+2\som _{k=1}^{n-1}{\left(1-{\frac {k}{n}}\right)}\rho _{k}}

zodat

E = σ 2 γ 1 ⇒ E = σ 2 {\displaystyle {\rm {E}}\left=\sigma ^{2}\gamma _{1}\Rightarrow {\rm {E}}\left=\sigma ^{2}}

{\displaystyle {\rm {E}}\left=\sigma ^{2}\gamma _{1}\Rightarrow {\rm {E}}\left=\sigma ^{2}}

Dit zegt dat de verwachte waarde van de hoeveelheid die wordt verkregen door de verdeling van de waargenomen steekproef variantie door de correctie factor γ 1 {\displaystyle \gamma _{1}}

\gamma _{1}

geeft een objectieve schatting van de variantie. Ook het herschrijven van de vermelde formule voor de variantie van het gemiddelde, V a r = σ 2 n γ 2 {\displaystyle {\rm {Var}}\left={\frac {\sigma ^{2}}{n}}\gamma _{2}}

{\displaystyle {\rm {Var}}\left={\frac {\sigma ^{2}}{n}}\gamma _{2}}

en vervangen door de schatting voor σ 2 {\displaystyle \sigma ^{2}}

\sigma ^{2}

geeft V a r = E = E {\displaystyle {\rm {Var}}\left={\rm {E}}\left={\rm {E}}\left}

{\displaystyle {\rm {Var}}\left={\rm {E}}\left={\rm {E}}\left}

dat is een onbevooroordeelde schatter van de variantie van het gemiddelde in termen van de waargenomen steekproefvariantie en bekende hoeveelheden. Als de autocorrelaties ρ k {\displaystyle \ rho _{k}}

\rho _{k}

identiek nul zijn, reduceert deze uitdrukking tot het bekende resultaat voor de variantie van het gemiddelde voor onafhankelijke gegevens. Het effect van de verwachtingsexploitant in deze uitdrukkingen is dat de gelijkheid in het gemiddelde (d.w.z. gemiddeld) geldt.

schatting van de standaardafwijking van de populatieedit

aangezien de bovenstaande uitdrukkingen betrekking hebben op de variantie van de populatie, en van een schatting van het gemiddelde van die populatie, lijkt het logisch om gewoon de vierkantswortel van deze uitdrukkingen te nemen om onbevooroordeelde schattingen van de respectieve standaardafwijkingen te verkrijgen. Echter is het zo dat, aangezien de verwachtingen zijn integralen,

E ≠ E ≠ σ γ 1 {\displaystyle {\rm {E}}\neq {\sqrt {{\rm {E}}\left}}\neq \sigma {\sqrt {\gamma _{1}}}}

{\displaystyle {\rm {E}}\neq {\sqrt {{\rm {E}}\left}}\neq \sigma {\sqrt {\gamma _{1}}}}

in Plaats daarvan wordt uitgegaan van een functie θ bestaat dat een onbevooroordeelde schatter van de standaardafwijking kan worden geschreven

E = σ θ γ 1 ⇒ σ ^ = s θ γ 1 {\displaystyle {\rm {E}}=\sigma \theta {\sqrt {\gamma _{1}}}\Rightarrow {\hat {\sigma }}={\frac {s}{\theta {\sqrt {\gamma _{1}}}}}}

{\displaystyle {\rm {E}}= \ sigma \ theta {\sqrt {\gamma _{1}}} \ Rightarrow {\hat {\sigma }} = {\frac {s}{\theta {\sqrt {\gamma _{1}}}}}}

en θ hangt af van de steekproefgrootte n en de ACF. In het geval van NID (normaal en onafhankelijk gedistribueerde) gegevens, is de radicand eenheid en θ is alleen de c4 functie gegeven in het eerste deel hierboven. Net als bij c4 benadert θ de eenheid naarmate de steekproefgrootte toeneemt (net als γ1).

Het kan worden aangetoond via simulaties op dat het negeren van θ (dat is, die de eenheid) en met behulp van

E ≈ σ γ 1 ⇒ σ ^ ≈ s γ 1 {\displaystyle {\rm {E}}\ca \sigma {\sqrt {\gamma _{1}}}\Rightarrow {\hat {\sigma }}\ca {\frac {s}{\sqrt {\gamma _{1}}}}}

{\displaystyle {\rm {E}}\ca \sigma {\sqrt {\gamma _{1}}}\Rightarrow {\hat {\sigma }}\ca {\frac {s}{\sqrt {\gamma _{1}}}}}

verwijdert alle maar een paar procent van de afwijking veroorzaakt door autocorrelatie, dit is een verminderde bias schatter, in plaats van een unbiased estimator. In praktische meetsituaties kan deze vermindering van de bias significant en nuttig zijn, zelfs als er een relatief kleine bias blijft. Het bovenstaande cijfer, dat een voorbeeld toont van de bias in de standaardafwijking vs.steekproefgrootte, is gebaseerd op deze benadering; de werkelijke bias zou iets groter zijn dan in die grafieken wordt aangegeven omdat de transformatiebias θ daar niet is opgenomen.

de Schatting van de standaarddeviatie van de steekproef meanEdit

De onpartijdige variantie van het gemiddelde in termen van de populatievariantie en het ACF is gegeven door

V a r = σ 2 n γ 2 {\displaystyle {\rm {Var}}\left={\frac {\sigma ^{2}}{n}}\gamma _{2}}

{\displaystyle {\rm {Var}}\left={\frac {\sigma ^{2}}{n}}\gamma _{2}}

en aangezien er geen verwachte waarden hier, in dit geval de wortel kan worden genomen, dus dat

σ x = σ n γ 2 {\displaystyle \sigma _{\overline {x}}={\frac {\sigma }{\sqrt {n}}}{\sqrt {\gamma _{2}}}}

{\displaystyle \sigma _{\overline {x}}={\frac {\sigma }{\sqrt {n}}}{\sqrt {\gamma _{2}}}}

met Behulp van de objectieve schatting van bovenstaande expressie voor σ, een schatting van de standaarddeviatie van het gemiddelde zal dan worden

σ ^ x = n θ n γ 2 γ 1 {\displaystyle {\hat {\sigma }}_{\overline {x}}={\frac {s}{\theta {\sqrt {n}}}}{\frac {\sqrt {\gamma _{2}}}{\sqrt {\gamma _{1}}}}}

{\displaystyle {\hat {\sigma }}_{\overline {x}}={\frac {s}{\theta {\sqrt {n}}}}{\frac {\sqrt {\gamma _{2}}}{\sqrt {\gamma _{1}}}}}

Als de gegevens zijn NID, dus dat de ACF verdwijnt, vermindert dit tot

σ ^ x = S c 4 n {\displaystyle {\hat {\sigma }}_{\overline {x}}={\frac {s}{c_{4}{\sqrt {n}}}}}

{\displaystyle {\hat {\sigma }}_{\overline {x}}={\frac {s}{c_{4}{\sqrt {n}}}}}}