Unvoreingenommene Schätzung der Standardabweichung
Das obige Material gilt, um den Punkt erneut zu betonen, nur für unabhängige Daten. Reale Daten erfüllen diese Anforderung jedoch häufig nicht; sie sind autokorreliert (auch als serielle Korrelation bezeichnet). Als ein Beispiel werden die aufeinanderfolgenden Messwerte eines Messinstruments, das eine Form der „Glättung“ (genauer gesagt Tiefpassfilterung) enthält, autokorreliert, da jeder bestimmte Wert aus einer Kombination der früheren und späteren Messwerte berechnet wird.
Schätzungen der Varianz und Standardabweichung autokorrelierter Daten werden verzerrt. Der erwartete Wert der Stichprobenvarianz ist
E = σ 2 {\displaystyle {\rm {E}}\left=\sigma ^{2}\left}
wobei n die Stichprobengröße (Anzahl der Messungen) und ρ k {\displaystyle \rho _{k}}
ist die Autokorrelationsfunktion (ACF) der Daten. (Beachten Sie, dass der Ausdruck in den Klammern einfach eins minus der durchschnittlich erwarteten Autokorrelation für die Messwerte ist.) Wenn die ACF aus positiven Werten besteht, wird die Schätzung der Varianz (und ihrer Quadratwurzel, der Standardabweichung) niedrig vorgespannt. Das heißt, die tatsächliche Variabilität der Daten ist größer als die, die durch eine unkorrigierte Varianz- oder Standardabweichungsberechnung angegeben wird. Es ist wichtig zu erkennen, dass, wenn dieser Ausdruck verwendet werden soll, um die Verzerrung zu korrigieren, indem die Schätzung s 2 {\displaystyle s^{2}}
durch die Größe in Klammern oben dividiert wird, die ACF analytisch bekannt sein muss, nicht durch Schätzung aus den Daten. Dies liegt daran, dass die geschätzte ACF selbst voreingenommen ist.
Beispiel für Bias in der Standardabweichungbearbeiten
Um die Größe des Bias in der Standardabweichung zu veranschaulichen, betrachten Sie einen Datensatz, der aus sequentiellen Messwerten eines Instruments besteht, das einen bestimmten digitalen Filter verwendet, dessen ACF bekanntermaßen gegeben ist durch
ρ k = ( 1 − α ) k {\displaystyle \rho _{k}=(1-\alpha )^{k}}
wobei α der Parameter des Filters ist und Werte von Null bis Eins annimmt. Somit ist die ACF positiv und geometrisch abnehmend.
Die Abbildung zeigt das Verhältnis der geschätzten Standardabweichung zu ihrem bekannten Wert (der für dieses digitale Filter analytisch berechnet werden kann) für mehrere Einstellungen von α als Funktion der Stichprobengröße n. Durch Ändern von α wird das Varianzreduktionsverhältnis des Filters geändert, das bekanntermaßen
V R R = α 2 − α {\displaystyle {\rm {VRR}}={\frac {\alpha }{2-\alpha }}}
ist, so dass kleinere Werte von α zu mehr Varianzreduktion oder „Glättung.“ Die Verzerrung wird durch Werte auf der vertikalen Achse angezeigt, die sich von der Einheit unterscheiden; Das heißt, wenn es keine Verzerrung gäbe, wäre das Verhältnis der geschätzten zur bekannten Standardabweichung Einheit. Bei bescheidenen Stichprobengrößen kann es eindeutig zu einer signifikanten Verzerrung kommen (ein Faktor von zwei oder mehr).
Varianz des Mittelwerts
Es ist oft von Interesse, die Varianz oder Standardabweichung eines geschätzten Mittelwerts und nicht die Varianz einer Grundgesamtheit zu schätzen. Wenn die Daten autokorreliert werden, wirkt sich dies direkt auf die theoretische Varianz des Stichprobenmittelwerts aus, der
Var = σ 2n beträgt. {\displaystyle {\rm {Var}}\links={\frac {\sigma ^{2}}{n}}\links.}
Die Varianz des Stichprobenmittelwerts kann dann durch Ersetzen einer Schätzung von σ2 geschätzt werden. Eine solche Schätzung kann aus der oben angegebenen Gleichung für E erhalten werden. Definieren Sie zunächst die folgenden Konstanten, wobei wiederum eine bekannte ACF angenommen wird:
γ 1 ≡ 1 − 2 n − 1 ∑ k = 1 n − 1 ( 1 − k n ) ρ k {\displaystyle \gamma _{1}\äquiv 1-{\frac {2}{n-1}}\Summe _{k=1}^{n-1}{\links(1-{\frac {k}{n}}\rechts)}\rho _{k}}
γ 2 ≡ 1 + 2 ∑ k = 1 n − 1 ( 1 − k n ) ρ k {\displaystyle \gamma _{2}\äquiv 1+2\summe _{k=1}^{n-1}{\links (1-{\frac {k}{n}}\rechts)}\rho _{k}}
so dass
E = σ 2 γ 1 ⇒ E = σ 2 {\displaystyle {\rm {E}}\left=\sigma ^{2}\gamma _{1}\Rightarrow {\rm {E}}\left=\sigma ^{2}}
Dies besagt, dass der erwartete Wert der Größe, die durch Division der beobachteten Probenvarianz durch den Korrekturfaktor γ 1 {\displaystyle \gamma _{1}}
erhalten wird, eine unvoreingenommene Schätzung der Varianz ergibt. In ähnlicher Weise wird der obige Ausdruck für die Varianz des Mittelwerts neu geschrieben, V a r = σ 2 n γ 2 {\displaystyle {\rm {Var}}\left={\frac {\sigma ^{2}}{n}}\gamma _{2}}
und ersetzen der Schätzung σ 2 {\displaystyle \sigma ^{2}}
ergibt V a r = E = E {\displaystyle {\rm {Var}}\left={\rm {E}}\left={\rm {E}}\left}
welches ist ein unvoreingenommener Schätzer der Varianz des Mittelwerts in Bezug auf die beobachtete Stichprobenvarianz und bekannte Größen. Wenn die Autokorrelationen ρ k {\displaystyle \rho _{k}}
identisch Null sind, reduziert sich dieser Ausdruck auf das bekannte Ergebnis für die Varianz des Mittelwerts für unabhängige Daten. Der Effekt des Erwartungsoperators in diesen Ausdrücken besteht darin, dass die Gleichheit im Mittelwert (dh im Durchschnitt) gilt.
Schätzen der Standardabweichung der Populationbearbeiten
Da die obigen Ausdrücke die Varianz der Population und eine Schätzung des Mittelwerts dieser Population beinhalten, erscheint es logisch, einfach die Quadratwurzel dieser Ausdrücke zu nehmen, um unvoreingenommene Schätzungen der jeweiligen Standardabweichungen zu erhalten. Es ist jedoch der Fall, dass, da Erwartungen Integrale sind,
E ≠ E ≠ σ γ 1 {\displaystyle {\rm {E}}\neq {\sqrt {{\rm {E}}\left}}\neq \sigma {\sqrt {\gamma _{1}}}}
Angenommen, eine Funktion θ existiert so, dass ein unvoreingenommener Schätzer der Standardabweichung geschrieben werden kann
E = σ θ γ 1 ⇒ σ ^ = s θ γ 1 {\displaystyle {\rm {E}}=\sigma \theta {\sqrt {\gamma _{1}}}\Rightarrow {\hat {\sigma }}={\frac {s}{\ {\sqrt {\gamma _{1}}}}}}
und θ hängt von der Stichprobengröße n und der ACF ab. Im Fall von NID-Daten (normalerweise und unabhängig verteilt) ist der Radicand Einheit und θ ist nur die c4-Funktion, die im ersten Abschnitt oben angegeben ist. Wie bei c4 nähert sich θ der Einheit, wenn die Stichprobengröße zunimmt (ebenso wie γ1).
Durch Simulationsmodellierung kann gezeigt werden, dass θ ignoriert (d. h. als Einheit betrachtet) und
E ≈ σ γ 1 ⇒ σ ^ ≈ s γ 1 verwendet wird {\displaystyle {\rm {E}}\approx \sigma {\sqrt {\gamma _{1}}}\Rightarrow {\hat {\sigma }}\approx {\frac {s}{\sqrt {\gamma _{1}}}}}
entfernt alle bis auf wenige Prozent der durch Autokorrelation verursachten Verzerrungen, wodurch dies zu einem Schätzer mit reduzierter Verzerrung und nicht zu einem unvoreingenommenen Schätzer wird. In praktischen Messsituationen kann diese Verringerung der Vorspannung signifikant und nützlich sein, selbst wenn eine relativ kleine Vorspannung verbleibt. Die obige Abbildung, die ein Beispiel für die Verzerrung in der Standardabweichung gegenüber der Stichprobengröße zeigt, basiert auf dieser Näherung; Die tatsächliche Verzerrung wäre etwas größer als in diesen Diagrammen angegeben, da die Transformationsverzerrung θ dort nicht enthalten ist.
Schätzung der Standardabweichung des Stichprobenmittelwerts
Die unvoreingenommene Varianz des Mittelwerts in Bezug auf die Populationsvarianz und die ACF ist gegeben durch
V a r = σ 2 n γ 2 {\displaystyle {\rm {Var}}\left={\frac {\sigma ^{2}}{n}}\gamma _{2}}
und da es hier keine erwarteten Werte gibt, kann in diesem Fall die Quadratwurzel genommen werden, so dass
σ x = σ n γ 2 {\displaystyle \sigma _{\overline {x}}={\frac {\sigma }{\sqrt {n}}}{\sqrt {\gamma _{2}}}}
Unter Verwendung des obigen unvoreingenommenen Schätzungsausdrucks für σ ergibt sich dann eine Schätzung der Standardabweichung des Mittelwerts
σ ^ x = s θ n γ 2 γ 1 {\displaystyle {\hat {\sigma }}_{\ überlinie {x}}={\frac {s}{\theta {\sqrt {n}}}}{\frac {\sqrt {\gamma _{2}}}{\sqrt {\gamma _{1}}}}}
Wenn die Daten NID sind, also dies reduziert sich auf
σ ^ x = s c 4 n {\displaystyle {\hat {\sigma }}_{\overline {x}}={\frac {s}{c_{4}{\sqrt {n}}}}}
Leave a Reply