Articles

Estimación imparcial de la desviación estándar

El material anterior, para enfatizar el punto nuevamente, se aplica solo a datos independientes. Sin embargo, los datos del mundo real a menudo no cumplen con este requisito; se correlacionan automáticamente (también conocido como correlación serial). Por ejemplo, las lecturas sucesivas de un instrumento de medición que incorpora alguna forma de proceso de «suavizado» (más correctamente, filtrado de paso bajo) se correlacionarán automáticamente, ya que cualquier valor en particular se calcula a partir de una combinación de las lecturas anteriores y posteriores.

Las estimaciones de la varianza y la desviación estándar de los datos correlacionados automáticamente estarán sesgadas. El valor esperado de la varianza de la muestra es

E = σ 2 {\displaystyle {\rm {E}}\left=\sigma ^{2}\left}

{\displaystyle {\rm {E}}\left=\sigma ^{2}\left}

donde n es el tamaño de la muestra (número de mediciones) y ρ k {\displaystyle \rho _{k}}

\rho _{k}

es la función de autocorrelación (ACF) de los datos. (Tenga en cuenta que la expresión entre corchetes es simplemente uno menos la autocorrelación promedio esperada para las lecturas.) Si el ACF consiste en valores positivos, la estimación de la varianza (y su raíz cuadrada, la desviación estándar) estará sesgada baja. Es decir, la variabilidad real de los datos será mayor que la indicada por un cálculo de varianza o desviación estándar no corregida. Es esencial reconocer que, si esta expresión se va a usar para corregir el sesgo, dividiendo la estimación s 2 {\displaystyle s^{2}}

s^{2}

por la cantidad entre corchetes de arriba, entonces el ACF debe conocerse analíticamente, no a través de la estimación de los datos. Esto se debe a que el FCA estimado en sí mismo estará sesgado.

Ejemplo de sesgo en la desviación estándarEditar

Para ilustrar la magnitud del sesgo en la desviación estándar, considere un conjunto de datos que consiste en lecturas secuenciales de un instrumento que utiliza un filtro digital específico cuyo ACF se sabe que viene dado por

ρ k = ( 1 − α ) k {\displaystyle \rho _{k}=(1-\alpha )^{k}}

{\displaystyle \rho _{k}=(1-\alpha )^{k}}

donde α es el parámetro del filtro, y toma valores de cero a unidad. Por lo tanto, el ACF es positivo y geométricamente decreciente.

Sesgo en la desviación estándar para autocorrelated de datos.

La figura muestra la relación entre la desviación estándar estimada y su valor conocido (que se puede calcular analíticamente para este filtro digital), para varios ajustes de α en función del tamaño de muestra n. El cambio de α altera la relación de reducción de varianza del filtro, que se sabe que es

V R R = α 2 − α {\displaystyle {\rm {VRR}}={\frac {\alpha }{2-\alpha }}}

{\displaystyle {\rm {VRR}}={\frac {\alpha }{2-\alpha }}}

de modo que se obtienen valores más pequeños de α en más reducción de varianza, o «suavizado».»El sesgo se indica por valores en el eje vertical diferentes de la unidad; es decir, si no hubiera sesgo, la relación entre la desviación estándar estimada y conocida sería la unidad. Claramente, para tamaños de muestra modestos, puede haber un sesgo significativo (un factor de dos o más).

Varianza de la MediaEditar

A menudo es de interés estimar la varianza o desviación estándar de una media estimada en lugar de la varianza de una población. Cuando los datos son autocorrelacionados, esto tiene un efecto directo en la varianza teórica de la media muestral, que es

V a r = σ 2 n. {\displaystyle {\rm {Var}}\left={\frac {\sigma ^{2}}{n}}\left.}

{\displaystyle {\rm {Var}}\left={\frac {\sigma ^{2}}{n}}\left.}

La varianza de la media muestral puede estimarse sustituyendo una estimación de σ2. Una de estas estimaciones se puede obtener de la ecuación para E dada anteriormente. Primero defina las siguientes constantes, asumiendo, de nuevo, un ACF conocido:

γ 1 ≡ 1 − 2 n − 1 ∑ k = 1 n − 1 ( 1 − k n ) ρ k {\displaystyle \gamma _{1}\equiv 1-{\frac {2}{n-1}}\sum _{k=1}^{n-1}{\left(1-{\frac {k}{n}}\right)}\rho _{k}}

{\displaystyle \gamma _{1}\equiv 1-{\frac {2}{n-1}}\sum _{k=1}^{n-1}{\left(1-{\frac {k}{n}}\right)}\rho _{k}}

γ 2 ≡ 1 + 2 ∑ k = 1 n − 1 ( 1 − k n ) ρ k {\displaystyle \gamma _{2}\equiv 1+2\sum _{k=1}^{n-1}{\left(1-{\frac {k}{n}}\right)}\rho _{k}}

{\displaystyle \gamma _{2}\equiv 1+2\sum _{k=1}^{n-1}{\left(1-{\frac {k}{n}}\right)}\rho _{k}}

para que

E = σ 2 γ 1 ⇒ E = σ 2 {\displaystyle {\rm {E}}\left=\sigma ^{2}\gamma _{1}\Rightarrow {\rm {E}}\left=\sigma ^{2}}

{\displaystyle {\rm {E}}\left=\sigma ^{2}\gamma _{1}\Rightarrow {\rm {E}}\left=\sigma ^{2}}

Esto nos dice que el valor esperado de la cantidad que se obtiene dividiendo la observada varianza de la muestra por el factor de corrección γ 1 {\displaystyle \gamma _{1}}

\gamma _{1}

da una estimación insesgada de la varianza. Del mismo modo, volver a escribir la expresión anterior para la varianza de la media, V r = σ 2 n γ 2 {\displaystyle {\rm {Var}}\left={\frac {\sigma ^{2}}{n}}\gamma _{2}}

{\displaystyle {\rm {Var}}\left={\frac {\sigma ^{2}}{n}}\gamma _{2}}

y la sustitución de la estimación para σ 2 {\displaystyle \sigma ^{2}}

\sigma ^{2}

da a V a r r a = E = E {\displaystyle {\rm {Var}}\left={\rm {E}}\left={\rm {E}}\left}

{\displaystyle {\rm {Var}}\left={\rm {E}}\left={\rm {E}}\left}

que es un estimador imparcial de la varianza de la media en términos de varianza de la muestra observada y cantidades conocidas. Si las autocorrelaciones ρ k {\displaystyle \rho _ {k}}

\rho _ {k}

son idénticas a cero, esta expresión se reduce al resultado bien conocido para la varianza de la media para datos independientes. El efecto del operador de expectativa en estas expresiones es que la igualdad se mantiene en la media (es decir, en promedio).

Estimación de la desviación estándar de la poblacióneditar

Teniendo las expresiones anteriores que involucran la varianza de la población, y de una estimación de la media de esa población, parecería lógico simplemente tomar la raíz cuadrada de estas expresiones para obtener estimaciones imparciales de las desviaciones estándar respectivas. Sin embargo, no es el caso que, ya que las expectativas son integrales,

E ≠ E ≠ σ γ 1 {\displaystyle {\rm {E}}\neq {\sqrt {{\rm {E}}\left}}\neq \sigma {\sqrt {\gamma _{1}}}}

{\displaystyle {\rm {E}}\neq {\sqrt {{\rm {E}}\left}}\neq \sigma {\sqrt {\gamma _{1}}}}

en su Lugar, asumir una función θ existe tal que un imparcial estimador de la desviación estándar puede ser escrito

E = σ θ γ 1 ⇒ σ ^ = s θ γ 1 {\displaystyle {\rm {E}}=\sigma \theta {\sqrt {\gamma _{1}}}\Rightarrow {\hat {\sigma }}={\frac {s}{\theta {\sqrt {\gamma _{1}}}}}}

{\displaystyle {\rm {E}}=\sigma \theta {\sqrt {\gamma _{1}}}\Rightarrow {\hat {\sigma }}={\frac {s}{\theta {\sqrt {\gamma _{1}}}}}}

y θ depende del tamaño de la muestra n y la ACF. En el caso de los datos NID (normalmente distribuidos de forma independiente), el radicando es unidad y θ es solo la función c4 dada en la primera sección anterior. Al igual que con c4, θ se acerca a la unidad a medida que aumenta el tamaño de la muestra (al igual que γ1).

Se puede demostrar mediante un modelado de simulación que se ignora θ (es decir, se toma como unidad) y se usa

E ≈ σ γ 1 ⇒ σ ^ ≈ s γ 1 {\displaystyle {\rm {E}}\approx \sigma {\sqrt {\gamma _{1}}}\Rightarrow {\hat {\sigma }}\approx {\frac {s}{\sqrt {\gamma _{1}}}}}

{\displaystyle {\rm {E}}\approx \sigma {\sqrt {\gamma _{1}}}\Rightarrow {\hat {\sigma }}\approx {\frac {s}{\sqrt {\gamma _{1}}}}}

elimina todo menos un pequeño porcentaje del sesgo causado por la autocorrelación, lo que lo convierte en un estimador de sesgo reducido, en lugar de un estimador imparcial. En situaciones prácticas de medición, esta reducción del sesgo puede ser significativa y útil, incluso si persiste un sesgo relativamente pequeño. La figura anterior, que muestra un ejemplo del sesgo en la desviación estándar frente al tamaño de la muestra, se basa en esta aproximación; el sesgo real sería algo mayor de lo indicado en esos gráficos, ya que el sesgo de transformación θ no está incluido allí.

Estimar la desviación estándar de la media muestraleditar

La varianza imparcial de la media en términos de la varianza de la población y el ACF viene dada por

V a r = σ 2 n γ 2 {\displaystyle {\rm {Var}}\left={\frac {\sigma ^{2}}{n}}\gamma _{2}}

{\displaystyle {\rm {Var}}\left={\frac {\sigma ^{2}}{n}}\gamma _{2}}

y como no hay valores esperados aquí, en este caso se puede tomar la raíz cuadrada, de modo que

σ x = σ n γ 2 {\displaystyle \sigma _{\overline {x}}={\frac {\sigma }{\sqrt {n}}}{\sqrt {\gamma _{2}}}}

{\displaystyle \sigma _{\overline {x}}={\frac {\sigma }{\sqrt {n}}}{\sqrt {\gamma _{2}}}}

el Uso de la estimación insesgada de la expresión anterior para σ, una estimación de la desviación estándar de la media será entonces

σ ^ x = s θ n γ 2 γ 1 {\displaystyle {\hat {\sigma }}_{\overline {x}}={\frac {s}{\theta {\sqrt {n}}}}{\frac {\sqrt {\gamma _{2}}}{\sqrt {\gamma _{1}}}}}

{\displaystyle {\hat {\sigma }}_{\overline {x}}={\frac {s}{\theta {\sqrt {n}}}}{\frac {\sqrt {\gamma _{2}}}{\sqrt {\gamma _{1}}}}}

Si los datos son NID, así que el ACF se desvanece, esto se reduce a

σ ^ x = s c 4 n {\displaystyle {\hat {\sigma }}_{\overline {x}}={\frac {s}{c_{4}{\sqrt {n}}}}}

{\displaystyle {\hat {\sigma }}_{\overline {x}}={\frac {s}{c_{4}{\sqrt {n}}}}}