Articles

A estimativa imparcial do desvio-padrão

o material acima, para realçar novamente o ponto, aplica-se apenas a dados independentes. No entanto, os dados do mundo real muitas vezes não satisfazem este requisito; é autocorrelacionado (também conhecido como correlação de série). Como um exemplo, as sucessivas leituras de um instrumento de medição que incorpora alguma forma de “suavização” (mais corretamente, filtragem passa-baixa) processo de auto-correlacionados, uma vez que qualquer valor é calculado a partir de uma combinação das anteriores e posteriores leituras.as estimativas da variância e do desvio-padrão dos dados autocorrelacionados serão tendenciosas. O valor esperado de a variância da amostra é

E = σ 2 {\displaystyle {\rm {E}}\left=\sigma ^{2}\left}

{\displaystyle {\rm {E}}\left=\sigma ^{2}\left}

, onde n é o tamanho da amostra (número de medições) e ρ k {\displaystyle \rho _{k}}

\rho _{k}

é a função de autocorrelação (ACF) dos dados. (Note que a expressão entre parênteses é simplesmente uma menos a média de autocorrelação esperada para as leituras.) Se o ACF consiste em valores positivos, então a estimativa da variância (e sua raiz quadrada, o desvio padrão) será tendenciosa baixo. Ou seja, a variabilidade real dos dados será superior à indicada por um cálculo de variância não corrigida ou de desvio-padrão. É essencial reconhecer que, se esta expressão é para ser utilizado para corrigir o viés, dividindo-se a estimativa de s 2 {\displaystyle s^{2}}

s^{2}

pela quantidade entre parênteses acima, em seguida, a ACF deve ser conhecido do ponto de vista analítico, não através de estimativa a partir dos dados. Isto deve-se ao facto de a própria ACF estimada ser tendenciosa.

Exemplo de preconceito no padrão deviationEdit

Para ilustrar a magnitude do viés do desvio-padrão, considere um conjunto de dados que consiste sequencial leituras de um instrumento que utiliza um determinado filtro digital cuja ACF é conhecido por ser dado por

ρ k = ( 1 − α ) k {\displaystyle \rho _{k}=(1-\alpha )^{k}}

{\displaystyle \rho _{k}=(1-\alpha )^{k}}

, onde α é o parâmetro de filtro, e ele assume o valor de zero para a unidade. Assim, o ACF é positivo e geometricamente decrescente.

Viés desvio padrão para a auto-correlacionados de dados.

a figura mostra a razão entre o desvio-padrão estimado e o seu valor conhecido (que pode ser calculado analiticamente para este filtro digital), para várias configurações de α em função do tamanho da amostra n. Alterar α altera a variância da taxa de redução do filtro, que é conhecido por ser

V R R = α 2 − α {\displaystyle {\rm {VRR}}={\frac {\alpha }{2-\alpha }}}

{\displaystyle {\rm {VRR}}={\frac {\alpha }{2-\alpha }}}

para que os menores valores de α resultar em mais de desvio de redução, ou de “suavização.”O viés é indicado por valores no eixo vertical diferente da unidade; isto é, se não houvesse viés, a razão entre o desvio padrão estimado e conhecido seria unidade. Claramente, para tamanhos de amostra modestos pode haver viés significativo (um fator de dois, ou mais).é frequentemente de interesse estimar a variância ou desvio padrão de uma média estimada em vez da variância de uma população. Quando os dados estão autocorrelacionados, isso tem um efeito direto na variância teórica da média da amostra, que é

v A r = σ 2 n. {\displaystyle {\rm {Var}}\left={\frac {\sigma ^{2}}{n}}\left.}

{\displaystyle {\rm {Var}}\left={\frac {\sigma ^{2}}{n}}\left.}

a variância da média da amostra pode então ser estimada substituindo uma estimativa de σ2. Uma dessas estimativas pode ser obtida a partir da equação para E dada acima. Primeiro definir as seguintes constantes, assumindo, novamente, um ACF conhecido:

γ 1 ≡ 1 − 2 n − 1 ∑ k = 1 n − 1 ( 1 − k n ) ρ k {\displaystyle \gamma _{1}\equiv 1-{\frac {2}{n-1}}\sum _{k=1}^{n-1}{\left(1-{\frac {k}{n}}\right)}\rho _{k}}

{\displaystyle \gamma _{1}\equiv 1-{\frac {2}{n-1}}\sum _{k=1}^{n-1}{\left(1-{\frac {k}{n}}\right)}\rho _{k}}

γ 2 ≡ 1 + 2 ∑ k = 1 n − 1 ( 1 − k n ) ρ k {\displaystyle \gamma _{2}\equiv 1+2\sum _{k=1}^{n-1}{\left(1-{\frac {k}{n}}\right)}\rho _{k}}

{\displaystyle \gamma _{2}\equiv 1+2\sum _{k=1}^{n-1}{\left(1-{\frac {k}{n}}\right)}\rho _{k}}

para que

E = σ 2 γ 1 ⇒ E = σ 2 {\displaystyle {\rm {E}}\left=\sigma ^{2}\gamma _{1}\Rightarrow {\rm {E}}\left=\sigma ^{2}}

{\displaystyle {\rm {E}}\left=\sigma ^{2}\gamma _{1}\Rightarrow {\rm {E}}\left=\sigma ^{2}}

Este diz que o valor esperado da quantidade obtida dividindo-se a amostra observada de variância pelo fator de correção γ 1 {\displaystyle \gamma _{1}}

\gamma _{1}

dá um viés estimativa da variância. Da mesma forma, re-escrever a expressão acima para a variância da média, V r = σ 2 n γ 2 {\displaystyle {\rm {Var}}\left={\frac {\sigma ^{2}}{n}}\gamma _{2}}

{\displaystyle {\rm {Var}}\left={\frac {\sigma ^{2}}{n}}\gamma _{2}}

e substituindo a estimativa de σ 2 {\displaystyle \sigma ^{2}}

\sigma ^{2}

oferece V um r = E = E {\displaystyle {\rm {Var}}\left={\rm {E}}\left={\rm {E}}\left}

{\displaystyle {\rm {Var}}\left={\rm {E}}\left={\rm {E}}\left}

o que é um estimador imparcial da variância da média em termos da variância observada da amostra e quantidades conhecidas. Se autocorrelações ρ k {\displaystyle \rho _{k}}

\rho _{k}

são identicamente zero, esta expressão se reduz a bem conhecida resultado para a variância da média para dados independentes. O efeito do operador esperado nestas expressões é que a igualdade se mantém na média (i.e., em média).

Estimar o desvio padrão da populationEdit

Tendo as expressões acima envolvendo a variância da população, e de uma estimativa da média da população, parece lógico assumir a raiz quadrada de estas expressões para obter estimativas imparciais dos respectivos desvios-padrão. No entanto, é o caso que, uma vez que as expectativas são integrais,

E ≠ E ≠ σ γ 1 {\displaystyle {\rm {E}}\neq {\sqrt {{\rm {E}}\left}}\neq \sigma {\sqrt {\gamma _{1}}}}

{\displaystyle {\rm {E}}\neq {\sqrt {{\rm {E}}\left}}\neq \sigma {\sqrt {\gamma _{1}}}}

em Vez disso, assumem uma função existe θ tal que um viés do estimador do desvio padrão pode ser escrito

E = σ θ γ 1 ⇒ σ ^ = s θ γ 1 {\displaystyle {\rm {E}}=\sigma \theta {\sqrt {\gamma _{1}}}\Rightarrow {\hat {\sigma }}={\frac {s}{\theta {\sqrt {\gamma _{1}}}}}}

{\displaystyle {\rm {E}}=\sigma \theta {\sqrt {\gamma _{1}}}\Rightarrow {\hat {\sigma }}={\frac {s}{\theta {\sqrt {\gamma _{1}}}}}}

e θ depende do tamanho da amostra n e o ACF. No caso de dados NID (normalmente e independentemente distribuídos), o radicand é unidade e θ é apenas a função c4 dada na primeira seção acima. Tal como com c4, θ aproxima-se da unidade à medida que o tamanho da amostra aumenta (assim como γ1).

Ele pode ser demonstrada por meio de modelagem de simulação que ignorar θ (isto é, levando-a a ser a unidade) e usando

E ≈ σ γ 1 ⇒ σ ^ ≈ s γ 1 {\displaystyle {\rm {E}}\approx \sigma {\sqrt {\gamma _{1}}}\Rightarrow {\hat {\sigma }}\approx {\frac {s}{\sqrt {\gamma _{1}}}}}

{\displaystyle {\rm {E}}\approx \sigma {\sqrt {\gamma _{1}}}\Rightarrow {\hat {\sigma }}\approx {\frac {s}{\sqrt {\gamma _{1}}}}}

remove todos, mas alguns por cento do viés causado por autocorrelação, tornando esta uma reduzida viés do estimador, em vez de um estimador imparcial. Em situações de medição prática, esta redução no viés pode ser significativa, e útil, mesmo se algum viés relativamente pequeno permanece. A figura acima, mostrando um exemplo do viés no desvio padrão vs. tamanho da amostra, é baseada nesta aproximação; o viés real seria um pouco maior do que indicado nesses grafos uma vez que o viés de transformação θ Não está incluído lá.

de Estimar o desvio padrão da amostra meanEdit

O imparcial variância da média em termos de variação da população e a ACF é dado por

V um r = σ 2 n γ 2 {\displaystyle {\rm {Var}}\left={\frac {\sigma ^{2}}{n}}\gamma _{2}}

{\displaystyle {\rm {Var}}\left={\frac {\sigma ^{2}}{n}}\gamma _{2}}

e uma vez que não há valores esperados aqui, neste caso, a raiz quadrada pode ser tomado, para que

σ x = σ n γ 2 {\displaystyle \sigma _{\overline {x}}={\frac {\sigma }{\sqrt {n}}}{\sqrt {\gamma _{2}}}}

{\displaystyle \sigma _{\overline {x}}={\frac {\sigma }{\sqrt {n}}}{\sqrt {\gamma _{2}}}}

Usando o imparcial estimativa de expressão acima de σ, uma estimativa do desvio padrão da média, em seguida, será

σ ^ x = s θ n γ 2 γ 1 {\displaystyle {\hat {\sigma }}_{\overline {x}}={\frac {s}{\theta {\sqrt {n}}}}{\frac {\sqrt {\gamma _{2}}}{\sqrt {\gamma _{1}}}}}

{\displaystyle {\hat {\sigma }}_{\overline {x}}={\frac {s}{\theta {\sqrt {n}}}}{\frac {\sqrt {\gamma _{2}}}{\sqrt {\gamma _{1}}}}}

Se os dados são da VACINAÇÃO, de modo que a ACF desaparece, isso reduz a

σ ^ x = s c 4 n {\displaystyle {\hat {\sigma }}_{\overline {x}}={\frac {s}{c_{4}{\sqrt {n}}}}}

{\displaystyle {\hat {\sigma }}_{\overline {x}}={\frac {s}{c_{4}{\sqrt {n}}}}}