Articles

Estimation impartiale de l’écart-type

Le matériau ci-dessus, pour souligner à nouveau le point, ne s’applique qu’aux données indépendantes. Cependant, les données du monde réel ne répondent souvent pas à cette exigence; elles sont autocorrélées (également appelées corrélation série). Par exemple, les lectures successives d’un instrument de mesure qui intègre une forme de processus de « lissage” (plus correctement, filtrage passe-bas) seront autocorrélées, car toute valeur particulière est calculée à partir d’une combinaison des lectures antérieures et ultérieures.

Les estimations de la variance et de l’écart type des données autocorrélées seront biaisées. La valeur attendue de la variance de l’échantillon est

E= σ 2 {\displaystyle {\rm{E}}\left=\sigma^{2}\left}

{\displaystyle {\rm{E}}\left=\sigma^{2}\left}

où n est la taille de l’échantillon (nombre de mesures) et ρ k {\displaystyle\rho_ { k}}

\rho_{k}

est la fonction d’autocorrélation (ACF) des données. (Notez que l’expression entre parenthèses est simplement un moins l’autocorrélation moyenne attendue pour les lectures.) Si l’ACF est constitué de valeurs positives, l’estimation de la variance (et de sa racine carrée, l’écart-type) sera biaisée à faible. Autrement dit, la variabilité réelle des données sera supérieure à celle indiquée par un calcul de variance ou d’écart-type non corrigé. Il est essentiel de reconnaître que, si cette expression doit être utilisée pour corriger le biais, en divisant l’estimation s2{\displaystyle s^{2}}

s^{2}

par la quantité entre parenthèses ci-dessus, alors l’ACF doit être connu analytiquement, et non par estimation à partir des données. En effet, l’ACF estimé sera lui-même biaisé.

Exemple de biais dans l’écart standardedit

Pour illustrer l’ampleur du biais dans l’écart type, considérons un ensemble de données constitué de lectures séquentielles d’un instrument qui utilise un filtre numérique spécifique dont l’ACF est connu pour être donné par

ρ k =(1−α)k {\displaystyle\rho_{k}=(1-\alpha) ^{k}}

{\displaystyle\ rho_{k} =(1-\alpha) ^{k}}

où α est le paramètre du filtre, et il prend des valeurs de zéro à l’unité. Ainsi, l’ACF est positive et géométriquement décroissante.

Biais dans l’écart type pour les données autocorrélées.

La figure montre le rapport de l’écart type estimé à sa valeur connue (qui peut être calculée analytiquement pour ce filtre numérique), pour plusieurs réglages de α en fonction de la taille de l’échantillon n. Le changement de α modifie le rapport de réduction de la variance du filtre, qui est connu pour être

V R R = α 2−α {\displaystyle {\rm{VRR}} = {\frac{\alpha}{2-\alpha}}}

{\displaystyle {\rm{VRR}} = {\frac{\alpha}{2-\alpha}}}

de sorte que des valeurs plus petites de α entraînent une réduction plus importante de la variance, ou « lissage ».”Le biais est indiqué par des valeurs sur l’axe vertical différentes de l’unité; c’est-à-dire que s’il n’y avait pas de biais, le rapport entre l’écart-type estimé et connu serait l’unité. De toute évidence, pour des échantillons de taille modeste, il peut y avoir un biais important (facteur deux ou plus).

Variance de la moyenne

Il est souvent intéressant d’estimer la variance ou l’écart type d’une moyenne estimée plutôt que la variance d’une population. Lorsque les données sont autocorrélées, cela a un effet direct sur la variance théorique de la moyenne de l’échantillon, qui est

V a r = σ 2 n. {\displaystyle{\rm{Var}}\left = {\frac{\sigma^{2}}{n}}\left.}

{\displaystyle{\rm{Var}}\left={\frac{\sigma^{2}}{n}}\left.}

La variance de la moyenne de l’échantillon peut alors être estimée en substituant une estimation de σ2. Une telle estimation peut être obtenue à partir de l’équation pour E donnée ci-dessus. Définissez d’abord les constantes suivantes, en supposant, encore une fois, un ACF connu:

γ 1 ≡ 1 − 2 n−1 k k = 1 n−1(1−k n) ρ k {\displaystyle\gamma _{1}\equiv 1-{\frac{2}{n-1}} \sum_{k = 1}^{n-1} {\left(1-{\frac{k}{n}}\right)}\rho_{k}}

{\ displaystyle\gamma_{1}\equiv 1-{\frac{2}{n-1}}\sum_{k= 1}^{n-1}{\left(1-{\frac{k}{n}}\right)}\rho _{k}}

γ 2 ≡ 1 + 2 k k = 1 n−1(1−k n) ρ k {\displaystyle\gamma_{2}\equiv 1 + 2\sum _{k=1} ^{n-1} {\left(1-{\frac{k}{n}}\right)}\rho_{k}}

{\displaystyle\gamma_{2}\equiv 1 +2\sum_{k=1}^{n-1} {\left(1-{\frac{k}{n}}\right)}\rho _ {k}}

de sorte que

E= σ 2 γ 1 ⇒ E = σ 2 {\displaystyle {\rm{E}}\left=\sigma^{2}\gamma_{1}\Rightarrow{\rm{E}}\left=\sigma ^{2}}

{\displaystyle {\rm{E}}\left=\sigma^ {2}\gamma_{1}\Rightarrow {\rm{E}}\left =\sigma^{2}}

Ceci indique que la valeur attendue de la quantité obtenue en divisant la variance de l’échantillon observée par le facteur de correction γ 1 {\displaystyle\gamma_{1}}

\gamma _{1}

donne une estimation impartiale de la variance. De même, en réécrivant l’expression ci-dessus pour la variance de la moyenne, V a r = σ 2 n γ 2 {\displaystyle {\rm{Var}}\left = {\frac{\sigma^{2}}{n}} \gamma _{2}}

{\displaystyle {\rm{Var}}\left = {\frac{\sigma^{2}} {n}} \gamma _{2}}

et en substituant l’estimation pour σ 2 {\displaystyle\sigma^{2}}

\sigma^{2}

donne V a r= E=E {\displaystyle{\rm{Var}}\left={\rm{E}}\left= {\rm{E}}\left}

{\displaystyle{\rm{Var}}\left= {\rm{E}}\left={\rm{E}}\left}

qui est un estimateur impartial de la variance de la moyenne en termes de variance de l’échantillon observée et de quantités connues. Si les autocorrélations ρ k {\displaystyle\rho_{k}}

\rho_{k}

sont identiquement nulles, cette expression se réduit au résultat bien connu pour la variance de la moyenne pour des données indépendantes. L’effet de l’opérateur d’attente dans ces expressions est que l’égalité se maintient dans la moyenne (c’est-à-dire en moyenne).

Estimation de l’écart-type de la populationmodifier

Les expressions ci-dessus impliquant la variance de la population et une estimation de la moyenne de cette population, il semblerait logique de simplement prendre la racine carrée de ces expressions pour obtenir des estimations impartiales des écarts-types respectifs. Cependant, comme les attentes sont des intégrales,

E ≠E σ σ γ 1 {\displaystyle {\rm{E}}\neq {\sqrt{{\rm{E}}\left}}\neq\sigma {\sqrt{\gamma_{1}}}}

{\displaystyle{\rm{E}}\neq {\sqrt{{\rm{E}}\neq {\sqrt {{\rm{E}} }\left}}\neq\sigma{\sqrt{\gamma_{1}}}}

Supposons plutôt qu’il existe une fonction θ telle qu’un estimateur impartial de l’écart type puisse être écrit

E = σ θ γ 1 ⇒ σ ^= s θ γ 1 {\displaystyle {\rm{E}} =\sigma\theta{\sqrt{\gamma_{1}}} \Rightarrow {\hat{\sigma}} = {\frac{s} {\theta{\sqrt{\gamma _{1}}}}}}

{\displaystyle{\rm{E}} =\sigma\theta{\sqrt{\gamma_{1}}} \Rightarrow{\hat{\sigma}} ={\frac{s}{\theta{\sqrt{\gamma _{1}}}}}}

et θ dépend de la taille de l’échantillon n et de l’ACF. Dans le cas de données NID (normalement et indépendamment distribuées), le radicand est unité et θ est juste la fonction c4 donnée dans la première section ci-dessus. Comme pour c4, θ se rapproche de l’unité à mesure que la taille de l’échantillon augmente (tout comme γ1).

On peut démontrer par modélisation de simulation qu’en ignorant θ (c’est-à-dire en le prenant pour unité) et en utilisant

E ≈ σ γ 1 ⇒ σ ^ ≈s γ 1 {\displaystyle {\rm{E}}\approx\sigma{\sqrt{\gamma_{1}}}\Rightarrow{\hat{\sigma}}\approx{\frac{s}{\sqrt{\gamma_{1}}}}}

{\displaystyle{\rm{E}}\approx\sigma{\sqrt{\gamma_{1}}}\Rightarrow{\hat{\sigma}}\approx{\frac{s}{\sqrt{\gamma _{1}}}}}

supprime tout sauf quelques pour cent du biais causé par l’autocorrélation, ce qui en fait un estimateur à biais réduit, plutôt qu’un estimateur impartial. Dans des situations de mesure pratiques, cette réduction du biais peut être significative et utile, même si un biais relativement faible subsiste. La figure ci-dessus, montrant un exemple de biais dans l’écart-type par rapport à la taille de l’échantillon, est basée sur cette approximation; le biais réel serait un peu plus grand que ce qui est indiqué dans ces graphiques puisque le biais de transformation θ n’y est pas inclus.

Estimation de l’écart-type de la moyenne de l’échantillondit

La variance non biaisée de la moyenne en termes de variance de la population et de l’ACF est donnée par

V a r = σ 2 n γ 2 {\displaystyle{\rm {Var}}\left= {\frac{\sigma^{2}}{n}}\gamma _{2}}

{\ displaystyle {\rm{Var}}\left={\frac{\sigma^{2}} {n}}\gamma _{2}}

et comme il n’y a pas de valeurs attendues ici, dans ce cas, la racine carrée peut être prise, de sorte que

σ x = σ n γ 2 {\displaystyle\sigma_{\overline{x}} = {\frac{\sigma}{\sqrt{n}}} {\sqrt{\ gamma _ {2}}}}

{\displaystyle\sigma_{\overline{x}} = {\frac{\sigma}{\sqrt{n}}}{\sqrt{\gamma_{2}}}}

En utilisant l’expression d’estimation non biaisée ci-dessus pour σ, une estimation de l’écart type de la moyenne sera alors

σ^x = s θ n γ 2 γ 1 {\displaystyle {\hat{\ sigma}} _{\overline{x}} = {\frac{s}{\theta{\sqrt{n}}}} {\frac{\sqrt{\gamma_{2}}}{\sqrt{\gamma_{1}}}}}

{\displaystyle{\hat{\sigma}}_{\overline{x}} = {\frac{s}{\ thêta {\sqrt{n}}}} {\frac{\sqrt{\gamma _{2}}} {\sqrt{\gamma _{1}}}}}

Si les données sont NID, donc si l’ACF disparaît, cela se réduit à

σ^x= s c 4 n {\displaystyle {\hat{\sigma}}_ {\overline{x}}={\frac{s}{c_{4} {\sqrt{n}}}}}}

{\displaystyle{\hat{\sigma}}_ {\overline{x}} = {\frac{s}{c_ {4}{\sqrt{n}}}}}