標準偏差の不偏推定
上記の材料は、再びポイントを強調するために、独立したデータにのみ適用されます。 しかし、現実世界のデータは、多くの場合、この要件を満たしていない;それは自己相関(シリアル相関とも呼ばれます)されています。 一例として、何らかの形の”平滑化”(より正確には、ローパスフィルタリング)プロセスを組み込んだ測定機器の連続測定値は、任意の特定の値が以前の測定値と後の測定値のいくつかの組み合わせから計算されるため、自己相関される。
自己相関データの分散と標準偏差の推定値は偏っています。
自己相関データの分散と標準偏差の推定値は偏っています。
サンプル分散の期待値は
E=∑2{\displaystyle{\rm{E}}\left=\sigma^{2}\left}
ここで、nはサンプルサイズ(測定数)であり、ρ k{\displaystyle\rho_{k}}
はデータの自己相関関数(acf)です。 (括弧内の式は、単に読み取り値の平均予想自己相関を引いたものであることに注意してください。)ACFが正の値で構成されている場合、分散の推定値(およびその平方根、標準偏差)は低くバイアスされます。 つまり、データの実際の変動性は、修正されていない分散または標準偏差の計算によって示される変動性よりも大きくなります。 この式がバイアスを補正するために使用される場合、推定s2{\displaystyle s^{2}}
を上記の括弧内の量で割ることによって、ACFはデータからの推定ではなく解析的に知られていなければならないことを認識することが不可欠である。 これは、推定されたACF自体が偏っているためです。
標準偏差におけるバイアスの例編集
標準偏差におけるバイアスの大きさを説明するために、ACFが
∑k=(1−α)k{\displaystyle\rho_{k}=(1-\alpha)^{k}}
であることが知られている。”スムージング…” つまり、バイアスがなければ、推定された標準偏差と既知の標準偏差の比率はユニティになります。 明らかに、適度なサンプルサイズの場合、有意なバイアス(2倍以上)が存在する可能性があります。
平均の分散編集
母集団の分散ではなく、推定平均の分散または標準偏差を推定することが重要であることがよくあります。
母集団の分散ではなく、推定平均の分散または標準偏差を推定することが重要です。 データが自己相関している場合、これはサンプル平均の理論的分散に直接影響します。
V a r=≥2nです。 {\displaystyle{\rm{Var}}\left={\frac{\sigma^{2}}{n}}\left。}
サンプル平均の分散は、σ2の推定値を代入することによって推定することができます。 そのような推定値の1つは、上に与えられたEの式から得ることができる。 まず、既知のACFを仮定して、次の定数を定義します:
γ1≡1−2n−1∑k=1n−1(1−k n)ρ k{\displaystyle\gamma_{1}\equiv1-{\frac{2}{n-1}}\sum_{k=1}^{n-1}{\left(1-{\frac{k}{n}}\right)}\rho_{k}}
γ2≡1+2∑k=1n−1(1−k n)ρ k{\displaystyle\gamma_{2}\equiv1+2\sum_{k=1}^{n-1}{\left(1-{\frac{k}{n}}\right)}\rho_{k}}
これは、観測された標本の分散を補正係数π1{\displaystyle\gamma_{1}}
で割った量の期待値が分散の不偏推定値を与えることを意味する。 同様に、平均の分散について上記の式を書き直すと、V a r=√2n√2{\displaystyle{\rm{Var}}\left={\frac{\sigma^{2}}{n}}\gamma_{2}}
そしてσ2{\displaystyle\sigma^{2}}
の推定値を代入すると、v a r=e=e{\displaystyle{\rm{var}}\left={\rm{e}}\left={\rm{e}}\left}
これは 観測されたサンプルの分散と既知の量の観点からの平均の分散の不偏推定量。 自己相関σ k{\displaystyle\rho_{k}}
が同じゼロであれば、この式は独立データの平均の分散の既知の結果に帰着する。 これらの式における期待演算子の効果は、等価性が平均で保持されることです(つまり、平均で)。
人口の標準偏差の推定編集
母集団の分散とその母集団の平均の推定を含む上記の式を持つことは、単にそれぞれの標準偏差の公平な推定値を得るためにこれらの式の平方根を取ることは論理的に思えるでしょう。 しかしこの場合、期待への積分、
E≠E≠σ γ1{\displaystyle{\rm{E}}\neq{\sqrt{{\rm{E}}\left}}\neq\sigma{\sqrt{\boldsymbol{1}}}}
ではなく、機能θが存在しな不偏推定量の標準偏差で書き込まれる
E=σ θ γ1⇒σ^=s θ γ1{\displaystyle{\rm{E}}=\sigma\theta{\sqrt{\boldsymbol{1}}}\Rightarrow{\hat{\sigma}}={\frac{s}{\theta{\sqrt{\gamma_{1}}}}}}
とθはサンプルサイズnとACFに依存します。 NID(通常および独立に分散された)データの場合、radicandは1であり、λは上記の最初のセクションで与えられたc4関数にすぎません。 C4と同様に、σ1と同様に、サンプルサイズが増加するにつれてσは1に近づきます。
σを無視する(つまり、それを1とする)ことをシミュレーションモデリングによって実証することができ、
E≤1≤^≤s≤1{\displaystyle{\rm{e}}\approx\sigma{\sqrt{\gamma_{1}}}\rightarrow{\Hat{\sigma}}\approx{\frac{s}{\sqrt{\gamma_{1}}}}}
自己相関によって引き起こされるバイアスの数パーセントを除くすべてを削除し、これを不偏推定量ではなく減少バイアス推定量にします。 実際の測定状況では、比較的小さなバイアスが残っていても、このバイアスの減少は重要であり、有用である可能性があります。 上の図は、標準偏差とサンプルサイズのバイアスの例を示していますが、この近似に基づいています。
標本平均の標準偏差の推定編集
母集団分散とACFの観点からの平均の不偏分散は、
V a r=√2n√2{\displaystyle{\rm{Var}}\left={\frac{\sigma^{2}}{n}}\gamma_{2}}
上記のσについての不偏推定式を使用すると、平均の標準偏差の推定値は
σ^x=s≤n≤2≤1{\displaystyle{\hat{\sigma}}_{\overline{x}}={\frac{\sigma}{\sqrt{n}}}{\sqrt{\gamma_{2}}}{\sqrt{\gamma_{2}}}{\sqrt{\gamma_{2}}}{\sqrt{\gamma_{2}}}{\sqrt{\gamma_{2}}}{\sqrt{\gamma_{2}}}{\sqrt{\gamma_{2}}}{\sqrt{\gamma_{2}}}{\sqrt{\gamma_{{\frac{s}{\theta{\sqrt{n}}}}{\frac{\sqrt{\gamma_{2}}}{\sqrt{\gamma_{1}}}}}
データがNIDの場合、 ACFが消滅すると、これは次のようになります
σ^x=s c4n{\displaystyle{\hat{\sigma}}_{\overline{x}}={\frac{s}{c_{4}{\sqrt{n}}}}}
Leave a Reply