Statistics-goodness-of-fit
統計-適合度
- 適合度*検定は、サンプルデータが母集団の分布から適合しているかどうかを確認するために使用されます。 人口には正規分布またはワイブル分布があります。 簡単に言えば、サンプルデータが、実際の母集団から見つけることを期待しているデータを正しく表していることを意味します。 統計学者は通常、次の検定を使用します。
- カイ二乗
- コルモゴロフ=スミルノフ
- アンダーソン・ダーリン
- シピロウィルク
カイ二乗検定
カイ二乗検定は適合度検定の検定に最も一般的に使用され、二項分布やポアソン分布などの離散分布に使用されますが、コルモゴロフ-スミルノフおよびアンダーソン-ダーリング適合度検定は連続分布に使用されます。
式
$ \ {X ^ 2 = \ sum \ {[\ frac \ {(O_i-E_i)^ 2} \ {E_i}]}} $
どこ-
- $ \ {O_i} $ =変数のi番目のレベルの観測値。
- $ \ {E_i} $ =変数のi番目のレベルの期待値。
- $ \ {X ^ 2} $ =カイ二乗確率変数。
例
おもちゃの会社がサッカー選手のおもちゃを作りました。 カードの30%がミッドフィールダー、60%がディフェンダー、10%がフォワードであると主張しています。 100個のおもちゃのランダムサンプルを考えると、50人のミッドフィールダー、45人のディフェンダー、5人のフォワードがいます。 重要度が0.05レベルである場合、会社の主張を正当化できますか?
溶液:
仮説を決定する
- *帰無仮説$ H_0 $ *-ミッドフィールダー、ディフェンダー、フォワードの割合はそれぞれ30%、60%、10%です。
- *代替仮説$ H_1 $ *-帰無仮説の少なくとも1つの割合が偽です。
自由度を決定する
自由度DFは、カテゴリ変数のレベル数(k)から1を引いた値に等しい:DF = k-1。 レベルは3です。 Thus
$ \ {DF = k-1 \\ [7pt] \、= 3 -1 = 2} $
カイ2乗検定の統計量を決定する
$ \ {X ^ 2 = \ sum \ {[\ frac \ {(O_i-E_i)^ 2} \ {E_i}]} \\ [7pt] \、= [\ frac \ {(50-30)^ 2 } \ {30}] + [\ frac \ {(45-60)^ 2} \ {60}] + [\ frac \ {(5-10)^ 2} \ {10}] \\ [7pt] \ 、= \ frac \ {400} \ {30} + \ frac \ {225} \ {60} + \ frac \ {25} \ {10} \\ [7pt] \、= 13.33 + 3.75 + 2.50 \\ [ 7pt] \、= 19.58} $
p値を決定する
P値は、2自由度を持つカイ2乗統計$ X ^ 2 $が19.58よりも極端である確率です。 カイ二乗分布計算機を使用して、$ \ {P(X ^ 2 \ gt 19.58)= 0.0001} $を見つけます。
結果を解釈する
P値(0.0001)は有意水準(0.05)よりもかなり小さいため、帰無仮説は受け入れられません。 したがって、会社の主張は無効です。