推定誤差と必要な標本サイズ [データサイエンス、統計モデル]
何かの調査をした時に、○○の認知率とか、△△の支持率などを計算する時がある。
本来ならば、全数(全国民に)調査をすればわかるのだが、現実的には不可能だ。
Clementineで欠損率の割合を計算したのだが、推定誤差が標本サイズと共にどう変化していくのかを計算した。
標本サイズが大きい時、欠損率の割合は、二項分布の正規近似を使えば、以下の平均と標準偏差を持つ正規分布に近似的にしたがう。
今、標本サイズが得られたとき、推定欠損率と母集団の欠損率との誤差が信頼確率95%で e 以内に入ると考えると
1. エクセルの関数 =NORMSINV( 0.975 ) より、中央部面積が 0.95 となる値は、Zo ≒ 1.95996108
2. 母集団標準誤差は、標本割合の分布の標準偏差から
(ここでは、全母集団の欠損率0.241295を用いた)
3. ここで一度標本数が与えられると
下記の表の様に標本数が増えると、推定欠損率の誤差の幅が小さくなっていく。
コメント 0