95%信頼区間とは [データサイエンス、統計モデル]
統計の講師をしていて、なるほど!と思う質問を受けることがあります。
せっかくなので、その中からピックアップして紹介できればと思います。
【質問】
rnormという乱数を使って何度かシミュレーションしているが、毎回同じ平均と分散になるのは違和感がある。
なぜか?
【回答】
これはなかなか良い質問だなと思いました。
母集団があって、そこからランダムサンプルするたびに、平均と分散(標準偏差)は異なります。
これが統計検定のややこしいところ。
95%信頼区間とは「95%の確率で真のパラメータ(母数)がその区間に入る」と解釈できるわけではない。
正しくは、「同じ状況において、観測を複数回繰り返し95%信頼区間を求めた場合、95%はその区間に真のパラメータを含む」と、やや不自然な解釈となります。
つまり、毎回、サンプリングするたびに、平均と分散(標準偏差)が変わるということは、平均値の位置も信頼区間の長さも変わることを理解することがとても大切。
話を戻して、なぜ、同じ結果になるのかコードを見てみると
set.seed(12345)
となっていました。
ということで、そこをコメントアウトしてもらうことで、解決できました。
せっかくなので、その中からピックアップして紹介できればと思います。
【質問】
rnormという乱数を使って何度かシミュレーションしているが、毎回同じ平均と分散になるのは違和感がある。
なぜか?
【回答】
これはなかなか良い質問だなと思いました。
母集団があって、そこからランダムサンプルするたびに、平均と分散(標準偏差)は異なります。
これが統計検定のややこしいところ。
95%信頼区間とは「95%の確率で真のパラメータ(母数)がその区間に入る」と解釈できるわけではない。
正しくは、「同じ状況において、観測を複数回繰り返し95%信頼区間を求めた場合、95%はその区間に真のパラメータを含む」と、やや不自然な解釈となります。
つまり、毎回、サンプリングするたびに、平均と分散(標準偏差)が変わるということは、平均値の位置も信頼区間の長さも変わることを理解することがとても大切。
話を戻して、なぜ、同じ結果になるのかコードを見てみると
set.seed(12345)
となっていました。
ということで、そこをコメントアウトしてもらうことで、解決できました。
コメント 0