SSブログ

Rを使って平均値の95%信頼区間を計算する方法 [データサイエンス、統計モデル]

統計の講師をしていて、なるほど!と思う質問を受けることがあります。
せっかくなので、その中からピックアップして紹介できればと思います。

【質問】
平均値は、mean(dat)で計算できますが、95%信頼区間ってどう計算するのか?

【回答】
以下、irisのデータを使った例を書きます。

# irisのSepal.Lengthを最初から10レコード取得
dat <- head(iris$Sepal.Length, n=10)

dat(Sepal.Length)の平均値の95%信頼区間を求める方法

やり方は2つあります。

計算方法 その1
まず、母平均の「信頼区間」を求める式を使うやり方です。
標本平均 ± t値 × 標本標準偏差 ÷ √標本の数
で計算できます。

Rのコードで書くと
標本平均: mean(dat)
t値: qt(0.025, 9) or qt(0.975, 9)
標本標準偏差: sd(dat)
√標本の数: 10^0.5

これらをつなげると、下記となります。
mean(dat)+qt(0.025, 9)*sd(dat)/10^0.5
mean(dat)+qt(0.975, 9)*sd(dat)/10^0.5

t値: qt(0.025, 9) を補足しておくと、
95%信頼区間ですが、今回は両側検定となるため、0.025, 0.097となります。
また、自由度は一つ減って10-1=9となっていることに注意が必要です。


計算方法 その2
Rのt.testを使えば、一行で答えが出てきます。
t.test(dat)

One Sample t-test

data: dat
t = 52.749, df = 9, p-value = 1.589e-12
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
4.651576 5.068424
sample estimates:
mean of x
4.86

ここから、平均値の95%信頼区間は、
4.651576 〜 5.068424
となりました。

nice!(6)  コメント(0) 
共通テーマ:学問

nice! 6

コメント 0