SSブログ

センター試験当日は、本当に雪が降るのかを統計検定する [データサイエンス、統計モデル]

まずは、データの準備から。

過去19年間のセンター試験当日の東京の天気は、以下の通り。
晴れ:10回
曇り:2回
雨:3回
雪:4回
東京で1月に雪の降る日の確率は9%となっている。


ここからわかることは、雪の日の確率は、4/19≒21%
平均9%ということは、センター試験の日が雪だった確率は2倍以上となっています。

これくらい差があれば、統計的に有意と言えるか?
次に問題となるのが、どういう検定を使えば良いかという問題。

体重や身長といった平均値の検定をするにはt検定が一般的です。
今回は、確率の検定なので、二群の比率の差の検定(prop.test)を使うことになります。

過去19年間の1月の日数の合計:31*19=589
過去19年間の1月に雪が降った日数:589*9%=53

### 二群の比率の差の検定(prop.test)
 
# センター試験に雪の日の日数:4、過去19年間の1月に雪が降った日数:53
A.B.res <- c(4, 53)
 
# 過去19年間のセンター試験の日数:19、過去19年間の1月の日数の合計:589
A.B.pop <- c(19, 589) # A,Bの人数
 
# 二群の比率の差の検定(prop.test)
prop.test(A.B.res, A.B.pop)


この時のp値は、p-value = 0.1693 となり、帰無仮説を棄却できません。
わかりやすく言えば、「統計的に差があるとは言えない。」となります。

まぁ、たまたま、センター試験の日に雪の日が偶然に多かっただけ、というのが統計的な答えです。

一方、注意が必要で、
警告メッセージ:
prop.test(A.B.res, A.B.pop) で: カイ自乗近似は不正確かもしれません

というメッセージも出ています。

このメッセージが出ている時は、正確確率検定を実施するのが良いです。

# Fisherの正確検定
fisher.test(matrix(c(4, 53, 19, 589), nrow=2))


この時のp値は、p-value = 0.1258 となっています。
結果は先ほどと同じで「統計的に差があるとは言えない。」となります。

もう少しサンプルサイズが増えて、それでも雪の日の確率が2倍くらいあるんだったら、統計的に差があるといえる日がくるかもしれませんね。

続きを読む


nice!(4)  コメント(0)