試行回数nが大きい場合の二項分布の検定 [データサイエンス、統計モデル]
統計の講師をしていて、なるほど!と思う質問を受けることがあります。
せっかくなので、その中からピックアップして紹介できればと思います。
試行回数nが小さい場合の二項分布の検定
https://skellington.blog.so-net.ne.jp/2019-03-30
↑
こちらの続き
サンプルサイズが小さい場合は、確率を直接計算するやり方でp値などを求め検定を行うことができます。
試行回数nが大きくなると、直接確率計算をすることが困難になるため、なんらかの近似を行う必要が出てきます。
具体的には、試行回数が多くなると正規分布に近似することができるという性質を使って検定を行います。
簡単な方法は、prop.testを使えば母比率の検定を行うことができますが、
原理原則を確認するという意味では、
正規分布に近似してz値を計算 → p値を計算
というやり方が良いかと思います。
【問題】
購入 非購入 合計
20代 116 76 192
30代 244 44 288
--------------------------
合計 360 120 480
# 正規分布に近似してz値を計算 → p値を計算
p1 <- 116/192
p2 <- 244/288
z <- (p1-p2)/(p1*(1-p1)/192+p2*(1-p2)/288)^0.5
z <- abs(z)
(1-pnorm(z))*2
# prop.testを使う場合
A.B.res <- c(116, 244)
A.B.pop <- c(192, 288)
prop.test(A.B.res, A.B.pop)
せっかくなので、その中からピックアップして紹介できればと思います。
試行回数nが小さい場合の二項分布の検定
https://skellington.blog.so-net.ne.jp/2019-03-30
↑
こちらの続き
サンプルサイズが小さい場合は、確率を直接計算するやり方でp値などを求め検定を行うことができます。
試行回数nが大きくなると、直接確率計算をすることが困難になるため、なんらかの近似を行う必要が出てきます。
具体的には、試行回数が多くなると正規分布に近似することができるという性質を使って検定を行います。
簡単な方法は、prop.testを使えば母比率の検定を行うことができますが、
原理原則を確認するという意味では、
正規分布に近似してz値を計算 → p値を計算
というやり方が良いかと思います。
【問題】
購入 非購入 合計
20代 116 76 192
30代 244 44 288
--------------------------
合計 360 120 480
# 正規分布に近似してz値を計算 → p値を計算
p1 <- 116/192
p2 <- 244/288
z <- (p1-p2)/(p1*(1-p1)/192+p2*(1-p2)/288)^0.5
z <- abs(z)
(1-pnorm(z))*2
# prop.testを使う場合
A.B.res <- c(116, 244)
A.B.pop <- c(192, 288)
prop.test(A.B.res, A.B.pop)