正規分布の加法性について [データサイエンス、統計モデル]
正規分布の加法性としてN(μa, σa)とN(μb, σb)の二つの正規分布の和は
N(μa+μb, σa+σb)
となることが簡単に証明できます。
証明はいろいろなやり方がありますが、個人的には積率母関数を使った証明がシンプルで好きです。
以下、Rを使ったシミュレーションです。
この時、sample_newはどんな分布に従っているか?
実際は、
mean = 5
sd = 7
が期待されます。
それぞれ、サンプルサイズが50の場合、500の場合、5000の場合でシミュレーションしました。
N <- 50の時
data: sample_new
W = 0.94504, p-value = 0.02142
平均がやや小さいあたいになっています。
また、p値が0.02142であるため,有意水準が5%で帰無仮説が棄却され、正規分布に従っているとはいえない。
N <- 500の時
平均と標準偏差が期待される値に近くなってきました。
p値も大きくなっています。
N <- 5000の時
N(μa+μb, σa+σb)
となることが簡単に証明できます。
証明はいろいろなやり方がありますが、個人的には積率母関数を使った証明がシンプルで好きです。
以下、Rを使ったシミュレーションです。
## サンプルサイズの設定
N <- 5000
# 母集団Aからサンプリング
set.seed(1234)
sample_a <- rnorm(N, 3, 4)
# 母集団Bからサンプリング
set.seed(1234)
sample_b <- rnorm(N, 2, 3)
# a, bからランダムに1つずつ要素を取り出し、その和を要素とする新しい集団を作る
sample_new <- sample_a + sample_b
この時、sample_newはどんな分布に従っているか?
# 平均と標準偏差を計算
round(mean(sample_new), 3)
round(sd(sample_new), 3)
# 正規性の検定(シャピロ・ウィルク検定)
shapiro.test(x=sample_new)
実際は、
mean = 5
sd = 7
が期待されます。
それぞれ、サンプルサイズが50の場合、500の場合、5000の場合でシミュレーションしました。
N <- 50の時
> mean(sample_new)
[1] 1.829
> sd(sample_new)
[1] 6.195
> shapiro.test(x=sample_new)
Shapiro-Wilk normality test
data: sample_new
W = 0.94504, p-value = 0.02142
平均がやや小さいあたいになっています。
また、p値が0.02142であるため,有意水準が5%で帰無仮説が棄却され、正規分布に従っているとはいえない。
N <- 500の時
> mean(sample_new)
[1] 5.013
> sd(sample_new)
[1] 7.244
> shapiro.test(x=sample_new)
Shapiro-Wilk normality test
data: sample_new
W = 0.99623, p-value = 0.2848
平均と標準偏差が期待される値に近くなってきました。
p値も大きくなっています。
N <- 5000の時
> mean(sample_new)
[1] 4.965
> sd(sample_new)
[1] 6.939
> shapiro.test(x=sample_new)
Shapiro-Wilk normality test
data: sample_new
W = 0.99974, p-value = 0.809
コメント 0