SSブログ

正規分布の加法性について [データサイエンス、統計モデル]

正規分布の加法性としてN(μa, σa)とN(μb, σb)の二つの正規分布の和は
N(μa+μb, σa+σb)
となることが簡単に証明できます。

証明はいろいろなやり方がありますが、個人的には積率母関数を使った証明がシンプルで好きです。

以下、Rを使ったシミュレーションです。


## サンプルサイズの設定
N <- 5000

# 母集団Aからサンプリング
set.seed(1234)
sample_a <- rnorm(N, 3, 4)

# 母集団Bからサンプリング
set.seed(1234)
sample_b <- rnorm(N, 2, 3)

# a, bからランダムに1つずつ要素を取り出し、その和を要素とする新しい集団を作る
sample_new <- sample_a + sample_b


この時、sample_newはどんな分布に従っているか?


# 平均と標準偏差を計算
round(mean(sample_new), 3)
round(sd(sample_new), 3)
# 正規性の検定(シャピロ・ウィルク検定)
shapiro.test(x=sample_new)


実際は、
mean = 5
sd = 7
が期待されます。

それぞれ、サンプルサイズが50の場合、500の場合、5000の場合でシミュレーションしました。


N <- 50の時

> mean(sample_new)
[1] 1.829
> sd(sample_new)
[1] 6.195
> shapiro.test(x=sample_new)

        Shapiro-Wilk normality test


data: sample_new
W = 0.94504, p-value = 0.02142

平均がやや小さいあたいになっています。
また、p値が0.02142であるため,有意水準が5%で帰無仮説が棄却され、正規分布に従っているとはいえない。


N <- 500の時

> mean(sample_new)
[1] 5.013
> sd(sample_new)
[1] 7.244
> shapiro.test(x=sample_new)

        Shapiro-Wilk normality test

data:  sample_new
W = 0.99623, p-value = 0.2848


平均と標準偏差が期待される値に近くなってきました。
p値も大きくなっています。

N <- 5000の時

> mean(sample_new)
[1] 4.965
> sd(sample_new)
[1] 6.939
> shapiro.test(x=sample_new)

        Shapiro-Wilk normality test

data:  sample_new
W = 0.99974, p-value = 0.809


nice!(3)  コメント(0) 
共通テーマ:学問

nice! 3

コメント 0