SSブログ

同時確率と条件付き確率 その2 周辺化 [データサイエンス、統計モデル]

下記の問題を考えたとします。
1. 袋が2つあり、袋aには赤玉3個、青玉7個。袋bには赤玉5個、青玉4個。
2. まず、袋a,bを決めて、玉を取る時、赤玉が選ばれる確率は?

【アプローチ1】
素直に条件付き確率で計算する場合
p(x): 袋a, bを選択する確率、1/2
p(y): 赤玉を選択する確率

p(x, y) = p(x|y)*p(y)より
袋aが選択されて赤玉が選ばれる確率は
3/10 * 1/2 = 0.15

袋bが選択されて赤玉が選ばれる確率は
5/9 * 1/2 = 0.2777778

よって、赤玉がえらばる確率は、0.15+0.28=0.4277778

【アプローチ2】
袋a, bが選ばれる確率が等しいので、袋を一つにして
(3+5)/(10+9)=0.4210526

ということで、
【アプローチ1】の結果 ≠ 【アプローチ2】の結果
となりました。
選ばれる確率が等しくても、分母が違うと上手くいきません。

算数(数学)的考えてみると

3/10 * 1/2 + 5/9 * 1/2
= (3/10 + 5/9) * 1/2

(3/10 + 5/9) を (3+5)/(10+9) と計算してはダメなのは、小学生の分数で理解できます。

このように赤玉が出る確率を袋a, bと分けて考えていく考えが、ベイズ統計の第一歩である周辺化(周辺確率)につながっていきます。

nice!(3)  コメント(0) 
共通テーマ:学問