決定木とベイジアンネット(Bayesian networks) [ベイジアンネット]
有名な?アヤメ(Iris)のデータを使って決定木とベイジアンネットの精度を比較しました。
他のデータを使ったりオプションを変えたりするともちろん異なる結果が出ると思いますので、そのあたりはご参考にしてください。
まずは、Clementine 9.0の新アルゴリズムCHAIDを使いました。
モデル作成用データでモデルを作成し、検証用データで精度を確かめます。
検証用データの72レコード中、64レコードが正解です。
64 / 72 = 88.8(%)
同じようなことをBayonetを使って行いました。
検証用データの72レコード中、68レコードが正解です。
68 / 72 = 94.4(%)
今回のデータでは、ベイジアンネットの方がよく当たっていました。
最初に、書いたようにデータやモデル構築のオプションで精度は変わるので
一概にどっちが精度が良いとかってのは、言えません。
ここで、ベイジアンネットのシミュレーションのよさを考えたいと思います。
下記の様に
自信を持って、1だと断言している場合と、
の様に0.89くらいは2で、0.11くらいは3であるといってくる場合があります。
そこで、それぞれ、どれくらいの精度なのか検証用データに当てはめました。
上記の場合、検証用データでも100%、【1】でした
下記の場合、検証用データに当てはめてみると
というように、89.47%は【2】で10.53%は【3】となっています!!!
つまり、ベイジアンネットの確率の分布とぴったり一致しているわけですね。
ベイジアンネットは確率の世界です。
【買う/買わない】の予測だけではなく、どれくらいの割合【買う/買わない】ということをシミュレーションすることができます。