チェッカーフラグの判定 [データサイエンス、統計モデル]
第一象限と第三象限が赤、第二象限と第四象限が青のデータがある。
ニューラルネットを用いてこれを上手く判別できないだろうか?
決定木だと、かなり単純である。
X > 0 and Y > 0 ⇒ 赤
X < 0 and Y > 0 ⇒ 青
X > 0 and Y < 0 ⇒ 赤
X < 0 and Y < 0 ⇒ 青
この様に直線でバシッバシッと切るのは決定木が得意とするところ。
逆に、ふにゃふにゃした曲線を区切るのは苦手であろう。
次に、ニューラルネットワークでモデルを作成した。
モデルは、高速、複数、剪定、RBFNの4種類。
検証用データに当てはめてどれくらい当たっているかというと、
高速:0.922
複数:0.968
剪定:0.986
RBFN:0.968
である。
高速は高速だけあって、精度はしょぼい。
各モデルの分布をプロットすると
高速
複数
剪定
RBFN
というように原点とか境界付近で予測が怪しくなってくる。
なかなか直角な関数を表現するのは、難しいんだろう。
これがSVMとかなら
f(X, Y) = X * Y
でf(X, Y)が正・負で決定木同様に楽々判定させることが可能である。
ニューラルネットを用いてこれを上手く判別できないだろうか?
決定木だと、かなり単純である。
X > 0 and Y > 0 ⇒ 赤
X < 0 and Y > 0 ⇒ 青
X > 0 and Y < 0 ⇒ 赤
X < 0 and Y < 0 ⇒ 青
この様に直線でバシッバシッと切るのは決定木が得意とするところ。
逆に、ふにゃふにゃした曲線を区切るのは苦手であろう。
次に、ニューラルネットワークでモデルを作成した。
モデルは、高速、複数、剪定、RBFNの4種類。
検証用データに当てはめてどれくらい当たっているかというと、
高速:0.922
複数:0.968
剪定:0.986
RBFN:0.968
である。
高速は高速だけあって、精度はしょぼい。
各モデルの分布をプロットすると
高速
複数
剪定
RBFN
というように原点とか境界付近で予測が怪しくなってくる。
なかなか直角な関数を表現するのは、難しいんだろう。
これがSVMとかなら
f(X, Y) = X * Y
でf(X, Y)が正・負で決定木同様に楽々判定させることが可能である。