Clementine、ロジスティック回帰 そのⅡ [データサイエンス、統計モデル]
Clementine(クレメンタイン)のストリームで書くと、こうなる。
乱数発生させたりしているくらいで、たいしたことはやってない。(笑
モデルへの入力変数は、
となっている。
ちなみに、乱数だが、R だと、rbinom という乱数を使えるのだが、Clementine君は、たいした乱数の関数を持っていない。
通常に一様分布の乱数と、正規分布の乱数くらいである。
結果をみると
パラメータの推定値が
切片(beta0): -4.325
x(beta1): 0.694
となっている。
実際の値は、
beta0 <- -4.2
beta1 <- 0.7
なので、かなり精度よく推定できている。
ゲインチャートは、
また、ノードを通して得られる結果は、
となっている。
ここで注意が必要なのは、
$LP-y
というのは、1 とか 0 とかの直接の確率ではない。
たとえば、一行目の 0.687 ってのは、0 である確率が 0.687 となっている。
それで、よくやる変換方法として、if-thenを使って、新変数scoreを作る。
つまり、
$L-y = 1 の時、
score = 0.5 + $LP-y/2
$L-y = 0 の時、
score = 0.5 - $LP-y/2
とすると分りやすいだろう。
0 である確率が 0.687ってのことは、
score = 0.5 - 0.687 / 2
= 0.1565
となる。
乱数発生させたりしているくらいで、たいしたことはやってない。(笑
モデルへの入力変数は、
となっている。
ちなみに、乱数だが、R だと、rbinom という乱数を使えるのだが、Clementine君は、たいした乱数の関数を持っていない。
通常に一様分布の乱数と、正規分布の乱数くらいである。
結果をみると
パラメータの推定値が
切片(beta0): -4.325
x(beta1): 0.694
となっている。
実際の値は、
beta0 <- -4.2
beta1 <- 0.7
なので、かなり精度よく推定できている。
ゲインチャートは、
また、ノードを通して得られる結果は、
となっている。
ここで注意が必要なのは、
$LP-y
というのは、1 とか 0 とかの直接の確率ではない。
たとえば、一行目の 0.687 ってのは、0 である確率が 0.687 となっている。
それで、よくやる変換方法として、if-thenを使って、新変数scoreを作る。
つまり、
$L-y = 1 の時、
score = 0.5 + $LP-y/2
$L-y = 0 の時、
score = 0.5 - $LP-y/2
とすると分りやすいだろう。
0 である確率が 0.687ってのことは、
score = 0.5 - 0.687 / 2
= 0.1565
となる。