欠損値を含むレコードの処理 その5 回帰代入 [データサイエンス、統計モデル]
その2 C&RT Treeを使った欠測処理 で行った決定木を使う補完方法の場合、同じ枝の値は全部同じ値になってしまうため、上手く補完ができませんでした。
だったら、決定木ではなく回帰分析を行ってその値で補正しましょうというのは自然な流れです。
[真値]
yの平均:124
yの標準偏差:25.0
xとyの相関:0.592
[MCAR]
yの平均:124 ○
yの標準偏差:19.2 ×(小さい)
xとyの相関:0.793 ×(高い)
[MAR]
yの平均:122 ○
yの標準偏差:21.1 ×(小さい)
xとyの相関:0.816 ×(高い)
[MNAR]
yの平均:148 ×(高すぎる)
yの標準偏差:9.86 ×(小すぎる)
xとyの相関:0.671 ×(高い)
平均値に関して言えば、MCARとMARは大丈夫そうです。
yの標準偏差やxとyの相関に関しては上手く行っていません。
これは、CRT代入や平均値代入と同じく、一つの値で補正をしてしまっているため、母数にバイアスがないのが原因です。
★ 過去の記事 ★
欠損値を含むレコードの処理 その1 欠測データの生成方法
http://skellington.blog.so-net.ne.jp/2016-12-19
欠損値を含むレコードの処理 その2 C&RT Treeを使った欠測処理
http://skellington.blog.so-net.ne.jp/2016-12-20
欠損値を含むレコードの処理 その3 リストワイズ削除
http://skellington.blog.so-net.ne.jp/2016-12-21
欠損値を含むレコードの処理 その4 平均値代入
http://skellington.blog.so-net.ne.jp/2016-12-22
だったら、決定木ではなく回帰分析を行ってその値で補正しましょうというのは自然な流れです。
[真値]
yの平均:124
yの標準偏差:25.0
xとyの相関:0.592
[MCAR]
yの平均:124 ○
yの標準偏差:19.2 ×(小さい)
xとyの相関:0.793 ×(高い)
[MAR]
yの平均:122 ○
yの標準偏差:21.1 ×(小さい)
xとyの相関:0.816 ×(高い)
[MNAR]
yの平均:148 ×(高すぎる)
yの標準偏差:9.86 ×(小すぎる)
xとyの相関:0.671 ×(高い)
平均値に関して言えば、MCARとMARは大丈夫そうです。
yの標準偏差やxとyの相関に関しては上手く行っていません。
これは、CRT代入や平均値代入と同じく、一つの値で補正をしてしまっているため、母数にバイアスがないのが原因です。
★ 過去の記事 ★
欠損値を含むレコードの処理 その1 欠測データの生成方法
http://skellington.blog.so-net.ne.jp/2016-12-19
欠損値を含むレコードの処理 その2 C&RT Treeを使った欠測処理
http://skellington.blog.so-net.ne.jp/2016-12-20
欠損値を含むレコードの処理 その3 リストワイズ削除
http://skellington.blog.so-net.ne.jp/2016-12-21
欠損値を含むレコードの処理 その4 平均値代入
http://skellington.blog.so-net.ne.jp/2016-12-22