重回帰で回帰係数の符号が逆転している場合の意味 [データサイエンス、統計モデル]
個々の変数の相関が正(負)なのに、重回帰式において、その係数が負(正)になることがあります。
そんな時に、どう考えるか?
試しにネットに落ちている中古車データを拾ってきました。
相関係数を計算すると
となります。
走行距離や年数が古くなれば、中古車価格は下落するという事が分かります。
ここで、中古車価格を目的変数に、走行距離と年数を説明変数にすると
中古車価格 = -10.0 × 走行距離 - 10.7 × 年数 + 252.0
という重回帰式が得られます。
走行距離が1万km増えると、中古車価格は10.0万円下落し、
同様に年数が1年増えると、中古車価格は10.7万円下落することが分かります。
さて、次に、年数を目的変数に、走行距離と中古車価格を説明変数にすると
年数 = -0.0499 × 価格 - 0.154× 走行距離 + 13.86
という結果になりました。
年数と走行距離の相関係数は、0.562と正の値なのですが、
回帰式のパラメータは、マイナスとなっています。
つまり、「走行距離が1万キロ増えると、年数が0.154年減少する」となっていて感覚と値が違う結果になってしまいます。
これをどう考えるか?です。
重回帰の場合、解釈としては、注意が必要で、「他の変数が同じ値だった場合(他の変数を影響を統制した場合)の効果」をみていることになります。
つまり、「走行距離が同じであったとしたら、走行距離が1万キロ増えた場合、年数はどうなるか?」を表していることになります。
例として、ある車種が、
【車種 A】走行距離:10万キロ、価格:100万円、年数:10年
だったとした場合、
【車種 B】走行距離:20万キロ、価格:100万円、年数:???年
車種Bは、20万キロも走っているけど、車種Aと同じです。
つまり、年数が10年ではなく、もっと小さい数字であることが期待されます。
この構造を表しているのが重回帰のパラメータということになります。
一方、一般的には、走行距離が大きくなれば、年数も同時に大きくなる(正の相関がある)という事を表しているのが、相関係数となります。
そんな時に、どう考えるか?
試しにネットに落ちている中古車データを拾ってきました。
相関係数を計算すると
となります。
走行距離や年数が古くなれば、中古車価格は下落するという事が分かります。
ここで、中古車価格を目的変数に、走行距離と年数を説明変数にすると
中古車価格 = -10.0 × 走行距離 - 10.7 × 年数 + 252.0
という重回帰式が得られます。
走行距離が1万km増えると、中古車価格は10.0万円下落し、
同様に年数が1年増えると、中古車価格は10.7万円下落することが分かります。
さて、次に、年数を目的変数に、走行距離と中古車価格を説明変数にすると
年数 = -0.0499 × 価格 - 0.154× 走行距離 + 13.86
という結果になりました。
年数と走行距離の相関係数は、0.562と正の値なのですが、
回帰式のパラメータは、マイナスとなっています。
つまり、「走行距離が1万キロ増えると、年数が0.154年減少する」となっていて感覚と値が違う結果になってしまいます。
これをどう考えるか?です。
重回帰の場合、解釈としては、注意が必要で、「他の変数が同じ値だった場合(他の変数を影響を統制した場合)の効果」をみていることになります。
つまり、「走行距離が同じであったとしたら、走行距離が1万キロ増えた場合、年数はどうなるか?」を表していることになります。
例として、ある車種が、
【車種 A】走行距離:10万キロ、価格:100万円、年数:10年
だったとした場合、
【車種 B】走行距離:20万キロ、価格:100万円、年数:???年
車種Bは、20万キロも走っているけど、車種Aと同じです。
つまり、年数が10年ではなく、もっと小さい数字であることが期待されます。
この構造を表しているのが重回帰のパラメータということになります。
一方、一般的には、走行距離が大きくなれば、年数も同時に大きくなる(正の相関がある)という事を表しているのが、相関係数となります。