SSブログ

マハラノビス距離を利用した異常検知の応用 [データサイエンス、統計モデル]

統計の講師をしていて、なるほど!と思う質問を受けることがあります。
せっかくなので、その中からピックアップして紹介できればと思います。

【質問】
マハラノビス距離を使った異常検知をしました。
二変数の相関から異常値を検知するというのは理解しました。
では、全ての説明変数を使って何らか異常値を検知する方法はありますか?

【回答】
なるほど・・・と少し悩みましたが、こういうのはどうでしょうか?

目的変数yに対して、ロジットモデルor線形回帰モデルを行います。
ここまでは、通常のアプローチと同じ。

一方で、階層ベイズのアプローチを使えば、各個人ごと(各セグメントごと)に回帰係数を計算できます。
各回帰係数の分布を見ることで、異常値を出している人を理解できます。

ただ、異常値と書くとなんだか他の人と違う外れ値的な感じがするのですが、
マーケティング的には異常値と言うよりかは、異質性という言い方します。

特に、インターネットのマーケティングにおいては、異質性を考慮した1to1マーケティングが求められています。

nice!(0)  コメント(0) 
共通テーマ:学問