Tobit Model(トービットモデル) [データサイエンス、統計モデル]
今やっている分析で不明な点があったので、大学の先生のところに相談に行きました。
やりたいこと(作りたい統計モデル)は、
「ある期間の購入金額を予測したい。」
です。
複数回購入している人はその合計値をyとします。
一方で、一度も購入していない人(購入回数が0回の人)は、yは0となります。
まず考えたことは、0回か1回以上かをロジスティック回帰モデルで予測する。
1回以上購入した人は、重回帰モデルを適用する。
というやり方。
先生に上記やり方で良いかを相談したところ、
「打ち切りデータを表現するためのモデルとしてTobit Model(トービットモデル)」
があるとのことでした。
打ち切りデータというのは、生存時間分析などでも出てきますが、今回のケースは
ロジットモデルの効用関数的なものとして
y* = b0 + b1 * x1 + … bi * xi + ε
を考えます。
実際の y の値として
y≧0の場合、y*
y<0の場合、0
となります。
RにもTobit Modelができる関数が用意されているので、簡単に実装できそうです。
やりたいこと(作りたい統計モデル)は、
「ある期間の購入金額を予測したい。」
です。
複数回購入している人はその合計値をyとします。
一方で、一度も購入していない人(購入回数が0回の人)は、yは0となります。
まず考えたことは、0回か1回以上かをロジスティック回帰モデルで予測する。
1回以上購入した人は、重回帰モデルを適用する。
というやり方。
先生に上記やり方で良いかを相談したところ、
「打ち切りデータを表現するためのモデルとしてTobit Model(トービットモデル)」
があるとのことでした。
打ち切りデータというのは、生存時間分析などでも出てきますが、今回のケースは
ロジットモデルの効用関数的なものとして
y* = b0 + b1 * x1 + … bi * xi + ε
を考えます。
実際の y の値として
y≧0の場合、y*
y<0の場合、0
となります。
RにもTobit Modelができる関数が用意されているので、簡単に実装できそうです。