SSブログ

傾向スコアを使ったアップリフトモデルについて考える その2 [データサイエンス、統計モデル]

傾向スコアを使ったアップリフトモデルについて考える
https://skellington.blog.ss-blog.jp/2021-02-12

こちらの続き。

まずは、前回のおさらいから。

傾向スコアの手順
1. データを3つに分けて考えます。
目的変数:y
説明変数その1:CTL or TG
説明変数その2:他の変数X(変数Xの中にyや"説明変数その1"は入れない)

2. CTLとTGを他の変数Xを使ってロジスティック回帰分析で変数XがCTL/TGにあたえる影響をモデリングする。

3. 目的変数yとCTL/TGの傾向スコアをみて、yとCTL/TGの関係をモデル化する。

アップリフトモデルの思想としては、
a. CTL と TGの効果を正しく見積もりたい
b. 人によって、施策効果(TGの効果)は違うはずなので、効率の良いセグメントを見つけたい
です。

しかし、この方法だと、a.の効果は分かっても、b.の効果はわからない。
CTL/TGの効果は、平均的な消費者像を扱っていることになります。

b.に関して、人ごとの効果のモデリングはは難しいとして、ある程度のセグメントごとにその傾向をみたいと考えるわけです。

簡単なセグメントの場合(一般顧客、優良顧客くらい)だと、データを一般と優良の2つに分けることで、それぞれのCTL/TGの効果をみることはできそうです。
しかし、セグメントをものすごく細かくしていった場合どうなるか?

完全にランダムデータの場合(CTLとTGがランダムに選ばれている場合)は、わざわざ傾向スコアを持ち出さなくても、簡単に分析できます。
マーケティングの施策(CTLとTG)は、何かの戦略によって、TGになったりCTLになったりしているので、セグメントを細かく指定いくと、ほとんどCTLだったりTGだったりとなる可能性出てきます。
このような状況の場合は、各セグメント後の施策効果を正しく判断するのはできなくなります。

いっけん遠回りに思えるかもしれないが、最初にランダムな実験をしておいて、質の良いトレーニングデータを作っておくことで、その後のモデル化が効率化されたり、各セグメントの効果を正しく見積もれるようになると考えています。

nice!(3)  コメント(0) 
共通テーマ:学問