SSブログ

【ポアソン分布】ポアソン分布のパラメータは一つだけ [データサイエンス、統計モデル]

ポアソン分布は、よく使われているように感じるけど、実際には様々な条件があって使えない場合が多かったり、他の回帰や検定などを使ったほうが良いのでは?と感じるケースもあります。

そこで自分なりにポアソン分布に関することをまとめました。

まず、ポアソン分布のパラメータについて。
これはλだけです。

正規分布のパラメータは、平均μと分散σ2の2つ。
二項分布のパラメータは、試行回数nと確率pの2つ。
これらの分布は、パラメータが2つあるので、分布の形状は比較的柔軟に形を変えることができます。

一方で、ポアソン分布のパラメータはλだけなので、思っている以上に自由な分布を与えることができません。

つまり、ポアソン分布(ポアソン回帰)使えるかも!と思っても、意外と使えない場合が多いので注意が必要です。

もう一つ重要な性質があります。
「ランダムではない事象」には使えないということです。
(もともと、兵士が馬に蹴られて死ぬ確率ということから導出されたのがポアソン分布)

nice!(2)  コメント(0) 
共通テーマ:学問

【最尤法】ポアソン回帰の実装の仕方 [データサイエンス、統計モデル]

マーケティングでポアソン回帰を使った事例があまり見つからなかったのですが、この本が分かりやすいかと思います。


マーケティングの統計モデル (統計解析スタンダード)

マーケティングの統計モデル (統計解析スタンダード)

  • 作者: 佐藤 忠彦
  • 出版社/メーカー: 朝倉書店
  • 発売日: 2015/08/25
  • メディア: 単行本(ソフトカバー)




#######3章-ポアソン回帰モデルによる市場反応分析#######
#読み込みデータsec3_poisson_reg.csvのファイルレイアウト
#購買日付
#商品Aの販売個数
#商品Aの価格掛率
#商品Bの価格掛率
#商品Aの山積み陳列実施の有無(1実施0非実施)
#商品Bの山積み陳列実施の有無(1実施0非実施)
#来店客数
Dataset <- read.table("sec3_poisson_reg.csv",header=TRUE, sep=",", 
    na.strings="NA", dec=".", strip.white=TRUE)
##オフセット変数なし
GLM.2 <- glm(Sale_Unit_A ~ PriceIndex_A + PriceIndex_B + Display_A + 
    Display_B,family=poisson(log), data=Dataset)
summary(GLM.2)
##オフセット変数あり
GLM.3 <- glm(Sale_Unit_A ~ PriceIndex_A + PriceIndex_B + Display_A + 
    Display_B,family=poisson(log), offset=log(Visitors), data=Dataset)
summary(GLM.3)


結果は、下記となっています。


> summary(GLM.2)

Call:
glm(formula = Sale_Unit_A ~ PriceIndex_A + PriceIndex_B + Display_A + 
    Display_B, family = poisson(log), data = Dataset)

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-12.1719   -1.3862   -0.1740    0.9973   19.8663  

Coefficients:
             Estimate Std. Error  z value Pr(>|z|)    
(Intercept)   6.35932    0.10355   61.412   <2e-16 ***
PriceIndex_A -6.96169    0.06148 -113.240   <2e-16 ***
PriceIndex_B  2.04395    0.08974   22.778   <2e-16 ***
Display_A     0.85543    0.01923   44.476   <2e-16 ***
Display_B    -0.07092    0.03073   -2.308    0.021 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for poisson family taken to be 1)

    Null deviance: 25654  on 1313  degrees of freedom
Residual deviance:  6188  on 1309  degrees of freedom
AIC: 10926

Number of Fisher Scoring iterations: 5


続いて、ポアソン回帰をもう少し深く理解するために、尤度関数を書いて、最尤法を使って解くことにします。

少しだけコードの説明。
ポアソン分布のパラメータはλですが、それは、exp(β0 + β1 * x1 + …)という線形の関係で書くことができます。
ポアソン分布の式から、尤度関数を求め、そのlogを取ったものが対数尤度関数になります。

log(y!)を計算するのですが、直接
log(gamma(y))
とすると、yが大きすぎて階乗の計算ができません。
大きいlog gammaの計算はlgammaで計算できます。


hh <- nrow(Dataset)  ## レコード数

## 尤度関数を用いた離散選択モデルを実施
# パラメータの初期化
beta_0 <- c(0, 0, 0, 0, 0)

# ポアソン回帰モデルの対数尤度関数
fr <- function(x)
{
  b0 <- x[1] #切片
  b1 <- x[2] #PriceIndex_A
  b2 <- x[3] #PriceIndex_B
  b3 <- x[4] #Display_A
  b4 <- x[5] #Display_B

  LL = 0

  for(i in 1:hh) {
    # 効用の計算
    lambda <- exp(b0 + b1 * Dataset[i, 3] + b2 * Dataset[i, 4] + 
        b3 * Dataset[i, 5] + b4 * Dataset[i, 6])

    # 対数尤度の計算
    LLL <- Dataset[i, 2] * log(lambda) -lambda -lgamma(Dataset[i, 2])
    LL <- LL + LLL
  }
  return(LL)
}

# 対数尤度関数の最大化
#  "fnscale = -1" で最大化
logit.out <- optim(beta_0, fr, method = "BFGS", hessian = TRUE, 
        control = list(fnscale = -1))

# 収束判定
logit.out$convergence

# 推定されたパラメータ
# パラメータの最尤推定値
logit.out$par


optimを使った最尤法の結果とglmを使ったパラメータの推定結果が一致することが確認できました。

nice!(3)  コメント(0) 
共通テーマ:学問

CMStatistics 2019 [【旅行】イギリス]

CMStatistics 2019
http://www.cmstatistics.org/CMStatistics2019/

こちらのカンファレンスに行ってこようかと思っています。

昨年のKDD2018以来のロンドンで開催です。
クリスマスシーズンのヨーロッパに行ったことがないので、とても楽しみです♪

冬のロンドンは寒そうですけど・・・

2019/12/13(土)~16(月)の4日間あります。
13日は、Rを使ったTutorialsもあります。

月曜日始まりのカンファレスが多い気がするのですが、土曜日開催。
その分、月曜日に終わりますが。。。

nice!(1)  コメント(0) 
共通テーマ:旅行

ハロウィンピアノコンサート 2019 [ファミリー]

昨年に引き続いて今年も参加。



去年は、兄と妹で参加でしたが、今年は娘のみ。
4年生になると、塾とか色々あって、ピアノの練習量が減ってきますね。。。

nice!(1)  コメント(0) 
共通テーマ:育児

バタープレミアム(Butter Premium)ららぽーと豊洲店 [グルメ / クッキング]

バタープレミアム(Butter Premium)ららぽーと豊洲店
https://tabelog.com/tokyo/A1313/A131307/13153605/
https://mitsui-shopping-park.com/gourmet/lalaport/toyosu/g0015000000017210/

いつも激混雑のバタープレミアムですが、オンライン予約できるようになっていました。

ちょうど、ららぽーとに入ったくらいのタイミングで予約。
7名待ちだったのですが、駐車場からエレベータがなかなか来ない。

その間に呼び出されていました。

ただ、再度、並びなおしではなく、すぐに順番が来たので良かったです。



ちょうどこの季節ならではのモンブラン&パンケーキを食べました。
値段は少々高い気もしますが、美味しいパンケーキを食べることが出来ました。

nice!(4)  コメント(0) 
共通テーマ:グルメ・料理

ソニー・エクスプローラサイエンス [ファミリー]

お台場にあるソニー・エクスプローラサイエンスに行ってきました。
今は、小学生は無料です!

週末、かなりの確率でお台場にいるのですが、「ソニー・エクスプローラサイエンス」に行ったのは初めて。

なんとなく場所は知っていたのですが、なかなか行く機会がなかったです。

実際に行ってみると、サイエンスの戦いとか、大人が見ていても「おぉ~!」と声に出して驚くことが多かったです。

それを小学生でもわかりやすく説明してくれるところも良い!

また行ってみたいです!

nice!(0)  コメント(0) 
共通テーマ:育児

「いきなり!ステーキ」9月売上は34%減 [時事 / ニュース]

「いきなり!ステーキ」9月売上は34%減 活かされていない吉野家の教訓
https://news.livedoor.com/article/detail/17276814/

新しいところに店舗を出すと新規は取れる。
しかし、既存顧客は、やがて離れて行ってしまう。

離反防止として、肉マイレージがあると思います。
ある一定の量を食べると、それなりの特典がもらえるというものです。

まぁ、最上位のランクになるには、ハードルが高すぎるので、そこを目指すのはほぼ無理。
ゴールドくらいなら簡単になれます。
ゴールドになると、ウーロン茶といったフリードリンクが毎回無料になるというもの。

これで、離反防止になれば良いのですが、、、
実際に、離反せずに利用し続ける人もいれば、「いきなり!ステーキ」に飽きて離反する人もいる。

この辺りは、個々の異質性によるもので、一律にウーロン茶無料!の特典が響かない層がいるというものなんでしょう。

実際に、立って食べるというこは、相当ハードルが高かったり違和感を覚える人がいるので、むしろ、コンスタントに利用する人の方が珍しいかもしれません。

そのあたりのレストラン利用に比べて、ランチでもそれなりにするので、価格が高いと思う人も多い。

そうなってくると、基本的に「いきなり!ステーキ」の利用はほぼ数回で飽きられてしまい、離反する人が多いという構造になってきます。
新規店舗をたくさん出すことで、まだ利用したことがない顧客を次々と取り込んできましたが、だんだんと飽和状態になっており、その新しいエリア出店というのも厳しくなってきているのではないでしょうか。

nice!(3)  コメント(0) 
共通テーマ:ニュース

「検定」と「統計モデル」と「機械学習」の違い [データサイエンス、統計モデル]

統計モデルと機械学習の違いを個人的な見解で書くと、
・統計モデル:構造(意思決定のメカニズム)を「説明」することにより重きを置いている
・機械学習:予測することにより重きを置いている
かと思います。

最近では、統計モデルであってもそれなりの精度が出せるモデルが出てきたり、機械学習で作ったモデルでも構造を理解するアプローチが盛んに議論されたりしています。

この辺りは、色々なサイトで書かれているので、それほど違和感がないかと思います。

最近、感じることとして、「検定」と「統計モデル」の使い分けが出来ていない場合が多いかなと。
ABテストが簡単できるようになったおかげで、「検定」して、統計的に有意だから、効果あり!とか効果なしといった議論をしたくなるわけです。

「検定」について、みんなが迷っている/誤った使い方としてこんなのが見られます。
・いろんな検定あるけど、その検定使ったらいいのか?
・有意なってほしいので、色々な検定をやりまくって、なんとか有意になる検定を探している

フィッシャーの3原則というのがあります。
(統計検定2級あたりではよく出てきます。)
1.局所管理
2.無作為化
3.反復

まぁ、当然のことを言っているのですが、ABテスト(実験)をやる上で、できるだけ均一になるよう管理するということを言っています。

なので、介入をしている変数以外は、基本的に同じ(全体的に平均)ということを仮定しています。

「検定」の世界においては、差があるとは言えない状況(有意でないケース)というのは、平均的には差がないということを言っています。

ただ、マーケティング(特にOne To Oneマーケティングの世界)において、平均的には差がないかもしれないけど、とあるセグメントには有意に差があるという場合があります。
むしろ、どういう人に有効なのかを見つけることが腕の見せ所かもしれません。

こういう状況においては、「検定」のアプローチではなく、「統計モデル」を使うことで、これらを明らかにすることができます。

nice!(3)  コメント(0) 
共通テーマ:学問

「交絡」と「共変量」の違い [データサイエンス、統計モデル]

統計の講師をしていて、なるほど!と思う質問を受けることがあります。
せっかくなので、その中からピックアップして紹介できればと思います。

【質問】
「交絡」と「共変量」の違いは?

続きを読む


nice!(0)  コメント(0) 
共通テーマ:学問

分散分析と共分散分析の違い [データサイエンス、統計モデル]

【質問】
「分散分析 (analysis of variance ; ANOVA)」と「共分散分析 (analysis of covariance ; ANCOVA)」の違いは?

続きを読む


nice!(0)  コメント(0) 
共通テーマ:日記・雑感

運動会2019 [ファミリー]

子供の運動会がありました。
小学生が増えたため、校舎を増築。

その結果、運動場が小さくなってしまった。。。

親の観覧スペースも縮小されて、運動場じゃなく、校舎の2階とか屋上から観覧することになりました。

個人的には近くの公園とか利用すればと思うのですが、セキュリティの問題とか施設予約の問題とかいろいろな課題が多いのでしょうね。

nice!(0)  コメント(0) 
共通テーマ:育児

英語『シュガー・ラッシュ:オンライン』(原題:Ralph Breaks the Internet) [Disney / ディズニー]

2012年に公開された『シュガー・ラッシュ』の続編。


シュガー・ラッシュ:オンライン MovieNEX [ブルーレイ+DVD+デジタルコピー+MovieNEXワールド] [Blu-ray]

シュガー・ラッシュ:オンライン MovieNEX [ブルーレイ+DVD+デジタルコピー+MovieNEXワールド] [Blu-ray]

  • 出版社/メーカー: ウォルト・ディズニー・ジャパン株式会社
  • メディア: Blu-ray



6年経っていますが、ゲームだけでなく、Google、Amazon、youtube、wifi、スマホ等々、その間に、世界は大きく変わりましたね。

この映画の見どころの一つは、ディズニープリンセスたちの共演ですが、ほとんどすべてのプリンセスがオリジナルの声優さんでした。
一部、都合が合わなかったのか諸事情によって、オリジナル声優と別の声優さんが演じているプリンセスもありますが、個人的にはわからなかったですw

子供たちと見ましたが、とても良い映画だなと思いました。
今回、良い終わり方をしているので、続編『シュガー・ラッシュ 3』はさすがにないと思いますが、トイ・ストーリーの用にしばらくして『シュガー・ラッシュ 2』の続編を見てみたいものです。

nice!(4)  コメント(0) 
共通テーマ:映画

年収1,000万円超の8割がクレジットカード派 [マネー]

年収1,000万円超の8割がクレジットカード派
https://news.mynavi.jp/article/20191030-916546/

時々よく似た記事を目にしますが、「高年収は人は、○○をつけている」的な記事。
時計をつけているとか、長財布を持っているとか。

高校の数学で習った人も多いかと思いますが、
「逆、対偶、裏」のうち、正しいのは対偶だけ。

「年収1,000万円超の8割は、クレジットカード派」である。
(逆)クレジットカード派は、年収1,000万円超の8割である
→ 必ずしも正しくない

(裏)年収1,000万円超の8割でなければ、クレジットカード派でない
→ 必ずしも正しくない

(対偶)クレジットカード派でない人は、年収1,000万円超の8割ではない。
→ 必ずた正しい

「逆、対偶、裏」を書きましたが、「年収1,000万円超の8割がクレジットカード派」が正しいからと言って、「クレジットカードを使えば、年収1,000万円になる」わけではないので、注意が必要です。
原因と結果をを逆に考えてはだめです。

実際には、年収が高くなればなるほど、クレジットカード派が増えているのも事実。
では、なぜ、年収が高い人ほど、カード利用率が高くなるのかを考えると、楽しいですね。

自分なりに「なぜ、年収が高い人ほど、カード利用率が高くなるのか」を考えてました。

理由1
年収が低いと、カードの審査で落ちるので、そもそもカードを持っていない説

理由2
年収が高くなる → ゴールド、プラチナ、ブラックカードを持ちたくなる。
作ったからには、そのクレジットカードを使う説。

理由3
高額決済が必要な場面が増える、現金持ち歩くと面倒。
→ クレジットカード決済が増える。

その他、情報リテラシーなどなど、様々な理由があるかと思います。

nice!(0)  コメント(0) 
共通テーマ:マネー

【American Express】コンビニで15%キャッシュバック [マネー]

10月31日(木)~11月30日(土)まで。
上限500円と、ちょっと寂しいですが、まぁ、コンビニなので、良いですかね。

ちなみに、15%キャッシュバックで上限500円ということなので、利用金額は

500円 / 0.15% = 3333.33
となります。

3000円ちょっとまでキャッシュバックされるようです。

事前登録が必要なので、登録をしてからコンビニに行きましょう~!

nice!(0)  コメント(0) 
共通テーマ:マネー

LINE Payの国内MAU、「300億円祭」終了後に4割減 490万人→286万人に [マネー]

LINE Payの国内MAU、「300億円祭」終了後に4割減 490万人→286万人に
https://www.itmedia.co.jp/news/articles/1910/30/news124.html

要約すると、
・1~3月期は約170万人だった
・4~6月期に300億円ばらまいたら、約490万人利用してくれた
・7~9月期は約286万人残ったよ
ということでした。

300億かけて、170万人から286万人と100万人がアクティブになったというわけですか。
300億円 / 100万人 = 300円/人
一人あたり300円かけていることになります。

しかし…
実際はどうなんでしょう?

7~9月期というのは、4~6月期で利用したポイントが付与されて、その付与されたポイントを消費しただけかも?という懸念もあります。

還元キャンペーンが終わっても、SUICAやIDではなく、現金ではなく、paypayとか楽天payでははなく、LINE Payをメインで使ってくれる人ってどれくらいいるか気になります。

10~12月期の集計結果を見てみないとわかりませんが、「300億円祭」でどこまでアクティブユーザをアップリフト(アドオン)できたのか楽しみです。

nice!(4)  コメント(0) 
共通テーマ:マネー