SSブログ

【統計の質問】名義変数(カテゴリカルデータ)の相関分析 [データサイエンス、統計モデル]

統計の講師をしていて、なるほど!と思う質問を受けることがあります。
せっかくなので、その中からピックアップして紹介できればと思います。

【質問】
カテゴリカルデータの場合、相関係数や相関分析に対応するものはあるか?

【回答】
カテゴリカルデータですと、ポリコリック相関係数が有名。
順序尺度にも使えます。

### ポリコリック相関 ###
install.packages("polycor")
library(polycor)

# 強い正の相関の例
x <- c("A","B","A","B","A","B","A","B","A","B")
y <- c("A","B","A","B","A","B","A","B","B","B")
polychor(x, y, ML=TRUE) # ML=TRUE で最尤推定

# 強い負の相関の例
x <- c("A","B","A","B","A","B","A","B","A","B")
y <- c("B","A","B","A","B","A","B","A","A","A")
polychor(x, y, ML=TRUE)

# 相関がない例
x <- c("A","B","A","B","A","B","A","B","A","B")
y <- c("A","B","A","B","A","A","B","A","B","A")
polychor(x, y, ML=TRUE)

基本的には、ポリコリック相関だけで問題ないのですが、バイナリデータに特化した、テトラコリックというのもあります。
テトラコリックは、"psych"というライブラリに入っています。


### テトラコリック相関 ###
install.packages("psych")
library(psych)

# 正の相関
dat <- matrix(c(80,20,10,90),2,2)
tetrachoric(dat) # 相関係数 0.9

# 相関なし
dat <- matrix(c(50,50,50,50),2,2)
tetrachoric(dat) # 相関係数 0.0

# 負の相関
dat <- matrix(c(20,80,90,10),2,2)
tetrachoric(dat) # 相関係数 -0.9


### ポリコリック相関とテトラコリック相関の比較 ###
x <- c(1,0,1,0,1,0,1,0,1,0)
y <- c(0,1,0,1,0,1,0,0,1,0)

x <- as.factor(x)
y <- as.factor(y)

polychor(x, y, ML=TRUE) # 相関係数は、-0.61

# tetrachoricは、そのままだと、エラーになります。
tetrachoric(x, y) # エラー

# tetrachoricを使う場合は、テーブルにしておく
dat <- table(x, y)
tetrachoric(dat) # 相関係数は、-0.61

# polychorは、テーブル形式でも可能
polychor(dat) # 相関係数は、-0.61

nice!(7)  コメント(0) 
共通テーマ:学問

水上スキー 2019 その1 水上高原スキーリゾート [【旅行】関東]

「水上高原スキーリゾート」に1泊2日でスキーに行って来ました。
水上高原スキーリゾートは、ファミリー向けのゲレンデでした。

スノーエスカレーターがあり、初めてスキーをする子供にとても優しい設計です。
また、ポケモンとコラボしていて、ゲレンデの中にもピカチュウであふれていました。

コースも全体的に優しいコースが多いです。

小学生無料のゲレンデもいくつかりますが、ここは3歳からお金がかかるので、注意が必要です。
ファミリーチケットとか買えば、お得になるので、子連れの人はファミリーチケットを買うのが良いと思います。

水上高原スキーリゾート

nice!(1)  コメント(0) 
共通テーマ:旅行

水上スキー 2019 その2 水上温泉 みなかみホテルジュラク [【旅行】関東]

「水上高原スキーリゾート」からインターの方に車で30分くらいの距離に「水上温泉 みなかみホテルジュラク」があります。

水上温泉 みなかみホテルジュラク
https://www.jalan.net/yad342078/

元々、口コミの点数も高いのですが、実際に利用してみると、確かにその評価通り。
サービスもそこまでしてくれますか!というくらいに良いサービスですし、夕食や朝食のビッフェもものすごく豪華でした。





nice!(1)  コメント(0) 
共通テーマ:旅行

水上スキー 2019 その3 水上温泉 みなかみホテルジュラク [【旅行】関東]

1日目は、「水上高原スキーリゾート」で滑りました。

2日目は、「奥利根スノーパーク」にしました。
小学生以下無料なので、小学生以下の子供がいるファミリーには良いかもしれません。

大人のリフト券が高いので、大人だけだと割高に感じるかも。
駐車場も無料です

一方で、ゲレンデは、ファミリー向けのコースは少なく感じました。
後は、スノーエスカレーターが付いていないのと、キッズゲレンデもリフトに乗って上まで行く必要があるので、デビューしたばかりの子供にはきついと思いました。

ゲレンデ(リフト使って登るレストラン)のレストランはかなり小さいので、めちゃくちゃ混雑していました。
駐車場の近くにあるレストランは比較的空いています。





nice!(5)  コメント(0) 
共通テーマ:旅行

水上スキー 2019 その4 日帰り温泉 湯の陣 [【旅行】関東]

ホテル湯の陣
https://www.itoenhotel.com/yunojin/
https://www.jalan.net/yad315400/

入浴料金は、980円とちょっと高め。
近隣のリフト券があれば、590円で利用できました。

館内はちょっと古い昭和な感じがするホテルでした。

まぁ、日帰り入浴だけなら、ここで良いかと思います。

nice!(6)  コメント(0) 
共通テーマ:旅行

【統計】おすすめの参考書 [データサイエンス、統計モデル]

最近、統計を教えていて、よく質問されるのが、「おすすめの参考書ってありますか?」

ただ、この質問に答えるのがかなり難しい。
その人のレベル、バックグラウンド、何をしたいか、によっても、かなり変わってくるのと、自分が分かりやすい/良いと思っていても人によってそのあたりの感覚が違うからです。

とはいえ、何かしら答える必要があるので、いつも下記にある本はどうですか?と言っています。

【いわゆる統計】
統計学入門 (基礎統計学Ⅰ)

統計学入門 (基礎統計学Ⅰ)

統計学入門 (基礎統計学Ⅰ)

  • 作者:
  • 出版社/メーカー: 東京大学出版会
  • 発売日: 1991/07/09
  • メディア: 単行本



入門数理統計学

入門数理統計学

入門数理統計学

  • 作者: P.G.ホーエル
  • 出版社/メーカー: 培風館
  • 発売日: 1978/01/01
  • メディア: 単行本



【統計モデル】
マーケティングの統計モデル

マーケティングの統計モデル (統計解析スタンダード)

マーケティングの統計モデル (統計解析スタンダード)

  • 作者: 佐藤 忠彦
  • 出版社/メーカー: 朝倉書店
  • 発売日: 2015/08/25
  • メディア: 単行本(ソフトカバー)



ベイズモデリングによるマーケティング分析

ベイズモデリングによるマーケティング分析

ベイズモデリングによるマーケティング分析

  • 作者: 照井 伸彦
  • 出版社/メーカー: 東京電機大学出版局
  • 発売日: 2008/09/01
  • メディア: 単行本



現代マーケティング・リサーチ -- 市場を読み解くデータ分析

現代マーケティング・リサーチ -- 市場を読み解くデータ分析

現代マーケティング・リサーチ -- 市場を読み解くデータ分析

  • 作者: 照井 伸彦
  • 出版社/メーカー: 有斐閣
  • 発売日: 2013/11/22
  • メディア: 単行本(ソフトカバー)



ビッグデータ時代のマーケティング―ベイジアンモデリングの活用

ビッグデータ時代のマーケティング―ベイジアンモデリングの活用 (KS理工学専門書)

ビッグデータ時代のマーケティング―ベイジアンモデリングの活用 (KS理工学専門書)

  • 作者: 佐藤 忠彦
  • 出版社/メーカー: 講談社
  • 発売日: 2013/01/22
  • メディア: 単行本(ソフトカバー)



nice!(6)  コメント(0) 
共通テーマ:学問

弱定常と強定常 [時系列解析 / 需要予測]

統計の講師をしていて、なるほど!と思う質問を受けることがあります。
せっかくなので、その中からピックアップして紹介できればと思います。

【質問】
時系列分析で、出てくる、"定常"とは?

定常は、弱定常と強定常があります。

cの条件は、
・任意の時点で、期待値(平均値)が同じ
・任意の時点で、分散が同じ
・任意の時点で、共分散が同じ
です。

強定常は、さらに条件が厳しく、弱定常の条件に加えて
・任意の時点で、確率分布も同じ
の条件が必要になります。

# トレンドがのっていないホワイトノイズの生成
# 正規分布から発生させた乱数(正規ホワイトノイズ)
# 時系列 x を100個作成
x <- rnorm(100)

トレンドがのっていないホワイトノイズの時系列 x は、
・任意の時点で、期待値(平均値)が同じ
・任意の時点で、分散が同じ
・任意の時点で、共分散が同じ
に加えて、
・任意の時点で、確率分布が正規分布
といえるので、強定常の時系列といえます。

nice!(1)  コメント(0) 
共通テーマ:学問

Rで行う分散分析手法の違い [データサイエンス、統計モデル]

統計の講師をしていて、なるほど!と思う質問を受けることがあります。
せっかくなので、その中からピックアップして紹介できればと思います。

【質問】
Rで分散分析を行う時に
# (1) anova関数
anova(lm(Sepal.Width ~ Species, data=iris))

# (2) aov関数
aov(Sepal.Width ~ Species, data=iris)

# (3) oneway.test関数
oneway.test(Sepal.Width ~ Species, data=iris, var.equal=TRUE)

の3種類のやり方があります。

その細かい違いは?という質問です。

【回答】
まず、第一の視点として、データが等分散を仮定しているか、していないか?です。

# (1) lm関数(回帰分析でも用いられる)
等分散を仮定して計算している。

# (2) aov関数
等分散を仮定して計算している。

# (3) oneway.test関数
等分散を仮定しないウェルチの分散分析をしている。

等分散を仮定しないウェルチの分散分析の場合
 oneway.test(Sepal.Width ~ Species, data=iris, var.equal=F)
等分散を仮定した場合(1)と(2)と同じ結果となる
 oneway.test(Sepal.Width ~ Species, data=iris, var.equal=T)


続いて、(1)anova関数と(2) aov関数の違いについてです。
aovは、内部的にはlm関数を呼んでおり、Type IのANOVAとなります。
Type IIのanovaを使いたい場合は、anovaを使います。

各カテゴリのサンプルサイズが同じである場合は、結果は同じになりますが、セル間のサンプルサイズが異なってくる場合は、Type IIやIIIのanovaを使った方が良いと言われています。

分散分析のtypeについて、もう少し詳しく書くと、
type1は、変数を追加していき、ある変数を追加していくことで、平方和がどれくらい増えるかを検定します。
変数増加法のイメージです。
そのため、変数を追加していく順序が異なると、計算結果が異なる場合があります。

type2は、全ての変数を使ったモデルをベースとして、ある変数を減らすと、有意に増えるかどうかを検定しています。
全ての変数を使った場合と、その変数を除外した場合との比較なので、順序には依存しません。

nice!(7)  コメント(0) 
共通テーマ:学問

サンフランシスコ 2019 その1 入国審査が長すぎ [【旅行】アメリカ合衆国]

IBM thinkに出席するため、久々にサンフランシスコに来ています。
ちょうど朝に着いたのですが、他の飛行機組と時間が重なったのと、朝だから審査官が少ないこともあって、めちゃくちゃ並ばされました。

自分は1時間半、一緒に来ていた会社の同僚は2時間です!

ちなみに、1時間半と2時間の違いですが、天国ルートと地獄ルートの違いを書いておきます。
天国ルートでも1時間半ですが。

入国までの手順
1. 45分くらい長蛇の列を待つ。
2. 自動で手続きを行うシステムで登録(指紋とか顔写真など)。
3. レシートが出てくる。
4. レシートに x が出てくれば、再度、別の長蛇の列へ。何もなかったら、ショートカットコースへ。
5. けっこう x が出ている人がいました。出る人と出ない人のその違いってなんだろう。。。

ちなみに、自分の前に並んでいた人は、乗り換えの飛行機が過ぎてしまっていて、文句を言っていました。
さすがに、2時間もかかるなんで、想像できませんからね。。。。

ハワイとかの入国審査も待つときあるけど、2時間ってないでしょう、、、
「welcome to the united state of america」って電光掲示板が、入国審査官の上に表示されているけど、ぜんぜん、歓迎されている気がしません。

nice!(1)  コメント(0) 
共通テーマ:旅行

サンフランシスコ 2019 その2 治安情報 [【旅行】アメリカ合衆国]

サンフランシスコで治安が悪いところといえば、テンダーロイン。
といっても、見るからに危なそうな人がそこにとどまっているわけでもなく、そこから滲み出てくるので、その周辺はかなり危険です。



上記エリア以外でも、浮浪者の数は半端なく、大通りから一本中に入るだけで、途端に雰囲気が危なくなります。

"holiday inn civic center(BEI Hotel San Francisco)"に泊まっていますが、大通りから半ブロック入ったところに入り口があります。
半ブロック入るだけで、浮浪者は昼間からたむろしており、昼間でも一人歩きはやばそう。。。

もちろん、夜の一人歩きは厳禁ですね。。。w

よく、サンフランシスコは治安がいい場所だってガイドブックに書いていますが、昼間歩いてみると、
ごく限られた大通りのみ治安は良いが、それ以外は治安は悪い、といった感じでした。

nice!(2)  コメント(0) 
共通テーマ:旅行

サンフランシスコ 2019 その3 Blue Bottle Coffee [【旅行】アメリカ合衆国]

1日目、9時くらいにサンフランシスコ国際空港に着きました。
2時間近く入国審査があり、その後、タクシーでホテルへ。
道はそれほど混んでいなかったので、30分くらいで着きました。

チェックインは3時なので、少し街を散策することに。

ユニオンスクエアで軽くピザを食べた後は、「Blue Bottle Coffee」に行って来ました。

Blue Bottle Coffee
所在地: 1355 Market St, San Francisco, CA 94103

裏路地に入るので、ここも治安は良くない雰囲気がします。
オシャレだと思いますが、夜はやばそうな雰囲気。





nice!(6)  コメント(0) 
共通テーマ:旅行

サンフランシスコ 2019 その4 フィッシャーマンズワーフにはケーブルカーで! [【旅行】アメリカ合衆国]

何かと危険なエリアが多いサンフランシスコ。
ダウンタウンからフィッシャーマンズワーフに行く方法として、バスや地下鉄などの公共機関、および、ケーブルカーがあります。

バスや地下鉄で移動する方が若干安いですが、ちょっと怖い目にあうかもしれません。。。

安心なのが、ケーブルカーでの移動。
片道7ドルとちょっと高いですが、ケーブルカーからの眺めは最高です。

ウーバー(Uber)を利用すると、だいたい11ドル〜12ドル。
複数人で移動する場合は、ウーバー(Uber)での移動がオススメです!





nice!(2)  コメント(0) 
共通テーマ:旅行

サンフランシスコ 2019 その5 ギラデリスクエア [【旅行】アメリカ合衆国]

フィッシャーマンズワーフのすぐ近くにギラデリスクエア(Ghirardelli Square)があります。



サンフランシスコ土産といえば、Ghirardelli派か、See's Candies派かに分かれるところ。
個人的には、See'sの方が好きですが、それでもギラデリスクエアはなかなか魅力的な場所でした。

ギラデリチョコレートの元工場を改装したショッピングモールで、様々な種類のギラデリチョコを買うことができます。
もちろん、チョコ以外にもオシャレなショップやレストランも入っていました。

ちょうどお腹が空いていたので、チーズの専門店に入ったのですが、なかなか匂いのキツイチーズが出てきました。。。
チーズ好きにはたまらないと思いますが、癖が強いので、注意が必要です。

無難なのが、パフェとかのスイーツ系のお店の方がリスクが少ないと思います。w



nice!(6)  コメント(0) 
共通テーマ:旅行

サンフランシスコ 2019 その6 フィッシャーマンズワーフ、PIER 39 [【旅行】アメリカ合衆国]

サンフランシスコ名所はいろいろありますが、ダウンタウンと違って安心して散歩できるエリアが「PIER 39」です。
このエリアは、ゴールドラッシュ時代において、でサンフランシスコが大きな町になった時の漁港だそうです。

歩いてみると、雰囲気、日本で言うところのお台場に近い感覚です。
大道芸人がショーをしたり、お菓子からザ・お土産的なものまで、様々なものが溢れています。

波止場からは、ゴールデンゲートブリッジやアメリカのギャング「アル・カポネ」が収監されていた刑務所の「アルカトラズ島」をみることができます。
すぐそこに見えるのですが、脱獄不可能と言われています。
その理由としては、
・水温が極端に低い
・海流が乱れており、流れも速い
・サメがウヨウヨいる
だそうです。





nice!(5)  コメント(0) 
共通テーマ:旅行

サンフランシスコ 2019 その7 Scoma's(スコマズ) [【旅行】アメリカ合衆国]

Scoma’s Restaurant、Pier to Plate、Local Fishermen's Fare
https://scomas.com/

フィッシャーマンズワーフにある海鮮料理レストラン「スコマズ」。
口コミ評価もなかなか良いです。

サンフランシスコの海鮮料理といえば、クラムチャウダーとか生牡蠣。
牡蠣とビールやワインの相性が絶品でした。

アメリカといえば、ステーキを思い浮かべますが、海鮮料理も良いですね。
そうえいば、こっちに来てステーキ食べてない。。。





nice!(6)  コメント(0) 
共通テーマ:旅行

サンフランシスコ 2019 その8 サンフランシスコは安全? [【旅行】アメリカ合衆国]

地球の歩き方などのガイドブックを見ていると、サンフランシスコはアメリカの他のエリアに比べて比較的安全な場所と書かれています。

しかし、実際に、サンフランシスコのダウンタウンを歩いてみると、「本当にそうか???」と思う場面が多く、むしろ、身の危険を感じるエリアが多いです。

まず、昼間でも一人で歩かない方が良い場所は、The Tenderloin(テンダーロイン)地区。
美味しそうなお肉の名前ですが、なんでも、ここで働く警察官は高い給料をもらうことができ、その手当で高級なステーキを食べることができるので、テンダーロインという名前が着いたそうです。

サンフランシスコで最も危険なエリアと言われています。
実は、ヒルトンのホテルとすぐ隣り合わせなので、うっかりホテルから西に行かないように注意しましょう。

次に危険なのが、SoMa(サウス・オブ・マーケット)地区。
銃犯罪がよく発生するエリアとして有名です。

Holiday Inn San Francisco(BEI San Francisco)というホテルに泊まっていますが、このホテルはちょうど、テンダーロインとSoMaエリアの間にあり、その周辺は昼間でも危険を感じます。
ホテルから半ブロック歩くだけでも、ホームレスの人がウヨウヨいるので、昼間でも車の移動が良いかもしれません。

そして、上に書いた、テンダーロインやソーマ地区以外にも、危険なエリアがあちこちにあるので注意が必要です。
最近は貧富の差が増えているため、車上荒しや人混み多いところでのスリも多発しているとか。

アメリカの他のエリアだと、危険なエリアが明確に決まっており、ここからここまでは、入らない!という線引きがきちんとできますが、
サンフランシスコの場合は、そのエリアが明確に決まっておらず、危険なエリアから滲み出て来ているイメージです。

危険なエリアを感じるコツとしては、
・窓やドアに鉄格子があるエリアは危険
・変な臭いがする(マリファナや浮浪者の臭い)
・ホームレスがいる
です。

基本的に、サンフランシスコのレストランは閉まるのが早いです。
それだけ、治安が悪いってことかもしれません。

サンフランシスコの治安のまとめ
・サンフランシスコの治安は悪い!
・昼間でも、人通りの少ないエリアは危険。
・夜の一人歩きは厳禁(命の危険あり)。
・1ブロック先ではなく、半ブロック先くらいでも、すぐに危険なエリアがある。
・なんか怖いと思ったら、すぐに引き返す。



nice!(4)  コメント(0) 
共通テーマ:旅行