SSブログ

マーケティング・データ分析の基礎:8.1 相関と回帰分析 [データサイエンス、統計モデル]


マーケティング・データ分析の基礎 (シリーズ Useful R 3)

マーケティング・データ分析の基礎 (シリーズ Useful R 3)

  • 出版社/メーカー: 共立出版
  • 発売日: 2014/10/24
  • メディア: 単行本



こちらの例題を見ているのですが、なかなか面白いデータや分析が紹介されています。

第8章 市場反応を分析する
8.1 相関と回帰分析
8.2 回帰分析を利用して販売データを分析する

https://www.kyoritsu-pub.co.jp/bookdetail/9784320123663

データやRのコードはこちらからダウンロードできます。

####################
# 8.1 相関と回帰分析
####################
 
# 相関係数
Rdata=read.csv("regression_data.csv" , header=TRUE, comment.char="#")
attach(Rdata)
head(Rdata,15)
 
library(maptools)
plot(TaJan, sake, xlab="1月の平均気温",ylab="清酒の消費量ml")
pointLabel(TaJan,sake,labels=city,cex=0.7)
 
mean(sake)
Rdata[23,]
 
cor(TaJan,sake)
cor.test(TaJan,sake)
 
# 回帰分析
res=lm(sake~TaJan)
summary(res)
 
res.coef=coef(res)
res.coef
 
plot(TaJan, sake, xlab="1月の平均気温",ylab="清酒の消費量ml")
abline(res$coef[1],res$coef[2])
 
psake<-predict(res)
plot(sake,psake,asp=1,xlab="清酒消費量の観測値", ylab="清酒消費量の予測値")
abline(0,1)


個人的に面白かったのは、平均気温と清酒の消費量が負の相関があるということです。
つまり、寒い地域は、より日本酒を飲む傾向にある、というところ。

せっかくなので、
・予測した値よりもあまり日本酒を飲まない地域はどこ?
・予測した値よりもより多く日本酒を飲む地域はどこ?
を調べました。

予測した値よりもあまり日本酒を飲まない地域の上位4エリア
1.札幌市:8,395(-5,058)
2.鹿児島市:1,266(-4,710)
3.宮崎市:3,358(-3,236)
4.熊本市:5,080(-2,626)
 (****)の数字は、実際の消費量との差分

1.の北海道が想定より飲まれていない理由は、北海道が寒すぎるから。。。
線形モデルなので、気温が下がれば下がるほど、日本酒を飲むようになるかといえば、まぁ、そうならないですよね。
2.~4.のエリアは、日本酒よりも焼酎を飲む文化があるからだと思われます。

予測した値よりもより多く日本酒を飲む地域
1.新潟市:15,259(5,761)
2.金沢市:13,717(4,837)
3.松江市:12,716(4,145
4.福島市:13,245(3,005)
 (****)の数字は、実際の消費量との差分
こちらの理由は、ちょっと不明。
1.~3.は日本海ですが、何か関係しているのかな。。。
日本酒が有名でエリアということでしょうか。

nice!(3)  コメント(0) 
共通テーマ:学問